
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek-OCR 2 是DeepSeek团队推出的第二代 OCR 模型,通过引入 DeepEncoder V2 架构,实现从固定扫描到语义推理的范式转变。模型采用因果流查询和双流注意力机制,能动态重排视觉 Token,更精准地还原复杂文档的自然阅读逻辑。在OmniDocBench v1.5 评测中,模型综合得分达到 91.09%,较前代提升显著,同时显著降低了 OCR 识别结果的重复率,为
DeepSeek-R1 一经发布引起国际热议,其性能比肩 OpenAI o1 正式版,但是花费却大大减少,并且该模型已经完全开源。目前使用Ollama搭建的deepseek模型1.5b版本已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验搭建deepseek 带来的精彩体验吧!视频教程:趋动云一键体验爆火模型【deepseek】

MatAnyone2是由南洋理工大学S-Lab和商汤科技联合开发的视频抠图框架。该技术采用记忆传播机制,通过区域自适应记忆融合实现稳定的视频抠像效果,能精准处理发丝等细节。其特点包括首帧锁定目标、智能记忆稳定和超清细节处理,适用于视频背景替换、直播特效、电影制作等场景。项目已在GitHub开源,并在趋动云平台提供一键部署服务,支持快速体验。该技术突破了传统视频抠图需要逐帧调整的限制,实现了自动化高

英伟达开源NemotronSpeechASR模型,专为低延迟实时语音识别设计。该模型采用缓存感知架构,将已处理语音特征缓存复用,单句转录延迟仅24毫秒,有效解决长语音识别中的延迟累积问题。支持多档延迟模式灵活调整,端到端延迟控制在500毫秒内,原生支持标点符号和大小写识别。模型具备高吞吐量和低成本优势,适用于游戏语音、实时翻译、会议记录等场景,并与LLM和TTS技术协同构建完整语音智能体方案。目前

Fun-ASR是通义实验室研发的端到端语音识别大模型,基于数千万小时语音数据训练,支持31种语言和多种方言口音。其轻量版Fun-ASR-Nano在保持识别效果的同时优化了模型结构,具有低延迟、易集成等特点,适用于智能客服、教育应用等场景。该模型特别擅长处理专业术语和行业表达,有效解决"幻觉"生成问题。目前已上线HuggingFace模型库和趋动云平台,提供一键部署功能,用户可通

这种方法可以检测多个对象,并且速度更快,准确率更高。参考本节,体验使用 YOLO 系列中精度最高的 yolov8x 推理预测交通信息,包括:识别交通工具、车辆进区域计数、车辆越线计数。5.推理完成后,当前目录(/gemini/code/)会生成相应推理结果视频,下载并观看。4.运行过程中,右上角的实心圈会逐渐变成空心圈,当完全变成空心圈时代表推理完成。2.双击左侧目录中“体验2-车辆进区域计数.i

高校AI实验室常面临GPU资源紧张与闲置并存的困境。某985实验室仅2张A100需支撑5个模型训练、3个实时Demo和1条评估流水线,利用率仅25%。通过部署OrionX社区版(免费GPU池化软件),实现任务并行执行,利用率提升至85%,实验周期缩短近半。该方案支持资源隔离、远程调用和显存超分,无需代码改造,已在国内多所高校验证有效性。在高端GPU紧缺的现状下,提升现有资源利用率比购置新卡更具现实

OrionX社区版是一款面向中小企业、开发者和高校科研团队的免费GPU池化工具,通过显存超分、GPU虚拟化等核心技术,实现算力资源的高效利用。该工具支持主流AI框架和云原生部署,提供可视化界面与开放API,并具备实时监控告警功能。用户只需简单申请即可零门槛使用,帮助降低算力成本、提升资源利用率,推动AI项目快速落地。

OrionX社区版是一款面向中小企业、开发者和高校科研团队的免费GPU池化工具,通过显存超分、GPU虚拟化等核心技术,实现算力资源的高效利用。该工具支持主流AI框架和云原生部署,提供可视化界面与开放API,并具备实时监控告警功能。用户只需简单申请即可零门槛使用,帮助降低算力成本、提升资源利用率,推动AI项目快速落地。

通过支持在 ModelScope 上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并促进语音识别生态系统的发展。SpeechBrain 是一个基于 PyTorch 的开源、全能的对话人工智能工具包,可用于开发最先进的语音技术,包括语音识别系统,说话人识别、鉴定和记录,语音增强,语音分离,语言识别,语言翻译等。ASRT 是一个基于深度学习的中文语音








