
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
FunCineForge是由阿里巴巴通义实验室(Tongyi Lab)语音团队与中国科学技术大学联合研发的开源项目,定位为端到端的影视级多模态配音系统。该项目包含两大核心组件:一是完整的数据集生产流水线,可自动化构建大规模多模态配音数据集;二是基于多模态大语言模型(MLLM)架构的配音模型,专门面向复杂影视场景设计。与传统配音流程不同,FunCineForge整合了视频理解、语音合成、时间对齐等多

Covo-Audio是腾讯开源的70亿参数端到端音频语言模型(LALM),基于Qwen2.5-7B和Whisper-large-v3构建,通过统一架构直接处理连续音频输入并生成音频输出。模型采用分层三模态语音-文本交错架构、智能与说话人解耦技术,以及原生全双工交互能力,在口语对话、语音理解、音频理解等任务中达到同规模模型领先或竞争优势。作为完全开源的GPT-4o语音能力替代方案,Covo-Audi

**FireRed-OCR**是小红书团队开源的端到端文档结构解析视觉语言模型,基于Qwen3-VL-2B-Instruct架构构建,采用创新的"三阶段渐进优化"训练策略与"几何+语义"数据工厂,专为攻克文档解析中的"结构幻觉"问题而设计。该模型能够将PDF、扫描图像、学术论文、财务报告等复杂版式文档精准转换为标准Markdown格式,支持复杂表格提取、数学公式语义化解析、多级标题层级重建等核心能

**Phi-4-reasoning-vision-15B**是微软研究院推出的开源多模态推理模型,基于Phi-4-Reasoning语言模型骨干,融合SigLIP-2视觉编码器,采用中期融合(Mid-Fusion)架构,在保持150亿参数紧凑体量的同时,实现了数学科学推理、GUI界面理解、图文问答等多维能力的均衡突破。该模型通过严格的数据筛选、动态分辨率处理与混合推理训练策略,在计算效率与推理精度

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级一体化语音识别系统,集成ASR(自动语音识别)、VAD(语音活动检测)、LID(语种识别)和Punc(标点预测)四大核心模块,支持普通话、20余种方言、英语、中英混合、代码语音及歌词识别,在24个测试集上平均字错率低至9.67%,达到当前开源领域SOTA水平。该系统采用模块化架构设计,各组件既可协同工

Ming-omni-tts是蚂蚁集团inclusionAI团队推出的开源统一音频生成模型,采用自回归架构实现语音、音乐和音效的联合生成。该模型支持通过自然语言指令对语速、音调、音量、情感和方言进行细粒度控制,粤语方言控制准确率高达93%,情感控制准确率达46.7%,超越CosyVoice3等主流模型。技术上采用统一连续音频Tokenizer和Diffusion Transformer架构,以12.

Step3-VL-10B 是由阶跃星辰(StepFun)于 2025 年 1 月开源的紧凑型多模态基础模型,采用 1.8B 参数的视觉编码器(PE-lang)与 Qwen3-8B 语言解码器的组合架构,总参数量仅 10B。该模型通过 1.2T tokens 的高质量多模态语料统一预训练,结合超过 1400 次迭代的规模化强化学习(RLVR+RLHF),在 STEM 推理、OCR、GUI Groun

Spirit-v1.5是由千寻智能团队开发的一款具身智能模型,采用Vision-Language-Action(VLA)统一建模框架,将视觉感知、语言理解与动作生成整合在同一决策流程中。该模型在多任务连续执行、复杂指令拆解以及跨构型迁移等维度表现出色,尤其在真实机器人任务中展现出强大的泛化能力和稳定性。

AgentCPM-Explore是面向深度研究场景的专业化LLM Agent,基于Qwen3-4B-Thinking基座模型进行专门强化学习训练,通过AgentRL框架实现工具调用与长程规划能力的高效注入。其核心突破在于:以仅40亿的参数规模,支持超过100轮的连续环境交互与多源信息交叉验证,在GAIA基准上从基础模型的25.24%跃升至63.90%,不仅刷新同尺寸模型性能天花板,更越级挑战并比肩

**VibeVoice-ASR是微软开源的90亿参数统一语音识别模型**,基于Qwen2 Decoder架构,采用64K token超长上下文窗口与7.5 Hz超低帧率语音分词技术,实现了ASR(自动语音识别)、说话人分离(Diarization)和时间戳标注(Timestamping)三大任务的端到端联合建模。该模型支持中英双语,可单次处理长达60分钟的连续音频,输出"Who-When-What








