
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Qwen3-Omni 是阿里巴巴 Qwen 团队最新开源的原生端到端多语言“全模态”大模型,一次性打通文本、图片、音频、视频的理解与生成,并且能做文字 + 自然语音的实时流式响应(自然轮流对话、低延迟首包)。它支持 119 种文本语言、19 种语音输入、10 种语音输出,既能“听懂世界”,也能流利地“说出来”,在加入音视能力后,并没有牺牲纯文本与图像基准的表现,同时在音频 / 音视频任务上拿到非常

FireRedChat是由小红书智创音频团队开发的一款全双工语音交互系统,它提供了一个可完全自主部署的解决方案,用于构建实时语音AI代理。该系统不仅支持用户和AI代理同时说话,实现无缝的实时双向对话,还具备可控打断机制,显著提升了人机语音交互的自然度和流畅性。FireRedChat的出现,为智能语音助手的发展开辟了新的道路,其开源的特性也吸引了众多开发者的关注。

WhisperLiveKit 是一个开源的实时语音识别工具,能够将语音实时转录为文字,并且支持说话人识别功能。它基于先进的技术,如 SimulStreaming 和 WhisperStreaming,提供了超低延迟的转录功能。更重要的是,WhisperLiveKit 完全在本地处理语音数据,确保了隐私和安全。它支持多种语言,可以通过简单的命令快速启动,并且提供了 Web 界面和 Python AP

SongBloom 是一个由腾讯 AI Lab 联合顶尖高校研发的开源歌曲生成模型。它采用自回归扩散模型,将扩散模型的高保真度与语言模型的可扩展性相结合,通过交错生成范式,逐步将音乐草图从短到长进行扩展,并将细节从粗粒度提升到细粒度。仅需输入 10 秒参考音频和对应歌词,SongBloom 即可生成长达 2 分 30 秒的双通道、48kHz 高质量完整歌曲。在主观和客观评测中,SongBloom

DeepSeek-V3.2-Exp是DeepSeek-AI于2025年9月29日发布的实验性大语言模型,旨在探索和验证在长上下文场景下训练和推理效率的优化。该模型基于V3.1-Terminus构建,引入了创新的DeepSeek稀疏注意力(DSA)机制,实现了细粒度稀疏注意力,突破了传统Transformer架构的限制。在多个公开基准测试中,DeepSeek-V3.2-Exp的性能与V3.1-Ter

RoboBrain-X0是由北京智源人工智能研究院开源的全球首个支持零样本跨本体泛化的具身模型。它能够在无需针对不同机器人进行微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,突破了传统机器人模型对单一硬件形态的依赖。在少量样本(如50条)微调后,还能进一步提升对复杂任务的跨本体适配性。该模型通过统一建模视觉、语言与动作,将任务分解为通用语义动作序列,再实时翻译为具体机器人的可执行指令,

UserLM-8b是由微软推出的一款80亿参数的用户语言模型,旨在模拟真实用户在多轮对话中的行为,以评估和优化AI助手的性能。该模型通过逐步揭示任务意图,生成更接近真实用户行为的对话内容,为AI助手的开发和优化提供了高效的模拟环境。它在大规模真实对话数据集(如WildChat-1M)上进行训练,能够生成第一轮用户话语、后续用户话语,并判断对话何时结束。

Kosong是一个专为现代AI Agent应用设计的LLM抽象层,旨在解决与多个模型和工具交互时的技术栈可维护性问题。它通过统一消息结构、异步工具编排和可插拔的聊天提供商,帮助团队避免将业务逻辑硬编码到单一API,从而简化智能体的构建过程。

在医疗科技蓬勃发展的当下,人工智能(AI)已成为医疗领域变革的核心驱动力。2025年2月18日,上海交通大学医学院附属瑞金医院与华为在2025医疗人工智能与精准诊疗发展论坛上联合发布瑞智病理大模型RuiPath。这一成果是医疗AI在病理诊断领域的重大突破,有望重塑传统病理诊断流程,为患者提供更为高效、精准的医疗服务。瑞智病理大模型(RuiPath)作为临床级国产多模态互动式病理大模型,意义非凡。我

Strix是一个开源的AI驱动安全测试工具,旨在帮助开发人员和安全团队快速发现并验证应用程序中的漏洞。它通过模拟真实黑客攻击,动态运行代码,有效减少误报,支持本地代码库、GitHub仓库和Web应用的安全评估,具备自主安全工具、全面漏洞检测和分布式代理网络等强大功能。








