
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
VibeVoice-Realtime TTS 采用一种新颖的次令牌扩散方法,用于在长篇多说话者语音合成中建模连续数据,并引入高效的连续语音分词器,使模型能够在 64K 上下文窗口内生成长达 90 分钟的语音,最多支持 4 名说话者,同时在保持音频忠实度的前提下大幅提升计算效率,捕捉真实对话氛围。该数据集共包含 600 条测试样本,每条样本都包含完整的输入信息与元数据,包括唯一标识、图像或文本输入、

NVIDIA在GTC2026大会上重点推出PhysicalAI概念,强调AI与物理世界的深度融合。大会发布了Isaac GR00T(人形机器人基础模型)、SOMA-X(统一人体建模框架)、Kimodo(动作生成模型)三大开源项目,分别从决策、建模和运动层面提升机器人的实际应用能力。同时推出的FDFO训练方法优化了扩散模型性能。这些技术共同推动机器人从"能动"向"好用&

DeepSeek V4 是深度求索(DeepSeek)团队发布的最新一代大语言模型,包含两个版本:DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(285B 参数)。MathNet 是由 MIT 团队联合阿卜杜拉国王科技大学等机构于 2026 年发布的一个大规模多语言、多模态数学推理数据集,覆盖代数、几何、数论、组合数学、微积分、概率统计等奥数知识体系,支持数

摘要:Jackrong于2026年3月开源高性能推理模型Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,该模型基于Qwen3.5-27B架构,融合了Claude-4.6与Opus的蒸馏推理能力,显著提升了复杂问题求解和多轮对话表现。通过思维链蒸馏技术,模型在数学推导、逻辑分析等场景展现出色能力,支持结构化任务拆解和流式对话生成。具备270亿参数规模下

摘要:Google DeepMind开源Gemma 4系列模型,基于与Gemini 3同源技术,以较小参数规模跻身AI排行榜前三。该系列包含多个尺寸模型,覆盖移动端到高性能场景,31B版本支持图文输入、256K上下文窗口及140多种语言。

Qwen3.6-35B-A3B 模型近日开源,这款仅激活 3B 参数的 MoE 模型在多项编程基准测试中超越前代Qwen3.5 和 Gemma4系列。在 Terminal-Bench2.0、NL2Repo 等权威测试中表现优异,具备更强的 Agent 编程和多模态推理能力,新增 "思考过程留存 "功能优化开发流程。

10 个教程:* 一键部署 R1-OneVision* UNO:通用定制化图像生成* TripoSG:单图秒变高保真 3D* 使用 VASP 进行机器学习力场训练* InfiniteYou 高保真图像生成 Demo* VenusFactory 蛋白质工程设计平台* Qwen2.5-0mni 看听说写全模态打通* 一键部署 DeepCoder-14B-Preview* VASP 结合 Phonopy

MistralAI 发布旗舰级模型 MistralMedium3.5,标志着 AI 编程助手向自主执行任务的智能系统转变。该 128B 稠密架构模型具备 256k 上下文窗口,在 SWE-Bench 测试中取得 77.6% 的高分。其创新性在于重构了 AI Agent 工作流,支持云端异步执行复杂开发任务,包括代码生成、调试、测试等全流程,并能协同外部工具系统。

MistralAI 发布旗舰级模型 MistralMedium3.5,标志着 AI 编程助手向自主执行任务的智能系统转变。该 128B 稠密架构模型具备 256k 上下文窗口,在 SWE-Bench 测试中取得 77.6% 的高分。其创新性在于重构了 AI Agent 工作流,支持云端异步执行复杂开发任务,包括代码生成、调试、测试等全流程,并能协同外部工具系统。

OpenBayes 发布 12 个公共数据集和5个公共教程资源,涵盖多个前沿领域。数据集包括灾害评估、花卉分类、情绪分析、量子计算、遥感变化检测、足球转会、瑜伽训练、农作物病害检测、多模态解析和医疗药物研究;教程资源包含数据标注工具、自进化AI智能体、隐私过滤、3D 重建和具身智能模型。








