logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

VibeVoice-Realtime TTS重构实时语音体验;覆盖9大真实场景,WenetSpeech-Chuan让模型听懂川话

VibeVoice-Realtime TTS 采用一种新颖的次令牌扩散方法,用于在长篇多说话者语音合成中建模连续数据,并引入高效的连续语音分词器,使模型能够在 64K 上下文窗口内生成长达 90 分钟的语音,最多支持 4 名说话者,同时在保持音频忠实度的前提下大幅提升计算效率,捕捉真实对话氛围。该数据集共包含 600 条测试样本,每条样本都包含完整的输入信息与元数据,包括唯一标识、图像或文本输入、

文章图片
#人工智能#深度学习#视频生成
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等

NVIDIA在GTC2026大会上重点推出PhysicalAI概念,强调AI与物理世界的深度融合。大会发布了Isaac GR00T(人形机器人基础模型)、SOMA-X(统一人体建模框架)、Kimodo(动作生成模型)三大开源项目,分别从决策、建模和运动层面提升机器人的实际应用能力。同时推出的FDFO训练方法优化了扩散模型性能。这些技术共同推动机器人从"能动"向"好用&

文章图片
#人工智能#机器人#深度学习 +4
外语、方言、少数民族语言全覆盖:Hy-MT1.5 支持 1056 个翻译方向;MIT 联合发布 MathNet:涵盖 2.7 万道奥数真题的多模态数学推理基准

DeepSeek V4 是深度求索(DeepSeek)团队发布的最新一代大语言模型,包含两个版本:DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(285B 参数)。MathNet 是由 MIT 团队联合阿卜杜拉国王科技大学等机构于 2026 年发布的一个大规模多语言、多模态数学推理数据集,覆盖代数、几何、数论、组合数学、微积分、概率统计等奥数知识体系,支持数

文章图片
#人工智能#深度学习
教程上新丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署

摘要:Jackrong于2026年3月开源高性能推理模型Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,该模型基于Qwen3.5-27B架构,融合了Claude-4.6与Opus的蒸馏推理能力,显著提升了复杂问题求解和多轮对话表现。通过思维链蒸馏技术,模型在数学推导、逻辑分析等场景展现出色能力,支持结构化任务拆解和流式对话生成。具备270亿参数规模下

文章图片
#3d#人工智能#机器学习 +2
教程上新丨一键部署Gemma 4 31B,最高256K上下文,能力媲美Qwen3.5 397B

摘要:Google DeepMind开源Gemma 4系列模型,基于与Gemini 3同源技术,以较小参数规模跻身AI排行榜前三。该系列包含多个尺寸模型,覆盖移动端到高性能场景,31B版本支持图文输入、256K上下文窗口及140多种语言。

文章图片
#开源#人工智能#深度学习 +1
教程上新丨Qwen3.6 系列首个开源模型 Agent 编程能力大涨,激活参数仅 3B 超越 Gemma4-31B

Qwen3.6-35B-A3B 模型近日开源,这款仅激活 3B 参数的 MoE 模型在多项编程基准测试中超越前代Qwen3.5 和 Gemma4系列。在 Terminal-Bench2.0、NL2Repo 等权威测试中表现优异,具备更强的 Agent 编程和多模态推理能力,新增 "思考过程留存 "功能优化开发流程。

文章图片
#人工智能#深度学习
OpenBayes 一周速览|EasyControl 高效控制 DiT 架构,助力吉卜力风图像一键生成;TripoSG 单图秒变高保真 3D 模型

10 个教程:* 一键部署 R1-OneVision* UNO:通用定制化图像生成* TripoSG:单图秒变高保真 3D* 使用 VASP 进行机器学习力场训练* InfiniteYou 高保真图像生成 Demo* VenusFactory 蛋白质工程设计平台* Qwen2.5-0mni 看听说写全模态打通* 一键部署 DeepCoder-14B-Preview* VASP 结合 Phonopy

文章图片
#人工智能#图像处理#开源 +3
教程上新丨指令遵循 / 推理 / 编码三合一,Mistral Medium 3.5 把 Coding Agent 搬上云端

MistralAI 发布旗舰级模型 MistralMedium3.5,标志着 AI 编程助手向自主执行任务的智能系统转变。该 128B 稠密架构模型具备 256k 上下文窗口,在 SWE-Bench 测试中取得 77.6% 的高分。其创新性在于重构了 AI Agent 工作流,支持云端异步执行复杂开发任务,包括代码生成、调试、测试等全流程,并能协同外部工具系统。

文章图片
#人工智能
教程上新丨指令遵循 / 推理 / 编码三合一,Mistral Medium 3.5 把 Coding Agent 搬上云端

MistralAI 发布旗舰级模型 MistralMedium3.5,标志着 AI 编程助手向自主执行任务的智能系统转变。该 128B 稠密架构模型具备 256k 上下文窗口,在 SWE-Bench 测试中取得 77.6% 的高分。其创新性在于重构了 AI Agent 工作流,支持云端异步执行复杂开发任务,包括代码生成、调试、测试等全流程,并能协同外部工具系统。

文章图片
#人工智能
流式 3D 重建新突破!LingBot-Map 融合 Trajectory Memory 与几何上下文;12.6 万 QA 样本!RSRCC 数据集推动多模态遥感理解

OpenBayes 发布 12 个公共数据集和5个公共教程资源,涵盖多个前沿领域。数据集包括灾害评估、花卉分类、情绪分析、量子计算、遥感变化检测、足球转会、瑜伽训练、农作物病害检测、多模态解析和医疗药物研究;教程资源包含数据标注工具、自进化AI智能体、隐私过滤、3D 重建和具身智能模型。

文章图片
#人工智能#3d
    共 67 条
  • 1
  • 2
  • 3
  • 7
  • 请选择