
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
比起传统的检索工具,面对需要同时理解文本和视觉信息的密集文档时,传统工具容易懵圈,要么抓不住重点,要么推理能力不够,而 ViDoRAG 采用探索、总结和反思的多智能体分工协作,比传统方法强了 10% 以上。字节发布了Trae[1] 国内版,是国内首个 AI IDE,这款 IDE 使用国产大模型提供智能问答、代码自动补全以及基于 Agent 的 AI 自动编程能力。ViDoRAG[3] 是阿里开源的

IndexTTS2[1] 是一个突破性的自回归语音合成模型,能在零样本条件下实现两大核心能力:精确的时长控制,以及音色与情感的完美解耦。该模型支持包括愤怒、哭泣、恐惧、沮丧、快乐、惊讶、平静等在内的丰富情感表达。表示 Grok 1.1.17 版本带来了 Companions(数字伙伴)功能。更新后,用户只需在设置中向下滚动至语音部分,点击「启用伙伴」即可开启,需要 SuperGrok 订阅。不过目
使得开发者能够轻松将 Realtime API 集成到 ESP32S3 上。OpenAI 已经在嵌入式、Web、移动设备和桌面端实现了全覆盖。OpenAI 最近开源了针对嵌入式平台的。

的 10B 模型已经完成了去中心化训练,利用了来自世界各地的算力。完整的开源版本预计将在一周内发布,内容包括基础模型、checkpoint、后训练模型和数据。从 10 月份开始,耗时一个多月,确实不容易。

Model Context Protocol(MCP)Registry 预览版[5]正式发布,这个项目可以理解为 Node.js 的 npm 或者 Python 的 PyPI 的 MCP 版本。IndexTTS-2.0[3] 是哔哩哔哩语音团队开源的新一代零样本语音合成模型,基于 55K 小时中英双语语音和 135 小时情感数据训练,实现了对语音时长和情感的精准控制。目前该模型暂未开源(有点小遗憾

该模型支持 7 种控制模式,包括 canny (0), tile (1), depth (2), blur (3), pose (4), gray (5) 和 low quality (6),并且还能和其他 ControlNet 一起使用。

阿里通义 Qwen3 系列大模型[1]正式推出,本次开源了 2 个 MoE 模型和 6 个密集模型。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中表现出色,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型不相上下。,官方号称世界上最快的扩散语言模型,在 A100 GPU 上可达到 2,800 tokens/秒

其特点在于结合了扩散模型的生成能力和多模态大语言模型的感知能力,从而实现了卓越的图像修复效果。代码和预训练模型均已开源,基于 Apache-2.0 许可证,可用于商业用途。是字节跳动与中科院发布的一款基于 DiT 的图像修复模型。

是一个开源的人体动作生成模型,能够生成符合自然物理规律的复杂人体动作,如奔跑、翻滚、跳跃、瑜伽等各种精通和运动姿势。,强烈推荐你们玩一下,可以用来调整世界的重力、风,角色的姿势、动作,或者编程动作。

本次带来了 0.5B、3B、14B、32B 四个尺寸,其中 32B 模型以碾压姿态超越了一众开源模型,甚至比肩 GPT4o 和 Claude 3.5 Sonnet。官方还演示了如何结合 Cursor 在 1 分钟内实现一个贪吃蛇游戏,并通过 Open WebUI 实现了类似 Claude Artifacts 的功能。此外,通义官网还即将上线代码模式,支持一句话生成网站、小游戏和数据图表等各类可视化








