AI日报 - 2025年09月29日

AI人工智能日报新闻和最新AI工具

NingboWill

750人浏览 · 2025-09-29 13:08:34

NingboWill · 2025-09-29 13:08:34 发布

#本文由AI生成

🌐 一、【行业深度】

1. 快手发布KAT系列双模代码大模型：开源KAT-Dev-32B与闭源KAT-Coder性能领跑

🔥 热点聚焦：2025年9月25日，快手Kwaipilot团队正式推出KAT系列两款Agentic Coding大模型——KAT-Dev-32B和KAT-Coder，标志着其在智能编程领域迈出关键一步。其中，KAT-Dev-32B为开源的32亿参数模型，在权威SWE-Bench Verified测试中实现62.4%的问题解决率，位列全球开源模型第五，适用于轻量级开发环境部署。而旗舰闭源模型KAT-Coder表现更为强劲，解决率达73.4%，具备强大的工程化能力与实用性，已在StreamLake平台开放API调用，后续将发布详细技术报告。
⚡ 进展追踪：目前KAT-Dev-32B已上线Hugging Face供开发者自由下载使用，KAT-Coder则通过企业级接口服务逐步接入实际开发流程，推动AI辅助编程落地应用。
🔍 影响维度分析：

技术普惠性提升	开源策略降低中小团队与个人开发者接入门槛，加速代码智能工具普及。
开发效率革新	高解决率意味着可自动处理更多真实场景Bug修复与功能实现任务，减少重复劳动。
生态竞争加剧	快手入局将进一步激发国内大模型厂商在垂直领域的创新投入，促进行业差异化发展。

✨ 精彩呈现：

2. Moondream3.0预览版重磅发布：仅激活2亿参数实现高效视觉推理

🔥 热点聚焦：近期发布的Moondream3.0预览版采用创新混合专家（MoE）架构，总参数达9亿但仅激活2亿即可完成复杂视觉推理任务，显著降低算力需求。该模型支持高达32K上下文长度，适合实时交互与代理式工作流，搭载SigLIP视觉编码器，可高分辨率解析图像并支持多裁剪通道拼接，在开放词汇物体检测、点选、计数等“全能”视觉任务中表现优异。尽管训练数据仅约450亿token，其在多项基准测试中超越前代及部分顶级闭源模型。
⚡ 进展追踪：Moondream3.0已全面开源，无需额外训练或标注数据即可通过提示词驱动，已在机器人语义行为控制、移动设备及Raspberry Pi等边缘设备成功部署，验证其轻量化优势。
🔍 影响维度分析：

边缘计算新范式	极低激活参数使AI视觉能力可在资源受限设备运行，拓展物联网应用场景。
零样本迁移能力强	无需微调即可应对多样化视觉理解任务，降低开发者使用门槛。
推动具身智能发展	为机器人、自动驾驶等领域提供高效、低成本的感知解决方案。

✨ 精彩呈现：

3. 腾讯混元图像3.0正式发布：业界首个开源商用级原生多模态生图模型

🔥 热点聚焦：2025年9月28日，腾讯混元官方宣布推出混元图像3.0，这是全球首个开源且支持商业使用的原生多模态图像生成模型，拥有80亿参数，效果媲美Stable Diffusion XL、DALL·E 3等顶尖闭源系统。该模型基于50亿图文对与6TB语料进行混合训练，具备文字+图像联合理解与生成能力，能精准响应含长文本、小字描述的复杂指令，如自动生成科普漫画、商品海报等高质量内容。模型权重与加速版本已同步发布于GitHub与Hugging Face。
⚡ 进展追踪：用户可通过腾讯混元官网直接体验图像生成功能，未来还将上线图生图、图像编辑等进阶能力，进一步完善创作闭环。
🔍 影响维度分析：

商业创作提效	插画师、电商运营者可用自然语言快速产出专业级视觉内容，缩短设计周期。
开源生态赋能	开放商用权限极大鼓励企业集成，促进AIGC工具链自主创新。
多模态融合突破	“原生多模态”架构代表技术方向演进，提升语义到视觉的映射精度。

✨ 精彩呈现：

4. 商汤Seko上线一月用户破十万：AI短剧创作迎来“唠嗑出片”新时代

🔥 热点聚焦：商汤科技于2025年9月28日宣布其AI视频创作产品Seko上线仅一个月，注册用户即突破10万，迅速成为AI短剧领域的现象级应用。Seko主打“创编一体”模式，用户只需以对话形式输入创意，系统即可一键生成完整视频，涵盖角色设定、分镜脚本、画面风格与光线统一性控制，真正实现“不用跨平台、不调参数、不学软件”的极简创作。其内置一致性生图引擎有效解决传统AI视频角色漂移问题，并集成12个主流生成模型动态匹配最优方案。
⚡ 进展追踪：当前Seko已广泛应用于自媒体、广告、短视频剧组等领域，单分钟视频制作成本从传统2万元降至约100元，性价比极高。未来将推出多语言配音与3D角色库功能，助力内容出海。
🔍 影响维度分析：

创作民主化加速	零基础用户5分钟即可上手，打破专业壁垒，释放全民创作潜力。
成本结构重塑	大幅压缩人力与时间成本，重构影视制作经济模型。
行业变革信号	预示AI将从辅助工具升级为全流程主导者，推动影视工业化进程。

✨ 精彩呈现：

5. 通义万相国际版Wan2.5连推两大黑科技：音频驱动视频生成+指令式图像编辑

🔥 热点聚焦：2025年9月26日至28日，通义万相国际版Wan2.5预览版接连发布两项颠覆性功能——音频驱动视频生成与指令式图像编辑。前者允许用户通过语音或音频文件结合文本提示，直接生成最长10秒的高质量视频，打破传统依赖文字脚本的创作方式，激发叙事创意；后者支持基于自然语言指令完成精细化图像修改，如“把沙发换成蓝色”“增加人物微笑”，并可通过单张或多张参考图保持面部、产品样式一致，特别适用于广告与品牌视觉设计。
⚡ 进展追踪：两项功能均已上线通义万相网页版供全球创作者试用，配套演示视频显示生成质量显著提升，叙事连贯性增强。
🔍 影响维度分析：

输入方式多元化	音频作为新模态入口，拓宽创作者表达边界，尤其利好听觉导向内容生产。
编辑智能化跃迁	指令式操作让非设计师也能精准操控图像细节，提升AIGC可用性。
国际布局深化	国际版持续迭代彰显阿里云全球化战略，强化中国AIGC技术海外影响力。

✨ 精彩呈现：

通义万相国际版Wan

🚀 二、【最新AI引擎】

工具名称：Fellou AI

⚙️ 工具聚焦： 全球首款 Agentic Browser（行动型浏览器），由中国95后团队打造。它将传统浏览器、AI Agent 与工作流自动化三合一，用户只需一句自然语言指令，即可自动拆解并跨站执行任务，平均 3.7 分钟完成一次复合任务，成本仅为 0.3–3 元，速度比同类工具快 3–5 倍。
✨ 核心功能：

Deep Action：一句话生成跨站执行链，自动完成检索→整理→导出成 Excel/PDF/飞书等。

主动智能：基于历史行为预判需求，主动推荐下一步操作，如“需不需要同步写差旅报销单？”。

影子空间：沙箱并行运行任务，不抢占前台标签，可后台批量投简历、抓数据。

智能体网络：官方+社区 200+ 垂直 Agent 即插即用，覆盖小红书爆款文案、VC日报、航空简报等。

深度检索：支持登录后抓取私有站点、会员论坛、企业内网，合规加密存储。

Eko 框架：开源生产级开发框架，5 分钟封装自定义 Agent，网页操作速度提升 2.83 倍。

📌 影响分析： Fellou 把“搜索—整理—交付”的小时级工作压缩到分钟级，成本降至原来的 1/3，已在内测中帮助投研、猎头、电商、教师等群体实现报告生成、批量投递、店铺日报、课件输出等场景。其“说到做到”的浏览器范式，有望重塑 30 亿用户“只看不干”的上网习惯，开启“浏览器即执行引擎”的新赛道。

🔍 想持续追踪 【人工智能】 最新动态、深度解读行业报告？

关注 [宁波威尔]

推送重要技术更新、峰会精华
提供市场趋势分析与解读
分享前沿工具、框架测评与应用实践

🌟 保持技术敏感度，快人一步掌握先机！

北京朝阳AI社区

更多推荐

【多智能体在城市环境中的追踪】城市环境中多智能体对流氓智能体的追踪研究（Matlab代码实现）

设想一个城市环境，许多智能体沿着类似网格的道路网络从某个起点移动到某个终点。这些车辆受到交通法规的约束，即它们的速度受到限速的限制，并且只能通过交叉路口。此外，每个交叉路口都有一个静态的传感器网络，记录车辆经过的时间以及当时的速度。我们面临的问题是，如何用一组无人机车辆追踪一个在城市中移动的流氓智能体（可以将其视为警察）。这些无人机可以与静态网络通信，并被视为网络中的移动节点。我们假设静态节点也能

北京朝阳AI社区

【多无人机】面向城市空中交通的多无人机路径规划研究（Matlab代码实现）

受无人机在商业领域应用的影响，多无人机（MultiUAV）路径规划已引发广泛关注。然而，当前的研究往往未能全面考量这一复杂问题中固有的现实约束条件。本报告研究了在城市环境中执行导航任务的智能体的高效路径规划问题。每个智能体均承担配送任务，需先移动至起始点，再前往后续目标位置，同时要绕过障碍物并避免与其他智能体发生碰撞。