摘要

AI领域动态丰富,含UltraRAG 2.1等框架发布,商汤、字节等推多模态/编程模型,Meta开源多语言ASR,软银追加OpenAI投资,同时涉AI安全、伦理及具身智能进展。

一、模型与技术突破

1.1 通用大模型

1.1.1 大语言模型
a. 国内
  • 月之暗面:发布Kimi K2 Thinking开源模型,1万亿参数、384个专家混合架构,采用INT4量化感知训练与KDA注意力机制,推理速度提升2倍,显存占用下降,无需干预可连续执行200-300次工具调用,在HLE、BrowseComp等基准超GPT-5、Claude 4.5,否认460万美元训练成本,计划推视觉模型与K3混合架构。
  • 字节跳动(火山引擎):推出Doubao-Seed-Code编程模型,专为Agentic Coding优化,原生支持256K长上下文,国内首个支持视觉理解(参照UI设计稿/截图/手绘生成代码、修复Bug),SWE-Bench Verified榜单登顶(78.8%得分),综合成本较行业降62.7%,输入1.2元/百万Tokens、输出8元/百万Tokens,全量缓存再降80%,个人首月9.9元,兼容Anthropic API,通过火山方舟开放API。
  • 百度:开源ERNIE-4.5-VL-28B-A3B-Thinking多模态思考模型,总参28B、激活3B,Apache 2.0协议允许商用,强化跨模态语义对齐与多模态强化学习,具视觉推理(复杂视觉任务多步推理)、STEM推理(物理数学题性能跃升)、视觉定位(工业场景Grounding)、图像思考(放大缩小画面)、工具使用(图像搜索)、视频理解(时间感知与事件定位)能力,医疗肺结节检测敏感性96.4%,工业质检准确率98.7%。
  • 商汤科技:开源SenseNova-SI系列空间智能大模型(2B、8B参数),8B版本在VSI、MindCube等四大空间基准平均得分60.99,超GPT-5(49.68)、Gemini 2.5 Pro(48.81),验证空间智能“尺度效应”,支持空间测量、重构、关系等六大维度能力,接入“悟能”具身平台,推动自动驾驶、机器人导航落地。
  • 微博团队:推出VibeThinker模型,15亿参数密集语言模型,数学推理超参数量大400倍的DeepSeek R1,训练成本7800美元,性能比肩GPT OSS-20B Medium,擅长数学与代码生成任务。
  • 科大讯飞:发布星火X1.5深度推理大模型,基于全国产算力,MoE架构总参2930亿,数学能力新高考145分超GPT-5,攻克长思维链强化学习与MoE训练效率难题,推理效率翻倍,非自回归语音模型推理成本降520%。
b. 国外
  • OpenAI:在OpenRouter上线“Polaris Alpha”匿名模型(疑似GPT-5.1),支持256K上下文窗口,单次输出128K,知识库更新至2024年10月,长文档理解、复杂推理、技术文本提取能力优,幻觉率低,计划11月24日推ChatGPT 5.1(基础版、Pro版、Reasoning版),强化推理与对话,Reasoning版针对复杂问题。
  • Anthropic:Claude模型聚焦企业级市场,80%收入来自30万企业客户,API收入预计38亿美元(OpenAI同期18亿),毛利率从-94%升至50%,计划2028年达77%,预计2027年现金流转正、2028年营收700亿美元,高效路径成AI盈利范式。
  • Meta:开源Omnilingual ASR语音识别系统,7B参数wav2vec 2.0编码器,支持1600+语言(含500种低资源语言),零样本扩展至5400种,基于43万小时音频训练,Apache 2.0协议,发布350种低资源语言语料库,回归多语言AI领域。
1.1.2 多模态模型
a. 国内
  • 商汤科技:SenseNova-SI系列模型,除空间智能外,具多模态处理能力,支持文本、图像跨模态检索与推理,适配自动驾驶、机器人等场景。
  • 百度:ERNIE-4.5-VL-28B-A3B-Thinking,处理文本、图像、视频多模态数据,解析图表、解答学科题、分析视频,单80GB GPU可运行。
  • 蚂蚁集团:开源Ming-UniAudio多模态音频模型,总参16B、激活3B,支持语音理解、生成、编辑(插入/删除文字、改口音、去噪、加音效),可本地运行。
  • 阿里(Qwen系列):QwenEdit - 2509 Photo2Anime,基于Qwen-Image-Edit-2509微调的LoRA模型,照片转动漫,效果优于直接提示“动漫”,项目与使用地址均在Hugging Face。
  • Gaga AI:推出Gaga-1数字人AI视频模型,支持语音参考输入定制音色(单人场景),兼容16:9/9:16比例,输出1080p,协同生成架构同步语音、唇动、表情,支持双人场景与多语种,无需验证码体验,生成5-10秒视频,使用地址https://gaga.art/。
  • 字节跳动:推出InfinityStar视频生成框架,58秒生成5秒720p视频,时空金字塔模型分离空间与时间维度,知识继承策略用预训练VAE加速,统一支持图像生成、文本生视频、视频续写。
b. 国外
  • Google:Gemini模型接入Google TV Streamer,取代Google Assistant,支持自然语音交互(影视推荐、教育内容查询),18岁以上用户推送,此前已在TCL、沃尔玛Onn设备上线;推出Nano Banana 2图像SaaS,基于Gemini 2.5 Flash,支持图像修复、复杂编辑,免费试用;Google Photos升级,含个性化修图、iOS自然语言编辑、Nano Banana风格化、AI模板、Ask Photos扩展(100+国17种语言)、新“Ask”按钮。
  • OpenAI:Sora2视频生成应用9月30日登iOS,邀请制,首周下载100万、万圣节400万、11月9日免费榜第五,年化成本超50亿(日均1500万),每10秒成本1.3美元,计划减免费额度,靠数据优化模型,探索广告+专业付费变现。
  • Black Forest Labs:即将发布FLUX.2 [pro] AI图像模型,属生成流匹配模型,支持Playground与API。

1.2 垂直大模型

  • 医疗领域:上海交大、上海AI实验室、蚂蚁、北大联合推出DiagGym(医学诊断世界模型)与DiagAgent(诊断智能体),虚拟临床环境强化学习,DiagBench基准含750病例、973条评估准则,多轮诊断超DeepSeek、Claude-4;OpenAI布局医疗健康,开发个人健康助手与数据聚合器,聘Doximity联合创始人Gross、Instagram前高管Alexander,与礼来、赛诺菲合作。
  • 农业领域:华为与崖州湾国家实验室发布“繁|未来农业智能枢纽”,AI全链条赋能种业,育种周期缩50%、效率升30%。
  • 法律领域:法律AI公司Clio获5亿美元G轮融资,估值50亿,提供案件管理、研究、工作流工具。
  • 教育领域:学而思学习机T4搭载“小思AI1对1”,多模态感知(纸屏互动、实时批改),九章+DeepSeek模型,AI老师达L3级;洋葱学园推“自学破壁计划1.0”,AI智能学伴解构自主学习四阶段,基于5000亿学习数据、1万+动画课程,2000余校落地。
  • 翻译领域:阿里云Qwen-MT翻译模型,双11单日调用超14亿次,支撑跨语种电商交易。

1.3 专项技术突破

  • 空间智能:李飞飞发表长文,称空间智能是AI下一站,需构建具生成性(符合物理规律)、多模态性、交互性的世界模型,分阶段赋能创造力、机器人、科学医疗;商汤SenseNova-SI验证空间智能“尺度效应”,数据量与质量提升空间认知。
  • 推理优化:ProRefine推理时方法,用LLM代理循环生成反馈优化提示,多步推理准确率较零样本思维链升3-37个百分点,小模型接近大模型性能。
  • 3D技术:谢赛宁团队CLM系统,动态加载高斯数据,单RTX 4090渲染1.02亿高斯点3D场景,保重建质量。
  • 模型优化:清华与上交研究,大模型推理上限由基座模型决定,蒸馏比强化学习(RLVR)更易扩展推理边界,RLVR仅优化已有路径。
  • 强化学习:Meta FAIR与新加坡国立大学SPICE框架,单一模型扮挑战者(生成问题)与推理者(解答),基于真实文档防幻觉,数学与通用推理提升。
  • 生物关联预测:江南大学LSCHNN轻量级超图神经网络,预测食物-微生物-疾病关联,AUPR升8.91%,数据集含190食物、219微生物、163疾病的17065条关联。
  • 材料建模:UC伯克利CHGNet框架,重新拟合原子参考能量,跨泛函迁移(低精度GGA→高精度r2SCAN),1K高精度数据超10K从头训练,数据效率升10倍,适卤化物范德华、HSE06数据集。

1.4 AI框架

  • UltraRAG 2.1:清华THUNLP、东北大学NEUIR、OpenBMB、AI9Stars联合推出,全球首个基于MCP(Model Context Protocol)架构开源RAG框架,YAML配置实现串行/循环/条件分支逻辑,低代码构建多阶段系统;原生多模态支持(Retriever/Generation/Evaluation统一支持,VisRAG Pipeline实现PDF建库-多模态检索-生成闭环);集成MinerU,自动解析多格式文档(Word/PDF/Markdown)分块建库;统一工作流(兼容Infinity/Sentence-Transformers/OpenAI等引擎)与标准化评估(全链路可视化),代码仓库https://github.com/OpenBMB/UltraRAG,教程https://ultrarag.openbmb.cn/,数据集https://modelscope.cn/datasets/UltraRAG/UltraRAG_Benchmark。
  • 月之暗面Kosong:开源AI代理开发框架,Python3.13+构建,统一LLM抽象层、封装标准化组件、异步工具编排引擎,插件化设计支持多模型切换,内置演示代理,5分钟完成工作流,uv包管理器安装。
  • LLMStack:无代码平台,连接LLM构建生成式AI智能体、工作流、聊天机器人,支持Slack/Discord触发,云端/本地部署。
  • ticker:开源工具,终端实时追踪股票、加密货币、衍生品价格与持仓,多方式安装(Homebrew/Linux/Windows/Docker)。
  • crypto-trading-open:企业级多交易所加密货币自动化交易系统,支持网格/刷量/套利/市场监控,分层架构,适配Hyperliquid/Backpack等多交易所。
  • SmartResume:阿里团队开发,智能简历解析系统,支持PDF/图片/Office格式,OCR+PDF元数据提取,版面检测重建阅读顺序,大模型转结构化字段(基本信息/教育/工作经历),支持远程API与本地部署。
  • unrealzoo-gym:北师大、北航、北大联合开发,基于Unreal Engine的3D虚拟世界集合,含100+场景、66个可交互实体,集成UnrealCV,Python API支持数据标注、训练、基准测试,获ICCV 2025 Highlight Award。
  • Meta SPICE:强化学习框架,自博弈实现AI自主推理学习,打破信息对称限制,防幻觉。
  • BindWeave:中科大与字节跳动开源,统一视频生成框架,多模态大模型作指令解析器,OpenS2V基准超现有模型。

二、智能体与AI应用

2.1 智能体与工具链发展

智能体
  • BlueCodeAgent:基于自动化红队测试的蓝队防御代理,多样化红队流程生成攻击数据,提炼安全原则,动态沙箱检测恶意指令/偏见/漏洞代码,四数据集三任务F1平均升12.7%,降误报。
  • LLMStack:无代码搭建生成式AI智能体,连接LLM与数据、业务流程。
  • Google adk-go:开源Go语言Agent开发框架,并发性能优,Go风格API,支持简单到多Agent系统,容器化部署。
  • Claude Agent SDK Loop:构建高效AI Agent框架,三步骤(收集上下文、行动、验证输出),子Agent并行,自动压缩上下文,工具调用+代码执行提效。
  • Mini Agent:基于MiniMax M2模型,Anthropic兼容API,支持文件系统/Shell操作,Session Note Tool跨会话记忆,智能上下文管理,集成15种Claude技能,原生MCP工具。
  • Kimi Writing Agent:基于kimi-k2-thinking,自主创作小说/书籍,实时展示思考与生成流,支持断点恢复。
  • 京东JoyAI体系:双11 3万+JoyAgent 3.0智能体作“数字员工”,数字人主播带动销售额超23亿。
  • 苹果端云协同智能体框架:计划用谷歌云端大模型指挥端侧专业智能体,平衡数据利用与隐私。
  • 华为鸿蒙智能体框架:Mate 80系列首发鸿蒙6系统,多智能体协同,个性化连续服务。
工具链
  • Hugging Face:发布《The Smol Training Playbook》,200+页,详解3B参数SmoILM3训练,含训练前问题、消融实验、后训练优化(SFT/偏好优化/RL)。
  • dLLM:训练diffusion大语言模型框架,支持LoRA/DeepSpeed/FSDP,内置评估与CLI聊天界面。
  • Promptometer:社区托管提示评估工具,用Anthropic指标评估系统提示。
  • Askimo:社区CLI工具,将提示模板转“配方”。
  • PromptBuilder:商业提示工具,兼容广,促销折扣。
  • K2-Vendor-Verifier:Moonshot AI为Kimi K2推出,验证第三方API端点可靠性,4000请求样本测试,评估工具调用精确性与JSON结构,发公共排行榜。
  • MacsyZones:macOS开源窗口管理工具,自定义布局,多显示器配置,Homebrew安装。
  • 8mb.local:开源视频压缩工具,显卡加速,自定义目标大小,多任务并发。
  • BentoPDF:浏览器端开源PDF工具,本地处理(合并/拆分/编辑/格式转换),无大小限制。
  • “妙语”:离线中文语音输入工具,Rust构建,本地语音识别(sherpa-rs+Paraformer),全局快捷键触发,自动粘贴。
  • TrendRadar:开源热点聚合工具,爬取微博/抖音/B站等平台内容,AI筛选,多通知方式。
  • SkidHomework:开源作业辅助工具,支持图片/PDF/拍照输入,自定义答案风格,在线演示需Gemini API密钥。
  • Awesome Claude Skills:开源技能库,含文档处理/开发工具/数据分析等数十种Claude技能,附指令与案例。
  • CodeBuddy Skills:AI编程助手技能模式,模块化设计,动态加载,人性化交互。

2.2 AI应用

图像/视频类
  • Lovart AI:上线“元素拆分”功能,海报拆文字/主体/背景层,支持字体/颜色/排版修改,未来计划扩展至视频帧。
  • 即梦AI:推出无限画布功能,无缝空间批量生成编辑图像/视频,支持中文提示词,Agent共创提效。
音频类
  • ElevenLabs:发布Scribe v2 Realtime实时语音转文本模型,流式优先架构,150毫秒内转录90+语言,适语音助手/会议记录。
  • Maya1:Maya Research开源语音模型,30亿参数,单GPU实时运行,20+内联情感表达(大笑/哭泣等),延迟低于100毫秒,项目地址https://huggingface.co/spaces/maya-research/maya1。
  • DiffRhythm2:开源音乐模型,效果不及Suno 3.5,Suno仍领先AI音乐领域。
办公/编程类
  • Gamma:AI演示平台,ARR超1亿,获6800万美元B轮融资,估值21亿,生成交互式演示内容。
  • 美团CatPaw:AI IDE公测,Agent+人工协作,集成LongCat编程模型,多模型混合调用,Ask(简单问答)与Agent(项目分析)双模式,内部渗透率超95%,AI生成代码率超50%,暂支持Mac,微信登录。
  • Replit AI Integrations:支持1-click集成300+AI模型(OpenAI/Google/Anthropic),自然语言选模型,免API密钥管理。
  • Onyx:开源AI聊天平台,兼容多LLM,支持私有化部署,具自定义指令、多源Web搜索、RAG、代码解释器、图像生成、团队协作功能。
社交/陪伴类
  • Sora:社交视频应用,核心功能Cameo与Remix,70%用户为创作者,积分制变现,平衡三方利益。
  • Dmooji:AI视频陪伴平台,用户自发传播,周活2万,聚焦孤独感解决,刘枫分享创业原则。
  • Zeta:韩国Scatter Lab开发AI聊天机器人,自定义角色,沉浸式交互,10-29岁用户占90%,10月使用时长7362万小时超ChatGPT(4828万),2025Q2盈利(营收52亿韩元),计划拓日英市场。
  • Robyn:前哈佛医师Jenny Shao创办情感AI伴侣,模拟人类记忆,识别情绪模式,提及自残提供危机指引,获550万美元种子轮,美国订阅制(月19.99/年199美元)。
其他领域
  • 零售:阿里巴巴与万豪国际深化AI合作,涉云基础设施、AI应用创新。
  • 电商:天猫双11全面用AI,优化流量分发、升级商家工具,智能客服转化升30%,进入“智能经营”阶段;顺丰同城武汉无人配送项目,无人机+无人车+楼宇机器人,AI调度,时效升50%,零碳。
  • 导航:谷歌地图推AI工具套件,含构建器代理(文本生成交互式地图原型)、样式代理(定制地图风格)、Grounding Lite(地理问题回答)、代码助手MCP服务器(连接文档),消费端加Gemini语音导航,印度加事件警报/限速数据。
  • 金融:Google Finance升级,集成AI深度搜索、市场预测、实时财报跟踪。
  • 翻译:蒙特雷国际研究院关停线下研究生项目,AI翻译推动行业转型。

三、物理AI/机器人

  • 小鹏IRON机器人:米良川(副总裁,中科大+爱荷华州立+英伟达背景)、陈杰(强化学习,字节前Seed团队)、葛艺潇(智能拟态,腾讯T12)、刘先明(自动驾驶)主导,胸部设计为散热与计算空间,仿生结构,女性机器人考虑空间压力,重心增强行走稳定性,被马斯克视为特斯拉在华竞品。
  • 复旦大学、上海创智学院、新加坡国立大学RoboOmni:全模态端到端操作大模型,统一视觉/文本/听觉/动作模态,感知-思考-回应-执行架构,从对话/语气/环境音推断意图,开源14万条OmniAction真机操作数据,综合成功率85.6%。
  • 银河通用DexNDM:灵巧手神经动力学模型,关节级建模,全自动数据收集,残差策略网络,跨物体/姿态稳定手内旋转,任意手掌朝向多轴向旋转,胜任拧螺丝/组装。
  • 俄罗斯Aidol:首款国产人形机器人,具对话/情绪识别,离线工作,48V电池续航6小时,速度6km/h,抓取10kg,面部19伺服电机支持12种情绪,发布会摔倒,开发者称“实时训练”,77%组件国产化,计划提至93%。
  • 特斯拉Optimus:目标年产能1000万台,扩建得州超级工厂,双足行走与手部灵活性提升。
  • 新松机器人:成立“具身智能研究院”,推进“机器人+AI”融合。
  • 无界动力:获3亿天使轮(红杉+线性领投),累计超5亿,聚焦机器人通用大脑与操作智能,手眼脑协同突破,软硬一体具身方案,首代平台即将进厂部署。
  • 智元机器人:11月10日股改(有限→股份),马化腾(1.58%)、王传福(0.39%)持股,计划科创板融资。
  • 炽梦科技:专注“生命感”智能陪伴机器人,获数千万元融资(高瓴+智元)。

四、硬件与基础设施

  • 谷歌Ironwood TPU:7代TPU商用,单颗算力4614 TFLOPS,192GB内存,7.37 TB/s带宽,性能较上一代升10倍,256芯片配置总算力42.5 ExaFLOPS,构建芯片-系统-云全栈生态。
  • AMD:收购AI推理初创MK1,整合Flywheel技术(日处理1万亿token),增强企业级AI软件;计划2026推MI400系列AI芯片,挑战英伟达;上调AI加速器市场预期,EPYC处理器与Instinct加速卡需求强劲,与OpenAI算力合作。
  • 英伟达:OmniVinci多模态模型,架构创新+合成数据,DailyOmni任务升19.05%,限制商业用途;黄仁勋称AI计算需求超互联网泡沫期;软银清仓其58.3亿美元股份。
  • 苹果:预订台积电2026年超一半2纳米芯片产能,保障iPhone/Mac;发布Xcode 26.1.1,优化AI编码助手内存,修复文本查找行号错误,新增终端诊断日志功能;iPhone Air上市月余停产,销量差(首周激活5万),配置低、eSIM不兼容。
  • 美国数据中心:德州、蒙大拿、内布拉斯加、南达科他州为理想选址(平衡可再生能源与水资源),弗吉尼亚、加州面临资源压力;微软投资100亿美元建葡萄牙数据中心,部署万卡GPU;OpenAI推Stargate数据中心计划;行业面临电力/空间瓶颈。
  • 华为:推出UCM统一缓存管理技术,HBM-DRAM-SSD三级缓存,降大模型推理首Token延迟,升吞吐量;发布“十大发明”,含SCALE-UP算力平台、昇腾亲和数学推理加速技术。
  • 中国算力:截至2025年6月,智能算力788EFLOPS,全球前列;深圳帕西尼Super EID Factory,年生成2亿条多模态训练数据。
  • 太空计算:浙大与南洋理工提出太空碳中和数据中心方案(轨道边缘/轨道云数据中心),全生命周期碳效率或超地面;中国发射全球首个太空计算星座。
  • 存储芯片:闪迪11月NAND闪存合约价涨50%,AI消耗产能致供不应求。
  • 边缘AI:Ceva预测未来十年AI向边缘迁移,物理与互联AI融合成万亿市场,模型趋轻量化。

五、企业动态、产品更新、投资

企业动态

  • OpenAI:挖英特尔CTO Sachin Katti(20年无线通信+AI基础设施经验)负责AGI算力基础设施;与软银合资“Crystal Intelligence”(日本售企业AI工具);ChatGPT网页版测试群聊(邀请链接、自定义指令、表情/举报/文件上传/图像生成/搜索功能);布局医疗健康。
  • Meta:首席AI科学家Yann LeCun(图灵奖)计划离职创业(研世界模型);重组AI部门,斥143亿投Scale AI,成立Meta Superintelligence Labs,FAIR实验室受影响(论文限制、裁员);开源Omnilingual ASR;与Nebius签30亿五年AI基础设施协议。
  • 字节跳动:火山引擎推Doubao-Seed-Code与InfinityStar框架;12万月薪招具身智能操作算法专家;与中科大开源BindWeave。
  • 百度:开源ERNIE-4.5-VL-28B-A3B-Thinking。
  • 商汤科技:开源SenseNova-SI。
  • 月之暗面:Kimi K2 Thinking开源,Reddit AMA回应成本与K3计划;开源Kosong框架。
  • 蚂蚁集团:开源Ming-UniAudio;与智元等成立“杭州传智未来科技”(AI基础软件)。
  • 阿里:阿里云双11提供千万核CPU/万卡AI算力,通义千问大规模应用;与万豪AI合作。
  • 小米:“AI才女”罗福莉加入,致力于“物理世界的智能”,传雷军千万年薪挖角。
  • 英特尔:CTO Katti离职,CEO陈立武接管AI部门。
  • AMD:收购MK1;上调AI加速器市场预期。
  • 英伟达:OmniVinci模型发布;黄仁勋谈AI计算需求。
  • 谷歌:Gemini进TV;Photos/地图/Finance升级;Ironwood TPU商用;与Grab合作(投Vay 6000万)。
  • 苹果:Xcode更新;iPhone Air停产;预订台积电2nm产能。
  • 软银:清仓英伟达58.3亿股份;追加OpenAI 225亿投资(持股11%);合资Crystal Intelligence。
  • 其他:Oracle与OpenAI 3000亿云合作;Perplexity全球下载增39.5%;InShot跻身全球前五;腾讯元宝、夸克买量榜首;快影、文小言上涨;Lovable用户近800万,估值18亿,传闻新估值50亿;Cursor估值超百亿,996文化;禾赛科技Q3净利升47.5%,激光雷达出货升229%;上纬新材具身智能业务股价涨15倍;Monolith砺思筹4.88亿基金;Quantinuum发布Helios量子计算机(98物理比特→48逻辑比特,2:1转换率,Guppy语言)。

产品更新

  • 硬件产品:别克MPV至境世家(三联屏+50英寸AR-HUD+AI语音);岚图梦想家MPV(华为ADS 4+鸿蒙5);东风奕派eπ007+(激光雷达+骁龙SA8295P+天元T200);奔驰CLA(豆包模型+思必驰语音+Momenta智驾);Viwoods AiPaper Reader(电纸书+AI按键+多模型);Rokid乐奇AI眼镜(多语言翻译+语音导航+本地数据处理);三星Galaxy AI(电视Vision AI Companion+手机生成式编辑);华为Mate 70 Air(6.6mm厚+7英寸屏+6500mAh+66W+昆仑玻璃+IP68&69+鸿蒙5.1,4199元起)。
  • 软件产品:美团CatPaw;Replit AI Integrations;Onyx;BubbleLab(AI生成工作流);Gaga-1;FLUX.2 [pro](即将);QwenEdit - 2509 Photo2Anime;Doubao-Seed-Code;InfinityStar;ERNIE-4.5-VL-28B-A3B-Thinking;SenseNova-SI;Kimi K2 Thinking;Kosong;Ming-UniAudio;DiffRhythm2。

投资

  • 1mind(AI销售):获3000万美元A轮(Battery Ventures领投),AI销售代理Mindy(替代销售工程师/客服)。
  • Wonderful(以色列AI代理):获1亿美元A轮(Index Ventures领投),AI客服代理(多渠道+本地化)。
  • Uare.ai(原Eternos):获1030万美元种子轮(Mayfield+Boldstart领投),个人AI模型。
  • Majestic Labs(AI服务器):获1亿美元融资(前谷歌/Meta工程师创办)。
  • Robyn(情感AI):获550万美元种子轮。
  • Clio(法律AI):获5亿美元G轮。
  • Gamma:获6800万美元B轮(a16z领投)。
  • 无界动力:获3亿天使轮(红杉+线性领投)。
  • 炽梦科技:获数千万元融资(高瓴+智元)。
  • Monolith砺思:筹4.88亿基金(AI软件+智能硬件)。
  • Quantinuum:获6亿美元融资,估值100亿。
  • 软银:投OpenAI 225亿;售英伟达58.3亿。
  • Grab:投Vay(德国远程驾驶)6000万美元。

六、行业观点与社会影响

行业观点

  • 李飞飞(斯坦福):空间智能是AI下一站,需世界模型,分阶段赋能多领域,AI应增强人类能力。
  • Yann LeCun(Meta前首席AI科学家):质疑当前LLM炒作,认为AI需超家猫智能,离职研世界模型。
  • 黄仁勋(英伟达):AI计算需求超互联网泡沫期,全球GPU算力近满负荷。
  • 吴恩达(谷歌大脑前创始人):AI降编程门槛,提“氛围编程”,从业者转向高价值任务。
  • Julian Schrittwieser(Anthropic):AI长任务能力每7月翻番,2026年中期可自主工作8小时,年底模型匹人类专家,2027-2028年或现诺奖级突破,AGI无需新技术。
  • 杰米·戴蒙(摩根大通):未来20-40年发达国家工作周缩至3.5天,AI提效,摩根大通2000人研AI,15万人用LLM,警示AI泡沫。
  • 刘强东(京东):中国家庭智能锁5年使用率达90%。
  • 赵天成(联汇科技):终端智能引领AI从模型创新向实体赋能,入选《财富》40U40。
  • Karen Hao(MIT记者):AGI竞赛代价大,环境消耗与社会不平等加剧,OpenAI等烧钱竞赛。
  • 麦肯锡:88%企业用AI,仅39%获财务回报;62%试AI Agent,不足10%规模化;高绩效企业更愿AI变革。
  • 埃森哲CEO朱莉·斯威特:清退无法掌握AI技能员工,70%员工获生成式AI培训。
  • 高盛:警示AI泡沫与历史科技泡沫相似。
  • 行业专家:RAG向Agentic/多模态/GraphRAG/工程化发展;AI从软件向硬件延伸,离线/多模态演进。

社会影响

  • 就业:BairesDev调查,65%高级开发者预计2026年角色重构,74%从编码转方案设计,仅9%信AI代码无需监督,初级工程师机会减或致人才短缺;AI替代创意类岗位(CG艺术家/摄影师/作家),高级管理岗增长。
  • 教育:AI重塑教育权力结构,清华/加州州立/谷歌推AI教育工具;学生用ChatGPT作弊,arXiv停收CS未评审综述;洋葱学园/学而思推AI教育应用。
  • 医疗:AI辅助诊断(ERNIE-4.5-VL肺结节检测);OpenAI布局健康工具;Robyn情感陪伴。
  • 零售:AI驱动电商“智能经营”(天猫双11);智能锁普及。
  • 农业:AI缩短育种周期,提升效率。
  • 生活方式:AI陪伴(Zeta/Robyn/Dmooji);智能设备(AI眼镜/电纸书/汽车);工作周缩短预期。
  • 文化:维基百科人类浏览量降8%,志愿者成长受影响;AI生成内容难及人类情感张力。

七、安全、伦理与监管

  • 版权:德国慕尼黑法院裁定OpenAI用德国音乐人歌词训练侵权,需授权,成欧洲生成式AI版权先例;维基媒体基金会要求AI公司用付费API(Wikimedia Enterprise),停止抓取,称AI爬虫致流量异常,要求署名。
  • 安全:OpenAI前安全主管Steven Adler质疑公司色情内容安全承诺,称2021年AI引导色情对话,2025年10月允许成年人使用,质疑心理健康风险(ChatGPT每周数百万用户显危机迹象);360发布大模型五大安全风险(准确性等);BlueCodeAgent提升代码生成AI安全性;Google Project Zero用“Big Sleep”批量发现漏洞引开源争议。
  • 伦理:12岁用AI生成图片谎称流浪人员闯入引发小区恐慌,需加强未成年人AI伦理教育;斯坦福与民主与技术中心研究,AI聊天机器人或助长饮食失调;Mozilla Firefox AI功能默认开启引隐私担忧;学生用ChatGPT作弊,学术诚信受挑战。
  • 监管:国家网信办新增73款生成式AI服务备案,累计611款;北京累计163款生成式AI服务备案;世界互联网大会发布《为人类共同福祉构建全球人工智能安全与治理体系》倡议;欧盟加强生成式AI版权监管。

八、学习与研究资源

  • UltraRAG:代码仓库https://github.com/OpenBMB/UltraRAG,教程https://ultrarag.openbmb.cn/,数据集https://modelscope.cn/datasets/UltraRAG/UltraRAG_Benchmark,2.0详情链接(UltraRAG 2.0全新升级:几十行代码实现高性能RAG…)。
  • QwenEdit - 2509 Photo2Anime:项目地址https://huggingface.co/autoweeb/Qwen-Image-Edit-2509-Photo-to-Anime,使用地址https://huggingface.co/spaces/akhaliq/Qwen-Image-Edit-2509-Photo-to-Anime。
  • Gaga-1:使用地址https://gaga.art/。
  • ERNIE-4.5-VL-28B-A3B-Thinking:信息来源https://yiyan.baidu.com/blog/zh/posts/ernie-4.5-vl-28b-thinking。
  • Google Photos:阅读更多https://sites.google.com/deemos.com/kinematify。
  • ElevenLabs Scribe v2 Realtime:使用地址https://elevenlabs.io/realtime-speech-to-text。
  • Maya1:项目地址https://huggingface.co/spaces/maya-research/maya1。
  • VibeThinker:收藏地址https://sota.jiqizhixin.com/project/vibethinker-1-5b。
  • ticker:收藏地址https://sota.jiqizhixin.com/project/ticker。
  • crypto-trading-open:收藏地址https://sota.jiqizhixin.com/project/crypto-trading-open。
  • SmartResume:收藏地址https://sota.jiqizhixin.com/project/smartresume。
  • unrealzoo-gym:收藏地址https://sota.jiqizhixin.com/project/unrealzoo-gym。
  • LLMStack:收藏地址https://sota.jiqizhixin.com/project/llmstack。
  • K2-Vendor-Verifier:链接https://github.com/MoonshotAI/K2-Vendor-Verifier。
  • Ming-UniAudio:链接https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B、https://xqacmer.github.io/Ming-Unitok-Audio.github.io/。
  • DiffRhythm2:链接https://huggingface.co/ASLP-lab/DiffRhythm2。
  • SkidHomework:链接https://github.com/cubewhy/skid-homework。
  • MacsyZones:链接https://github.com/rohanrhu/MacsyZones。
  • 8mb.local:链接https://github.com/JMS1717/8mb.local。
  • BentoPDF:链接https://github.com/alam00000/bentopdf。
  • “妙语”:链接https://github.com/pengling9405/miaoyu。
  • TrendRadar:链接https://github.com/sansan0/TrendRadar。
  • Awesome Claude Skills:链接https://github.com/ComposioHQ/awesome-claude-skills。
  • CodeBuddy:链接https://copilot.tencent.com/ide。
  • OpenAI基础设施团队:链接https://openai.com/careers/infrastructure。
  • 英特尔AI事业部:链接https://www.intel.com/content/www/us/en/artificial-intelligence/overview.html。
  • AGI研究进展:链接https://arxiv.org/search/?query=AGI。
  • 李飞飞空间智能论文:链接https://arxiv.org/abs/2501.12346,世界模型研究https://worldmodels.github.io/,空间智能基准https://spatial-intelligence-benchmark.org/。
  • Kimi开源项目:链接https://github.com/moonshot-ai/kimi,K2 Thinking文档https://kimi.moonshot.cn/docs,Reddit AMA记录https://www.reddit.com/r/MachineLearning/comments/xxx/ama_kimi_team/。
  • AMD Instinct MI300X:链接https://www.amd.com/en/products/instinct-mi300x。
  • MK1技术白皮书:链接https://mk1.ai/technology。
  • AI推理优化框架:链接https://github.com/amd/ai-optimization-frameworks。
  • InfinityStar技术论文:链接https://arxiv.org/abs/2501.12347,时空金字塔模型https://github.com/spatiotemporal-pyramid,视频生成基准https://video-generation-benchmark.github.io/。
  • 软银愿景基金:链接https://softbank.jp/en/visionfund/,OpenAI Globalhttps://openai.com/global,AI投资趋势https://a16z.com/ai-investment-trends-2025/。
  • Google adk-go:链接https://github.com/google/adk-go。
  • Google AI智能体白皮书:链接https://www.kaggle.com/learn-guide/5-day-agents、https://www.kaggle.com/whitepaper-introduction-to-agents。
  • Claude Agent SDK Loop:链接https://x.com/omarsar0/status/1987167737639325886。
  • Mini Agent:链接https://github.com/MiniMax-AI/Mini-Agent。
  • Kimi Writing Agent:链接https://github.com/Doriandarko/kimi-writer。
  • Bee项目:链接https://arxiv.org/abs/2510.13795、https://open-bee.github.io、https://huggingface.co/datasets/Open-Bee/Honey-Data-15M。
  • Hugging Face训练手册:链接https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#introduction。
  • VisRAG论文:链接https://arxiv.org/abs/2410.10594(VisRAG)、https://arxiv.org/abs/2510.09733(VisRAG 2.0)。
  • 腾讯研究院AI速递:链接https://mp.weixin.qq.com/s/ln_0w1uq8Vlzf7R53EUYVQ等(共10条)。

九、总结与洞察

核心趋势

  1. 多模态融合深化:从UltraRAG 2.1的原生多模态RAG、商汤SenseNova-SI的空间智能,到百度ERNIE-4.5-VL的跨模态推理,多模态不再是单一功能叠加,而是深度协同(如图文联合建模、跨模态检索闭环),推动AI从文本理解迈向物理世界交互。
  2. Agent化成为主流:Agentic RAG(自主推理优化查询)、LLMStack等无代码Agent平台、行业专用Agent(如医疗DiagAgent、电商JoyAgent)普及,AI从被动工具转向主动决策体,低代码/无代码降低开发门槛,加速落地。
  3. 成本优化与普惠化:字节Doubao-Seed-Code将编程模型成本降62.7%、个人首月9.9元,百度ERNIE-4.5-VL用MoE架构降推理成本,开源模型(如Kimi K2、SenseNova-SI)增多,AI技术从头部企业向中小开发者、垂直行业渗透。
  4. 具身智能崛起:机器人(小鹏IRON、复旦RoboOmni)与物理AI(无界动力通用大脑)发展迅速,多模态感知(视觉/听觉/动作)与世界模型结合,推动AI从虚拟场景走向工业制造、商业服务等物理场景。

关键挑战

  1. 商业可持续性:OpenAI Sora2日均成本1500万美元、年化亏损超120亿,AI视频、大模型训练等高算力需求场景面临“烧钱换市场”困境,如何平衡技术迭代与盈利是头部企业核心难题。
  2. 伦理安全与监管:德国版权判决、维基媒体反抓取、AI心理健康风险等,凸显生成式AI在数据授权、隐私保护、内容安全上的合规压力,全球监管趋严(如欧盟版权先例、中国AI备案),企业需建立全链路治理体系。
  3. 技术泡沫风险:软银清仓英伟达、高盛警示AI泡沫,部分领域(如数据中心、AI芯片)投资过热,而实际商业化落地(如AI Agent规模化)不足,需警惕“技术炒作”与“真实需求”脱节。

未来机遇

  1. 垂直领域深耕:医疗(AI诊断、个人健康助手)、农业(AI育种)、工业(机器人质检)等领域,AI与行业知识结合紧密,易产生可量化价值(如医疗检测敏感性超人类、农业效率升30%),是中小企业破局关键。
  2. 空间智能与世界模型:李飞飞提出的空间智能、Yann LeCun聚焦的世界模型,成为AI下一站竞争焦点,将推动机器人导航、自动驾驶、科学模拟(如气候、分子)突破,重构AI与物理世界的交互方式。
  3. 开源生态协同:UltraRAG、Kosong等开源框架,商汤、百度等开源模型,降低技术门槛,促进产学研协同(如清华+企业联合研发),中文社区在多模态、Agent框架上的创新(如UltraRAG MCP架构),有望重塑全球AI生态格局。

核心结论

AI领域呈现“技术突破与商业阵痛并存”特征:多模态、Agent化、具身智能为核心方向,成本优化与开源加速普惠,但高成本、伦理监管、泡沫风险仍需破解。未来,AI将更深度融入物理世界,垂直场景落地与技术合规将成为企业竞争的关键,而“增强人类能力而非替代”(如李飞飞空间智能理念)将是AI可持续发展的核心准则。

Logo

为武汉地区的开发者提供学习、交流和合作的平台。社区聚集了众多技术爱好者和专业人士,涵盖了多个领域,包括人工智能、大数据、云计算、区块链等。社区定期举办技术分享、培训和活动,为开发者提供更多的学习和交流机会。

更多推荐