【愚公系列】《人工智能70年》047-生成式Al的辉煌与难题（跨越模态）

多模态大模型正成为AI发展的重要方向，突破单一模态限制，实现文本、图像、音频、视频等信息的综合处理。国内外科技巨头纷纷布局：谷歌Gemini 2.0支持多模态混合输出，抖音PixelDance和快手"可灵"展现强大视频生成能力。多模态技术不仅提升模型泛化能力和准确性，更为自动驾驶、医疗诊断等复杂场景提供支持，同时推动智能体和具身机器人的发展，标志着AI向更全面认知和交互能力迈进

愚公搬代码

452人浏览 · 2025-09-28 00:15:00

愚公搬代码 · 2025-09-28 00:15:00 发布

在这里插入图片描述

💎【行业认证·权威头衔】
✔ 华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯：CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋：横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"（2022-2024）
🎖 双冠加冕CSDN"年度博客之星TOP2"（2022&2023）
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵：
◾ 编程语言：.NET/Java/Python/Go/Node…
◾ 移动生态：HarmonyOS/iOS/Android/小程序
◾ 前沿领域：物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发：Unity3D引擎深度解析

🚀前言

无所不能的 ChatGPT，使人们对大语育模型的通用能力有了全新认识。

在这里插入图片描述

🚀一、跨越模态

随着大模型的快速发展，其能力已远不限于自然语言处理（NLP）任务，而是跨越多种信息形态，实现对多模态信息的综合理解与生成。目前，主流AI企业正积极投入多模态大模型的研发与落地。

“模态”（Modality）指信息的来源或表现形式，包括听觉、视觉、触觉等感官通道，以及雷达、红外传感器等设备捕获的信号，其形式可体现为文本、音频、图像、视频等。机器学习为区分和处理不同来源与类型的数据，引入这一概念以标识异构信息源。

在AI发展的早期阶段，模型通常仅处理单一模态数据：自然语言处理模型专注于文本，计算机视觉（CV）模型专注于图像，缺乏跨模态的交互与融合能力。进入深度学习尤其是大模型阶段后，模型能力显著增强，得以同时处理文本、音频、图像、视频等多种数据类型，多模态大模型应运而生，并迅速推进。

多模态不仅是大模型发展的必然趋势，也源于实际应用的迫切需求。在应对复杂场景时，多模态大模型能融合来自不同信息源与模态的数据，进行更全面、准确的分析与决策，因此在自动驾驶、机器人、医疗诊断、智慧城市等高度复杂的任务中表现卓越。

其核心能力包括图像与视频描述与理解、多模态交互和跨模态推理等，极大扩展了大模型的应用范围。同时，多模态数据的多样性提升了模型的泛化能力，不同模态之间的互补也增强了准确性与鲁棒性。

可以说，跨越数据边界的多模态大模型不仅显著提升了模型能力，也极大拓宽了应用场景，成为AI发展的重要方向。

例如，2024年12月谷歌发布的Gemini 2.0 Flash实验版本，支持文本、音频、图像、视频等多模态输入，能够解析图像内容、理解视频中的动态场景变化，并实现多模态混合输出（如图文结合），还具备多语种文本转语音功能，用户可按需选择语言与口音，极大促进了跨语言交流与机器翻译的应用。

国内多模态大模型的发展同样迅速。几乎在同一时期，2024年12月13日，抖音的视频生成模型 PixelDance 在豆包大模型PC版开启内测。该模型具备出色的视频生成能力，与快手的“可灵”一样，被业界视为中国版的“Sora”。其在场景与角色一致性方面表现优异，用户还可使用时序提示词、长镜头等高级控制方式增强视频复杂度与表现力，拓展了创作可能性。

其他中国科技公司也在多模态大模型领域展现出强大实力。

更重要的是，多模态大模型为新一代多模态智能体（Agent）奠定了技术基础。这类智能体能够“看到”和“听到”周围世界，进行搜索、读写代码，并具备记忆、思考、规划与执行任务的能力。多模态大模型的发展，正推动智能体与具身机器人等应用迅速走向现实。

北京朝阳AI社区

更多推荐

用AI读懂汉字：基于卷积神经网络的手写汉字识别系统

北京朝阳AI社区

大语言模型不知“今夕是何年”——解决方案在此

北京朝阳AI社区

AI 智能体 8 种常见的记忆（Memory）策略与技术实现

AI智能体记忆策略全解析：8种核心方案原理与实战本文系统介绍了AI智能体实现记忆功能的8种核心策略，帮助开发者突破LLM上下文长度限制，实现更智能的对话系统：全量记忆：存储所有对话历史，简单但不可持续滑动窗口：仅保留最近N轮对话，平衡性能与记忆相关性过滤：基于重要性评分选择性保留关键信息摘要/压缩：提炼对话要点，节省空间保留核心内容向量数据库：利用语义检索实现海量长期记忆知识图谱：结