小白友好！LLM/Agent数据分析师一站式指南：5大维度解析+100+方法+技术全景

本文系统梳理LLM/Agent作为数据分析师的技术路线，提出5大设计维度和4类数据模态。详细解析结构化数据(NL2SQL、时间序列)、半结构化数据(HTML/表格)和非结构化数据(图表/视频/文档/3D)处理技术，以及异构数据湖查询方法，提供100+代表性方法、Benchmark和开源数据集的一站式导航，为大模型在数据分析领域的应用提供全面指导。

大模型玩家

493人浏览 · 2025-10-05 09:30:00

大模型玩家 · 2025-10-05 09:30:00 发布

上交大、清华、微软等首次把「LLM/Agent 当数据分析师」的技术路线系统拆成 5 大设计维度 与 4 类数据模态，并给出 100+ 代表性方法、Benchmark、开源数据集的一站式导航。

在这里插入图片描述

LLM/Agent-as-Data-Analyst 的技术全景图

核心框架：一张图看懂技术版图

五维演化路线

从「人工开发」到「自主设计」的五维演化路线

① 数据模态：同构 → 异构
② 分析功能：字面 → 语义
③ 知识范围：封闭世界 → 开放世界
④ 工具集成：紧耦合 → 工具箱即插即用
⑤ 开发方式：手工 → 完全自主

结构化：LLM 成为 SQL 高手

3.1 NL2SQL 技术栈全景

Figure-3 结构化数据两大范式

左：Pipeline（先语义解析→再生成 SQL→执行）
右：End-to-End（直接让 LLM 吐出答案，无需 SQL 中间态）

关键模块	典型技巧
Schema Linking	先让模型知道“有哪些表、字段”
内容检索	动态采样真实值，减少幻觉
多步生成	先 SELECT→再 JOIN→再 WHERE，分而治之
解码策略	Beam-Search + PICARD 后处理，保证语法合法

3.2 时间序列新玩法：TS2NL

把时序数据直接“说”给模型听——例如“2025-10-01 风速 10 km/h”，LLM 就能做异常检测、预测。
代表方法：SIGLLM、TimeRAG、TimeXL（多智能体协作）。

半结构化数据：妙解HTML/Excel

4.1 Markup 语言（HTML/JSON/XML）

大模型用于Markup语言概览

Evaporate：用 LLM 自动生成抽取函数，无需手工 XPath
WebFormer：把 DOM 树压进 Transformer，结构+文本一起编码
XPath Agent：两阶段清洁→生成，网页爬虫零代码

4.2 不规则表格（合并单元格、层级表头）

Figure-5 半结构化表格 5 大痛点

① 缺索引 ② 层级内容 ③ 合并单元格 ④ 表头方向乱 ⑤ 内容格式不一致

解法思路：

Tree-Based：TUTA、ST-Raptor 把表格变成“树”喂给 Transformer
DSL 转换：TabFormer、Auto-Tables 用 LLM 生成“软操作符”→转 SQL
Table Prompting：SheetCompressor 把 1 万行 Excel 压缩成 200 token，信息不丢

非结构化数据：图表、视频、文档、3D 一网打尽

5.1 图表理解（Chart QA）

Chart数据分析概览

任务	代表模型
图表描述	ChartThinker（链式思考）、FigCaps-HF（RLHF）
问答	ChartQA、ChartMoE（混合专家）
图→代码	ChartMimic、Text2Chart31（强化学习）

缺高质量数据？ChartLlama、EvoChart 用 GPT-4 合成 100 万对<图，QA>

5.2 视频分析：把 3 小时视频压成 256 token

Figure-8 LLM 视频分析流水线

关键帧抽取 + Token-Merging：TimeMarker、Grounded-VideoLLM
时间锚定：用「<t=05:12>」特殊 token 让模型精准定位
多智能体：检测→描述→摘要分角色协作，长视频也能秒级回答

5.3 文档理解：超越 OCR 的多模态架构

非结构化文档分析技术挑战

阶段	代表模型
早期融合	LayoutLM（文本+坐标+图片一起输入）
中期融合	LayoutLMv2、DocFormer（双塔交叉注意力）
后期融合	DLAFormer（多任务共享主干）

RAG 方案：

文本分支 RAFT、视觉分支 M3DOCRAG，再双路融合 VisDoM
合成数据：PosterLlama 把“排版”变成 HTML+CSS 代码生成，无限扩增

5.4 3D 模型：点云→语言对齐

Figure-9 3D-Language Fusion 框架

3D-LLM：多视角渲染→视觉 token→LLM，实现场景描述、导航 QA
领域专用：3D-MoLM（分子）、ProteinChat（蛋白质）
跨模态强化：LLMI3D 只改 2% 参数就让 LLM 看懂单图→3D 几何

异构数据湖：一句话查询所有模态

场景：
“找出 19 世纪油画里出现过≥3 次的颜色，对应拍卖价高于均值多少？”

模态对齐：Unicorn（MoE+对比学习）、Symphony（全部转文本嵌入）
检索：CAESURA 把 SQL、VQA、图文相似度统一成 SQL-Like 语法
智能体：XMODE 自动拆成“SQL 查年份→VQA 数颜色→Python 画图”

paper: https://ai.meta.com/research/publications/cwm/
LLM/Agent-as-Data-Analyst: A Survey
https://github.com/weAIDB/awesome-data-llm

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

北京朝阳AI社区

更多推荐

大模型论文 | RAG从入门到精通：技术演进、评估框架与多智能体系统详解

北京朝阳AI社区

大模型私有化部署小栗子

北京朝阳AI社区

通用Agent已死，这个方向才是未来

我们不再和AI比拼算力，而是学会如何和AI协作，提出好问题，审辨AI的答案，为结果注入人类独有的智慧和温度。通俗地说，它不是你问我答的聊天机器人，而是能理解目标、自主规划、调用工具，最终把任务完成的“智能小帮手”。但这只是序章，通用Agent的脆弱、模型厂商的威胁、以及地缘因素的变数，都意味着前路并不平坦。他们不用造最强的大模型，只需成为最懂用户的“套壳工程师”，把体验打磨到极致，就足够跑赢巨头。