从BERT到T5再到Qwen3:一文掌握大模型核心文本嵌入技术,从架构到实战全面解析!
文章系统综述了预训练语言模型(PLM)在通用文本嵌入(GPTE)中的基础与高级角色。PLM使文本嵌入从专用走向通用,并正迈向多模态、多语言、多任务的大一统。数据合成、对比学习和大模型上下文窗口是当前提升性能的关键。未来嵌入模型需具备推理能力、安全意识和解耦能力,而不仅是追求更高维度。
前言
文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等**预训练语言模型(PLM)**的出现,文本嵌入进入了“通用+可迁移”时代。
- 通用文本嵌入(GPTE) 的架构、数据、模型
- PLM 到底给GPTE带来了哪些基础能力与高级扩展?
1.一张图先看清 GPTE 架构
图1:GPTE 典型架构——Bi-Encoder + 对比学习
- 骨干:任意 PLM(BERT、T5、LLaMA…)
- 池化:CLS / Mean / Last-Token / Prompt-Pooling
- 训练:大规模文本对 + InfoNCE 对比损失
- 微调:任务特定的轻量适配(LoRA、Adapter)
Embedding训练数据
2.PLM 的「基础角色」
50种有代表性的开源 GPTE 方法(模型)
模块 | 关键做法 | 代表工作 |
---|---|---|
(1)嵌入抽取 | CLS / Mean / Last-Token / 多层融合 | SBERT、E5、GTE |
(2)长文本 | RoPE、Alibi、LongEmbed | Jina-v3、MosaicBERT |
(3)训练策略 | 多阶段:弱监督→高质量 | E5-Mistral |
(4)学习目标 | CL + MLM + MRL + KD | GTE-MLM、DiffCSE |
(5)数据合成 | LLM 生成正/负样本 | Promptagator、Qwen3-Emb |
基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM:模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。
3.PLM 的「高级角色」
(6) 多模态
- 说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势
- 另外现有MLLM能力也都很强,像刚开源的智谱GLM-4.5v,给一张照片,就能基于掌握的知识(结合河流走向和城市结构)推理出这是:纳什维尔(Nashville)是美国田纳西州GLM4.5之后,智谱又开源GLM-4.5V,实测下来视觉推理能力贼强~
模型 | 模态 | 训练数据 | 特色 |
---|---|---|---|
E5-V | T + I | LLaVA-NeXT | 把 LLM 当图文编码器 |
VLM2Vec-V2 | T + I + V | Qwen2-VL | 统一视频/图像/文档检索 |
MegaPairs | T ↔ I | 合成 500M 图文对 | 数据即战力 |
表6:多模态嵌入模型全家福
表7:多模态嵌入数据
(7) 多语言
模型 | Backbone | 语言数 | 亮点 |
---|---|---|---|
mE5 | XLM-R | 100+ | 中英跨语种零样本检索 |
BGE-M3 | XLM-R + Long | 200+ | 8192 token 长文本 |
表4:多语言 GPTE 模型概览
表5:多语言 GPTE 训练数据概览
(8) 代码嵌入
- 早期:CodeBERT、GraphCodeBERT(结构+文本)
- LLM 时代:CodeLlama、DeepSeek-Coder → 直接做 Code Embedding
- 对比学习:UniXcoder、ContraBERT、CodeSage
表8:基于 CL 的代码嵌入模型
表9:代码嵌入的训练数据
PaperAgent三句话总结
- PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。
- 数据合成 + 对比学习 + 大模型上下文窗口,是当前性能提升的三板斧。
- 下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。
与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

更多推荐
所有评论(0)