2025三掌柜赠书活动第二期:揭秘大模型:从原理到实战
近年来,大模型迅速发展,其进步不仅体现了技术的深度与广度,还预示着未来科技发展的广阔前景。随着技术的不断突破和应用的广泛拓展,越来越多的企业和研究机构涌入这一领域,试图分一杯羹。从当初备受瞩目的“AI四小龙”到如今新兴的“大模型六小虎”,这一变化不仅预示着大模型市场竞争的日益激烈,更凸显了行业格局的快速多变。那么本文就来聊聊相关的内容。
目录
前言
近年来,大模型迅速发展,其进步不仅体现了技术的深度与广度,还预示着未来科技发展的广阔前景。随着技术的不断突破和应用的广泛拓展,越来越多的企业和研究机构涌入这一领域,试图分一杯羹。从当初备受瞩目的“AI四小龙”到如今新兴的“大模型六小虎”,这一变化不仅预示着大模型市场竞争的日益激烈,更凸显了行业格局的快速多变。那么本文就来聊聊相关的内容。
大模型行业出现马太效应
2024年,大模型行业呈现出鲜明的马太效应。OpenAI、谷歌、微软等科技巨头屹立不倒,它们凭借强大的技术实力、资金支持和丰富的数据资源,持续在大模型领域进行深耕和布局。这些巨头不仅推出了诸如ChatGPT、Gemini、GPT-4等具有强大能力的大模型,而且不断优化和升级模型性能,推动大模型技术的持续进步。与此同时,众多大模型初创公司则面临着巨大的市场竞争压力,难以与巨头们抗衡,因此纷纷排队寻求出售,以寻求更好的发展机会。
例如,专注于开发大模型的公司Stability AI和专注于生成式AI技术的公司Reka AI正在考虑出售。
▲Stability AI 创始人Emad Mostaque
在国内,大模型发展处于两极分化状态,经过一年激烈的市场竞争,大模型行业经历了残酷的淘汰赛,只有极少数市场活力强、用户活跃度高的大模型脱颖而出,进入了现阶段的决赛圈。这些大模型主要来自以互联网企业为代表的科技巨头——百度的文心大模型、阿里的通义大模型、腾讯的混元大模型等;以及以“大模型六小虎”为代表的头部创企——智谱AI、月之暗面、百川智能、零一万物、MiniMax、阶跃星辰。
2024年12月20日,由《财经》杂志主办的《财经》年度对话2024在北京举行,360集团创始人周鸿祎在发表演讲时指出:“目前AGI的发展正面临挑战。”
▲360集团创始人周鸿祎
大模型未来发展趋势
未来,大模型的发展将呈现出技术深化与融合的趋势,随着计算能力的不断提升和数据资源的日益丰富,大模型的规模有望进一步扩大,可以更精准地捕捉复杂现象和提供更准确的预测。同时,多模态模型将成为主流,能够跨越文本、图像、音频和视频等多种数据类型进行理解和生成,实现更加全面和智能的信息处理。此外,大模型还将与物联网、边缘计算等其他技术领域进行更深入的融合,推动技术创新和产业升级。
尽管当前市场上由百度、阿里、腾讯等科技巨头以及“大模型六小虎”等头部创新企业主导,但未来大模型的发展格局仍充满变数,新的参与者和技术突破有可能改变现有的市场格局。例如,很多初创公司所研发的大模型不断向垂直领域靠拢,特别是在医疗、钢铁、化工、金融等垂直领域的应用日益广泛。又例如,在医疗领域,大模型可以辅助医生分析诊断病情;在金融领域,大模型可以用于风险评估和智能投顾等;在工业领域,大模型基于工业缺陷检测领域打造了智能检测产品,用于对各类工业品进行缺陷检测。
在大模型如此复杂且快速发展的环境下,无论是作为使用者还是行业从业者,掌握一定的大模型知识都显得尤为重要。这不仅有助于我们更好地理解大模型的原理和应用场景,还能让我们通过了解学习大模型的种类、特点、训练方法及应用场景,更有效地利用这些智能工具。文亮和江维两位人工智能领域的资深专家联合撰写了《揭秘大模型:从原理到实战》。
关于《揭秘大模型:从原理到实战》
接下来给大家推荐一本关于大模型的书籍,这是一本关于大模型领域的干货图书,一经上市就登上了京东“计算机与互联网”图书排行榜前列。本书从大模型原理剖析讲起到实战技巧,帮助开发者在大模型领域的学习和工作中轻松自如!另外,关注本文博主,点赞+收藏本文,且在本文评论区评论“揭秘大模型”,将选取三名幸运读者送出纸质版《揭秘大模型:从原理到实战》一本,截止时间:2025.01.16。入手《揭秘大模型:从原理到实战》传送门:https://item.jd.com/14893696.html或者《揭秘大模型:从原理到实战》(文亮 江维)【简介_书评_在线阅读】 - 当当图书,个人觉得这本书非常的不错,是一本不可多得的好书,值得拥有去学习!
编辑推荐
适读人群 :高校计算机、人工智能等相关专业学生、教师、研究人员;大模型、人工智能等相关领域的技术人员。
.涵盖AIGC、大模型、扩散模型等热点话题;
.以技术视角透彻解读大模型底层技术;
.系统介绍GPT、LLaMa、GLM等主流大模型的技术原理;
.给出GPT的基本代码实现,帮助读者深入理解技术原理;
.介绍如何构建私有大模型,带领读者动手构建私有大模型。
内容简介
本书从技术角度深度解析大模型的原理,从大模型的基础概念及领域发展现状入手,概述大模型的理论基础,介绍OpenAI GPT、清华大学GLM、Meta Llama等主流大模型的技术原理,并从大模型参数高效微调、大模型指令微调、大模型训练优化和大模型推理优化等多角度解析大模型背后的技术,带领读者全方位掌握大模型的原理和实践方法。本书最后介绍私有大模型的构建,手把手指导读者做技术选型并搭建自己的私有大模型。
本书适合人工智能领域有大模型开发需求或对大模型技术感兴趣的技术人员阅读,也适合普通用户扩展了解大模型的前沿应用。
作者简介
文亮
硕士毕业于电子科技大学,奇虎360智脑团队资深算法专家,参与过千亿参数级别大模型的训练与优化,拥有超过8年的人工智能模型优化经验,目前主要负责大模型后训练、COT优化以及通用技能优化等工作,著有《推荐系统技术原理与实践》一书。
江维
电子科技大学教授、博士生导师,主要研究可信人工智能、安全关键嵌入式系统、移动智能、大数据加速等领域,发表相关高水平论文100余篇。
图书目录
第 1章 大模型简介 1
11 大模型初探 1
111 OpenAI大模型ChatGPT 1
112 国内大模型—360智脑 8
12 大模型的概念 9
13 百花齐放—大模型发展现状 9
14 压缩即智能—为什么ChatGPT拥有智能 11
141 直观理解通用人工智能 12
142 如何实现无损压缩 13
143 GPT是对数据的无损压缩 16
15 小结 19
16 参考文献 19
第 2章 大模型理论基础 20
21 什么是语言模型 20
22 传统语言模型 21
221 循环神经网络(RNN) 21
222 长短期记忆(LSTM)网络 22
223 门控循环单元(GRU) 24
23 大模型基础结构—Transformer 25
231 Transformer的模型结构 25
232 Transformer输入表示 29
233 多头注意力 30
234 编码器结构 36
235 解码器结构 40
236 Softmax输出 44
24 Transformer应用实践—机器 翻译 46
241 葡萄牙文翻译为英文 46
242 英文翻译为中文 51
25 小结 52
26 参考文献 53
第3章 OpenAI GPT系列大模型 54
31 GPT发展历史— 从GPT-1到GPT-4 54
32 GPT-1技术原理 55
321 GPT-1的模型结构 56
322 GPT-1应用实践—中文文本 分类 58
33 GPT-2技术原理 63
331 GPT-2的模型结构 64
332 GPT-2应用实践—文本分类和 文本生成 66
34 GPT-3技术原理 69
341 GPT-3的模型结构 70
342 GPT-3多项任务评估 71
35 横空出世—ChatGPT 74
351 真正的通用人工智能— ChatGPT 74
352 有监督微调 75
353 训练奖励模型 77
354 使用强化学习微调预训练 模型 78
355 ChatGPT应用 79
36 GPT-4 80
361 GPT-4的涌现能力 80
362 大模型预测扩展 81
363 GPT-4性能分析 82
364 GPT-4应用 84
37 小结 84
38 参考文献 84
第4章 清华大学通用预训练 模型—GLM 86
41 GLM简介 87
42 GLM技术原理 89
421 预训练目标 91
422 GLM的模型结构 92
423 微调GLM 93
424 效果评估 94
43 ChatGLM-6B全参数微调实践 94
431 环境搭建 95
432 全参数微调 96
433 效果评估 101
44 GLM-10B全参数微调实践 101
441 代码结构 102
442 全参数微调 103
443 效果评估 108
45 小结 109
46 参考文献 109
第5章 Meta开源大模型 —Llama 110
51 Llama简介 110
52 Llama技术原理 111
521 Llama预训练数据 111
522 Llama的模型结构 113
523 Llama优化器 114
53 Llama改进版—Llama 2 114
531 Llama 2简介 115
532 Llama 2预训练 116
533 Llama 2有监督微调 118
534 基于人类反馈的强化学习 119
54 Llama 2应用实践 121
541 Hugging Face玩转Llama 2 122
542 微调Llama 2 122
55 小结 124
56 参考文献 124
第6章 大模型参数高效 微调 125
61 LoRA—低秩矩阵分解 125
611 LoRA基本原理 125
612 LoRA低秩矩阵初始化 127
613 LoRA开源实现 127
62 谷歌参数高效微调— Adapter Tuning 128
63 斯坦福轻量级微调— Prefix-Tuning 129
64 谷歌微调方法— Prompt Tuning 130
65 清华大学参数微调— P-Tuning 131
66 P-Tuning改进版— P-Tuning v2 132
67 大模型参数高效微调实践 134
671 安装ChatGLM2-6B环境依赖 134
672 安装P-Tuning v2环境依赖 135
68 小结 136
69 参考文献 137
第7章 大模型指令微调 138
71 指令微调 138
72 指令微调和提示的异同 139
73 大模型思维链—优化模型 推理能力 139
731 思维链的开山之作— 思维链提示 140
732 零样本提示思维链 142
733 多数投票—自洽性 144
734 最少到最多提示过程 144
735 大模型微调 146
736 微调思维链 148
737 思维链的局限 149
74 谷歌指令微调数据集—Flan 2022 150
75 小结 152
76 参考文献 152
第8章 大模型训练优化 153
81 稀疏Transformer 153
811 稀疏Transformer提出背景 154
812 稀疏Transformer实现原理 155
82 旋转位置编码 159
821 传统位置编码—绝对位置 编码 160
822 二维旋转位置编码 160
823 多维旋转位置编码 161
824 旋转位置编码的高效计算 161
825 旋转位置编码的远程衰减 162
826 Llama和ChatGLM中的旋转位置编码实现 164
827 旋转位置编码的外推性 167
83 大模型混合精度训练 168
831 浮点数据类型 168
832 使用FP16训练神经网络的 问题 169
833 混合精度训练相关技术 170
84 样本拼接 173
85 大模型并行训练 175
86 小结 175
87 参考文献 176
第9章 大模型推理优化 177
91 大模型量化 177
911 量化的优势 178
912 对称量化和非对称量化 178
92 大模型文本生成的解码策略 180
921 束搜索 182
922 top-k采样 183
923 top-p采样 184
924 温度采样 186
925 联合采样 187
93 小结 188
第 10章 AIGC和大模型 结合 189
101 AIGC引来新一轮投资热 189
102 生成对抗网络 191
1021 生成对抗网络的模型结构 191
1022 生成对抗网络的训练过程 193
1023 生成对抗网络实战—生成 手写体数字图像 194
103 AIGC主流模型—去噪扩散 概率模型 198
1031 去噪扩散概率模型的原理 198
1032 去噪扩散概率模型的训练 过程 200
1033 去噪扩散概率模型实战—生成 手写体数字图像 201
104 引入文字的去噪扩散概率模型 214
1041 去噪扩散概率模型的文字生成 图像过程 215
1042 利用CLIP模型生成文本 向量 216
1043 在U-Net模型中使用文本 向量 217
1044 引入文字的去噪扩散概率模型的 训练过程 218
105 去噪扩散概率模型改进版— Stable Diffusion 220
1051 Stable Diffusion的文字生成图像过程 221
1052 Stable Diffusion前向扩散过程优化 221
1053 Stable Diffusion反向去噪过程优化 222
1054 Stable Diffusion的完整流程 224
1055 Stable Diffusion应用场景 224
106 小结 226
107 参考文献 226
第 11章 大模型和推荐系统结合 228
111 大模型和推荐系统的异同 228
112 大模型和推荐系统的3种不同结合方法 229
1121 基于大模型构建特征 229
1122 基于大模型建模行为序列 230
1123 基于行为序列微调大模型 231
113 大模型和推荐系统的结合效果 232
1131 两阶段模式 232
1132 端到端模式 233
1133 预训练 两阶段/端到端模式 233
1134 预训练 两阶段/端到端 ID特征模式 234
114 小结 235
115 参考文献 235
第 12章 构建私有大模型 236
121 大模型百花齐放 236
122 选择基座模型 238
123 环境安装 238
124 模型加载 239
1241 代码调用 239
1242 网页版示例 240
1243 命令行示例 241
125 低成本部署 242
1251 模型量化 242
1252 CPU部署 242
1253 Mac部署 242
1254 多卡部署 242
126 构建自己的私有大模型 243
1261 数据准备 244
1262 有监督微调 244
1263 部署私有大模型 248
1264 灾难性遗忘问题 249
1265 程序思维提示—解决复杂数值推理 252
127 小结 258
128 参考文献 258
《揭秘大模型:从原理到实战》全书速览
结束语
通过上文的讨论和介绍,尤其是关于《揭秘大模型:从原理到实战》一书通过展示大模型在文本生成、问答系统、创意图像生成等多个领域的应用,带大家领略大模型的无限魅力与广阔前景,特别是在大模型、自然语言处理等前沿技术领域深耕的专业技术人员,可以通过书中的内容深入了解大模型的技术架构与原理,在专业实践中借鉴与创新。对于已经掌握一定机器学习基础,并希望进一步探索大模型领域的互联网从业者来说,结合丰富的技术实践与案例,构建全面而实用的大模型知识体系。另外,对于高校计算机相关专业的学生而言,从基础出发,系统介绍大模型的相关知识,从零开始构建大模型知识体系。最后,希望大家都能在大模型领域取得自我成就!
更多推荐
所有评论(0)