大模型发展史
大模型发展历史
·
1.1 按照时间排列出里程碑的模型
- 2018 年,由华盛顿大学提出 ELMo 模型,首次提出上下文相关的动态词嵌入,通过双向 LSTM 模型进行训练。ELMo - large 版本有 94M 参数
- 2018 年,Google 发布 BERT 模型,基于 Transformer 架构,通过掩码语言模型(MLM)和下一句预测(NSP)预训练任务。BERT - base 有 110M 参数,BERT - large 有 340M 参数
- 2020 年,OpenAI 研发出 GPT-3,能根据少量的示例甚至没有示例完成任务。拥有 1750 亿参数
- 2022 年,OpenAI 研发出 ChatGPT ,以对话交互为核心应用形式,能够生成高质量、连贯且符合人类语言习惯的回答,引发了全球范围内的广泛关注和讨论,推动了生成式 AI 在实际应用中的普及。没有公开 ChatGPT 具体的参数量, 可以参考 GPT-3.5 模型的参数量情况(1750 亿)。
- 2023 年,OpenAI 研发 GPT-4,提升了 GPT 的性能,具体参数未公布。
1.2 国内外出名的模型
① 国内出名模型
- 2021 年,华为推出盘古大模型,盘古 NLP 大模型是基于 Encoder - Decoder 架构,具备强大的语言理解和生成能力。盘古 NLP 大模型参数达到 2000 亿,盘古 CV 大模型参数为 30 亿,盘古多模态大模型参数为 100 亿。
- 2023 年,字节跳动推出豆包模型,基于 Transformer 架构的 Decoder - only 结构,参数未公布。
- 2023 年,阿里巴巴推出通义千问,基于 Transformer 架构进行研发,采用 Encoder - Decoder 结构,参数未公布,上下文窗口大小为 128000 tokens(qwen3)。
- 2023 年,百度 推出文心一言模型,是 ERNIE 3.5 的升级版本,基于 Transformer 架构,进一步优化了 Encoder - Decoder 结构,增强了语义理解和文本生成能力,参数未公布,但应该至少为 2600 亿
- 2023 年,幻方量化推出 DeepSeek 模型,基于 Transformer 架构,采用 Decoder - only 结构,专注于打造高性能的语言模型,在代码生成、自然语言理解与生成等任务上进行了深度优化。有很多版本,满血版DeepSeek R1 (上下文窗口大小为 131072 tokens)2025 年 1 月 20 号发布的,是 671B(670 亿参数),404G 内存大小。
- 2023 年,科大讯飞发布的星火大模型,基于 Transformer 架构研发,通过持续优化网络结构、改进训练算法,以及对海量数据的高效处理,不断提升模型性能。参数未公平。
② 国外出名模型
- OpenAI 公司的 ChatGPT
- Google 的 Gemini 多模态大模型
- Meta(元宇宙,原 Facebook)的 LLaMA
1.3 按照底层原理划分模型
- BERT 是谷歌的,底层是纯编码器,是 AE 模型(自编码),主理解
- T5 是谷歌的,底层是编码-解码器
- GPT,是 openAI 公司的,底层是纯解码器, 是 AR 模型(自回归),主生成。
● GPT3 是里程碑的产品,后面孵化出了 ChatGPT
● GPT3 的参数是 175B
更多推荐
所有评论(0)