开源大模型详解

CSDN博客专家🏆，华为云享专家🏆，Linux、C/C++、云计算、物联网、面试、刷题、算法尽管咨询我，关注我，有问题私聊！

Linux猿

3638人浏览 · 2023-08-04 08:00:00

Linux猿 · 2023-08-04 08:00:00 发布

🎈 作者：Linux猿

🎈 简介：CSDN博客专家🏆，华为云享专家🏆，Linux、C/C++、云计算、物联网、面试、刷题、算法尽管咨询我，关注我，有问题私聊！

🎈 欢迎小伙伴们点赞👍、收藏⭐、留言💬

本篇文章主要对开源大模型进行总结和介绍。

一、什么是大模型？

大模型指网络规模巨大的深度学习模型，具体表现为模型的参数量规模较大，其规模通常在千亿级别。

二、LLaMa 2

LLaMa 2 是 Meta 发布的开源大模型，是开源可商用的版本，有不错的使用效果。

LLaMa 2 有参数量有三种类型：7B、13B、70B。

2.1 论文和代码

github 地址：GitHub - facebookresearch/llama: Inference code for LLaMA models

论文地址：https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

三、BLOOM

BLOOM是 BigScience Large Open-science Open-access Mul-tilingual Language Model首字母的缩写。

BigScience发布 BLOOM，旨在为学术界、非营利组织和小型公司的研究实验室能够更好的研究和使用LLM。并且，BLOOM 本身也是由大量的是AI研究人员参与的单个研究项目，同时也是迄今为止最大规模的合作结果。

3.1 特点

（1）它是一种基于 Transformer 的大型语言模型；

（2）基于 ROOTS 语料库进行训练，ROOTS 语料库包含有 46 种自然语言和13 种编程语言；

（3）由BigScience社区开发和发布；

（4）可以商用，但必须标明使用了 BLOOM，并附上一个许可说明；

（5）最新版本参数规模 176B；

3.2 论文和代码

模型地址：bigscience (BigScience Workshop)

论文地址：https://arxiv.org/pdf/2211.05100v4.pdf

四、Alpaca

Alpaca 7B 是斯坦福大学在 LLaMA 7B 模型上经过 52K 个指令跟踪示范进行微调的模型，其性能比肩 GPT-3.5（text-davinci-003），但是整个训练成本不到 600 美元。

4.1 局限性

Alpaca 仅用于学术研究，禁止任何商业用途。原因有三：

1、Alpaca 基于 LLaMA，它有非商业许可证，因此 Alpaca 也必须继承这一点；

2、指令数据基于 OpenAI 的 text-davinci-003，其使用条款禁止开发与 OpenAI 竞争的模型；

3、没有设计足够的安全措施，因此羊驼还未准备好作为一般用途。

4.2 论文和代码

论文地址：Stanford CRFM

github 地址：GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.

五、T5

T5 （Transfer Text-to-Text Transformer 的简写）是 google 发布的一款开源大模型，

5.1 论文和代码

论文地址：https://www.jmlr.org/papers/volume21/20-074/20-074.pdf

github地址：GitHub - google-research/text-to-text-transfer-transformer: Code for the paper "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"

六、Qwen

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-7B的基础上，我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。本仓库为Qwen-7B-Chat的仓库。

论文地址：

github地址：https://github.com/QwenLM/Qwen-7B

在线访问：Qwen-7B-Chat-Demo

参考链接：

Meta发布升级大模型LLaMA 2：开源可商用 - 知乎

https://en.wikipedia.org/wiki/BLOOM_(language_model)

LLMs模型速览下（BLOOM、 FLAN、LLaMA、Alpaca） - 知乎

开源大模型斯坦福Alpaca（小羊驼）——指令调优的LLaMA模型——100美元媲美GPT3.5 - 知乎

T5 模型：NLP Text-to-Text 预训练模型超大规模探索 - 知乎

【长文详解】T5: Text-to-Text Transfer Transformer 阅读笔记-腾讯云开发者社区-腾讯云

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

开源家族——中文羊驼LLaMA & Alpaca大语言模型 - 知乎

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S