GPT-3:1750 亿参数语言模型的配套仓库

GPT-3 是 OpenAI 发布的大语言模型,拥有 1750 亿参数,论文标题为"Language Models are Few-Shot Learners"。这个仓库是论文的开源配套,包含样本数据、训练集统计和模型卡片。

正文顶部截图

模型背景

GPT-3 的参数量是前代 GPT-2 的 100 多倍,是当时规模最大的非稀疏语言模型。论文验证了一个方向:扩大模型规模可以让模型在不做微调的情况下,仅通过自然语言描述的任务示例,在多项 NLP 基准上取得表现。

测试采用 few-shot 设定,不涉及任何梯度更新。覆盖范围包括翻译、问答、填空、单词解谜、三位数算术等任务。

仓库内容

仓库不包含模型权重,提供的是论文配套的辅助材料:

  • 175b_samples.jsonl:GPT-3 生成的 2048 token 无条件样本(p=0.85, t=1)
  • data/:论文中单词解谜和算术任务的合成数据集
  • dataset_statistics/:训练数据集各语言的统计信息
  • overlap_frequency.md:训练数据与评测基准的 13-gram 重叠频率采样
  • model-card.md:GPT-3 模型卡片

README区域截图

论文中的几个要点

GPT-3 在部分数据集上表现不佳,论文也坦承了这一点,特别是大规模网络语料带来的训练数据泄露问题。仓库中的 overlap_frequency.md 文件展示了训练集和评测基准之间的 n-gram 重叠情况,为这类问题提供了具体数据。

GPT-3 生成的新闻文章在盲测中已经让人类评估者难以与真人作品区分。论文对此讨论了潜在的社会影响。

仓库的价值

这个仓库本身不提供模型调用能力,模型需要通过 OpenAI API 使用。仓库的意义在于配套材料:样本数据让人直观感受模型输出的水平,统计文件和重叠分析则为大模型评估方法论提供了参考素材。对于关注大模型训练和评估的研究者,这些数据值得翻阅。

供了参考素材。对于关注大模型训练和评估的研究者,这些数据值得翻阅。

更多推荐