logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

越大越好?Chinchilla说:你可能练错了

2020年,OpenAI发布了一篇轰动业界的论文——Scaling Laws。它的核心结论简单粗暴:想要更强的模型,就堆更多的参数。一时间,全行业都在疯狂造大模型,千亿参数成了标配,万亿参数也不是梦。这就是今天要聊的这篇论文——,全名《Training Compute-Optimal Large Language Models》。它用一个精妙的实验设计,给整个行业上了一课。

文章图片
大力出奇迹的背后:OpenAI找到了炼丹的物理定律

幂律说的是这么回事:当你把某个变量乘以 k 倍,结果会以 k 的某个固定次方的比例变化。用公式写就是 L ∝ x^{-α}。翻译成人话:你每把参数量翻10倍,loss 就会下降一个可预测的固定比例。不是一个大概的趋势,而是一条在对数坐标上近乎完美的直线。这意味着什么?意味着你可以提前预测一个更大的模型会有多好。在它还没训练完之前,你就知道结果。这对于一个动辄花几百万美元训练模型的公司来说,价值不言

文章图片
#人工智能
大力出奇迹的背后:OpenAI找到了炼丹的物理定律

幂律说的是这么回事:当你把某个变量乘以 k 倍,结果会以 k 的某个固定次方的比例变化。用公式写就是 L ∝ x^{-α}。翻译成人话:你每把参数量翻10倍,loss 就会下降一个可预测的固定比例。不是一个大概的趋势,而是一条在对数坐标上近乎完美的直线。这意味着什么?意味着你可以提前预测一个更大的模型会有多好。在它还没训练完之前,你就知道结果。这对于一个动辄花几百万美元训练模型的公司来说,价值不言

文章图片
#人工智能
OpenAI做了一次豪赌:不给任何指令,让模型自己学会所有任务

2019年2月,OpenAI发表了一篇论文。论文本身并不长,但它做了一件之前没有人敢认真尝试的事。他们训练了一个15亿参数的语言模型,给它一个输入,不给任何额外的训练样本,不需要更新任何模型参数,只依靠输入的文本提示,它居然就能做翻译、做摘要、做问答。这在当时叫zero-shot learning。模型从没见过这些任务的训练数据,但它就是会做。OpenAI自己也吓了一跳。他们认为这个模型太强大了,

文章图片
#深度学习#机器学习#人工智能
GPT-1:第一次证明「先预训练,再微调」这条路走得通

2018年6月,OpenAI发表了一篇论文,标题是"Improving Language Understanding by Generative Pre-Training"。这篇论文在当时的关注度远不如BERT——后者在几个月后横空出世,11项NLP基准测试同时刷新,抢走了所有风头。但回头看,GPT-1才是那条后来被证明更有潜力的路线的起点。它第一次清晰地展示了:用生成式预训练(预测下一个词)获得

文章图片
BERT的思路到底有多简单?简单到让人怀疑:这也行?

2018年10月,Google扔了一颗炸弹。BERT在11项NLP基准测试上同时刷新纪录。这在当时是不可想象的——之前每个任务都有专门的模型,从来没有人用一个模型通杀所有任务。整个学术界和工业界都震惊了。但当你真正理解BERT做了什么之后,你会发现它的核心idea简单到让人怀疑人生。简单来说就是:把一句话里随机15%的词遮住,让模型根据上下文猜被遮住的是什么。没了。就这?就这居然能刷新11项纪录?

文章图片
#bert#人工智能#深度学习
不夸张地说,这篇论文,改变了整个AI的历史走向

两个向量的点积,衡量的是它们的"方向一致性"。方向越一致,点积越大。所以Query和Key越相似(方向越接近),注意力分数就越高。但这里有一个问题:如果向量维度很大,点积的值也会很大。值一大,softmax就趋向于"赢者通吃"——最大的那个分数接近1,其他全部接近0。这不是我们想要的。所以论文里除了一个根号d_k(Key的维度),相当于把分数拉回来。这个细节虽小,但很关键。没有这个缩放,注意力分布

文章图片
#transformer#gpt-3#深度学习
从Transformer到GPT-3:这五篇论文串起来,就是大模型的前传

如果你问一个AI从业者:今天的大模型时代是怎么来的?答案通常会指向一个起点:2017年的Transformer。但从Transformer到ChatGPT,中间还有几步关键的跳跃。今天这篇文章,我们把阶段一的五篇论文串起来看,讲清楚每一步为什么重要,以及它们之间怎么互相呼应。

文章图片
从Transformer到GPT-3:这五篇论文串起来,就是大模型的前传

如果你问一个AI从业者:今天的大模型时代是怎么来的?答案通常会指向一个起点:2017年的Transformer。但从Transformer到ChatGPT,中间还有几步关键的跳跃。今天这篇文章,我们把阶段一的五篇论文串起来看,讲清楚每一步为什么重要,以及它们之间怎么互相呼应。

文章图片
【Postgresql】数据库postgresql 10的data目录迁移(不用重新安装)

安装后默认的目录:/var/lib/pgsql/{version}/data1,哪儿启动的数据库?数据库服务一般开机自动启动,那么就可以顺藤摸瓜找到相关的service。对于postgresql10,它的服务名为postgresql-10.service,该文件的路径为:/usr/lib/systemd/system/postgresql-10.service

#postgresql
到底了