logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大语言模型之ICL(上下文学习) - In-Context Learning Creates Task Vectors

在大语言模型(LLMs)中的上下文学习(In-Context Learning,ICL) 成为一种强大的新学习范式(learning paradigm),然而我们对它的底层机制仍不够明确清晰。尤其是将其映射到传统的机器学习框架 就很具挑战性,其中我们使用 训练集S 在特定的假设类别中去寻找一个最佳拟合 函数f(x)。

文章图片
#语言模型#学习#人工智能 +3
大模型之基准测试集(Benchmark)-给通义千问2.0做测评的10个权威测基准测评集

CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测,由MBZUAI、上海交通大学、微软亚洲研究院共同推出,包含67个主题,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科的综合性中国基准。是国内两大权威评测之一。

文章图片
#人工智能#机器学习#深度学习 +4
人工智能-机器学习-深度学习-分类与算法梳理

目前人工智能的概念层出不穷,容易搞混,理清脉络,有益新知识入脑。为便于梳理,本文只有提纲,且笔者准备仓促,敬请勘误,不甚感激。。

文章图片
#人工智能#机器学习#算法 +4
ChatGPT的底层逻辑

上一次,七年前,在阿尔法狗面前,人类曾经哭泣过;这一次,无人哭泣,却有万众狂欢。在两次 AI 高潮之间的 7 年里,我们经历了许多,失去了许多。人们渴望拥抱某些希望,某些确定性,即使那些确定性来自一些不确定性的智慧。‍‍‍‍就我自己而言,也遭遇了一些前所未有的艰难时刻。所谓艰难,并非指一些困难的抉择,也并非说没有选项。恰恰相反,依照最优决策原理,我很容易通过期望值计算,得出最佳选项,获得所谓最大化

文章图片
#语言模型#人工智能#自然语言处理 +2
深度学习经典模型之T5

目标函数:Span-corruption,span的平均长度为3,corruption的概率为15%更长的训练步数:采用C4数据集继续训练1M步(bs=2^11),总计约训练了1 万亿个token模型大小base版本:24层,隐层768维,12个注意力头,参数量为220Msmall版本:12层,隐层 512维,8个注意力头,参数量约为60MLarge版本:48层,隐层1024维,16个注意力头,参

文章图片
#深度学习#人工智能#产品经理 +1
深度学习经典模型之BERT(下)

在"深度学习经典模型之BERT(上)"我们描述了BERT基本信息、意义、与GPT和Transformer的区别、预训练、自监督等相关信息后,本章节将介绍BERT的输入、Encoder、微调及两个主流变种。

文章图片
#深度学习#bert#人工智能 +3
深度学习经典模型之BERT(上)

BERT(Bidirectional Encoder Representations from Transformers)是一个双向transformer编码器的言表示模型。。由Google公司的研发,BERT的出现使得我们能够在一个大的数据集上面训练好一个比较深的神经网络,简化了NLP任务的训练,又提升了它的性能,使得自然语言处理有了质的飞跃。

文章图片
#深度学习#bert#人工智能 +3
到底了