logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Datawhale】大模型基础与量化微调-t2

GPT-2 有 15 亿参数,比原 GPT 大了 10 多倍,在受测的 8 个语言模型数据集上拿了 7 个 SOTA,采用 **零尝试迁移配置(zero-shot transfer setting)**不需要任何任务微调。175B的参数将GPT3展示出强大的上下文学习能力(In-context Learning),即在推理阶段,不需要更新模型权重,仅凭输入提示中给出的少量示例,就能理解并完成任务。

#人工智能
到底了