
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
【Datawhale】大模型基础与量化微调-t2
GPT-2 有 15 亿参数,比原 GPT 大了 10 多倍,在受测的 8 个语言模型数据集上拿了 7 个 SOTA,采用 **零尝试迁移配置(zero-shot transfer setting)**不需要任何任务微调。175B的参数将GPT3展示出强大的上下文学习能力(In-context Learning),即在推理阶段,不需要更新模型权重,仅凭输入提示中给出的少量示例,就能理解并完成任务。
到底了







