LoveSeven.Lin 个人主页

@m0_58432503

LoveSeven.Lin

2024-03-19 10:26:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

中文大模型评估基准：C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

不同的LLM在简单场景（如简单聊天）下的表现可能是差不多的，真正体现不同模型之间差距的应该是比较复杂的任务场景，因此需要构建一个复杂全面的评估基准C-Eval。

#人工智能

LLM之GLM/ChatGLM系列

与其他大模型如GPT-3，OPT-175B，BLOOM-176B模型相比，GLM-130B的一个显著优势就是在进行INT4量化后，模型的性能没有收到很大损害，究其原因在于GLM-130B模型的参数分布相对较窄，可以用更少的字节数表示出全部的权重分布，因此在进行INT4量化时能够在保持相对多的性能，并且通过实验观察到INT4和FP16版本之间的差距随着GLM模型尺寸的扩大而进一步缩小，更进一步表现G

#人工智能 #AIGC #论文阅读

中文大模型评估基准：C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

#人工智能

中文大模型评估基准：C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

#人工智能

中文大模型评估基准：C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

#人工智能

到底了