
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
AutoMedEval:基于语言模型的医疗能力自动评估系统 为解决医疗大语言模型评估中传统指标不足、人工成本高等问题,研究者提出AutoMedEval开源评估模型。该系统通过构建高质量医疗指令数据集(经医生双重验证,保留9569条有效数据)和分层训练方法(课程指令微调+迭代知识内省),实现专业评估能力。实验表明,AutoMedEval在评估准确性和人类判断相关性上超越GPT-4等模型,如Accur

本文提出FACT-AUDIT框架,通过多智能体协作动态评估大语言模型(LLMs)的事实核查能力。该框架采用原型模拟、事实验证与自适应更新三阶段流程,覆盖复杂声明、假新闻等场景,并引入IMR、JFR等指标。实验评估13个主流LLMs,结果显示GPT-4o和Qwen2-72B表现最优,但LLMs在复杂声明场景仍有明显不足。该框架突破了传统静态评估的局限,实现了对LLMs事实核查能力的全面审计。

如图,在训练集上,train_acc出现剧烈抖动,原因是训练的batch_size太小。我这里的batch_size为1,如果调高一些,acc曲线图震荡的情况将会得到改善。

输出当前的隐藏状态。通过一个全连接层和激活函数将隐藏状态转换为情感标签(积极)。具有循环连接,使得网络能够在处理当前输入时考虑先前的输入,从而捕捉序列中的时序信息。最终隐藏状态包含整个句子的综合信息,通过全连接层和激活函数判断情感。逐步读取每个单词向量,通过一个激活函数计算新的隐藏状态。词向量表示:每个单词通过词嵌入转换为向量表示,作为。词向量表示:每个单词通过词嵌入转换为向量表示,作为。输入门:

其原因是:带momentum的方法训练,可看作在参数值和momentum组成的二元组上,每步乘一个矩阵,然后加一个噪音。不发散,要求这个矩阵的特征值范数小于1.但是,可能有复特征值和复特征向量。所以,虽然系数在衰减,但复的部分可能被变换到实的部分来,就出现初期loss上升的情况,直到模最大的系数被衰减到1以下。综上,初期loss上升,不一定发散,是正常的。在不带momentum的情况下,一般不应该

EvoPatient框架,通过多智能体协同进化模拟标准化病人(SPs),解决传统SP训练成本高、身心健康风险等问题。该框架包含病人与医生智能体,基于检索增强生成和动态记忆机制实现多阶段诊断模拟,并引入注意力库与轨迹库实现无监督协同进化。实验表明,EvoPatient在200个病例训练后,需求对齐度提升超10%,响应时间仅6.69秒,且具备优异泛化性(跨疾病指标提升3.8%-18.1%),代码已开源

EvoPatient框架,通过多智能体协同进化模拟标准化病人(SPs),解决传统SP训练成本高、身心健康风险等问题。该框架包含病人与医生智能体,基于检索增强生成和动态记忆机制实现多阶段诊断模拟,并引入注意力库与轨迹库实现无监督协同进化。实验表明,EvoPatient在200个病例训练后,需求对齐度提升超10%,响应时间仅6.69秒,且具备优异泛化性(跨疾病指标提升3.8%-18.1%),代码已开源

本文提出FACT-AUDIT框架,通过多智能体协作动态评估大语言模型(LLMs)的事实核查能力。该框架采用原型模拟、事实验证与自适应更新三阶段流程,覆盖复杂声明、假新闻等场景,并引入IMR、JFR等指标。实验评估13个主流LLMs,结果显示GPT-4o和Qwen2-72B表现最优,但LLMs在复杂声明场景仍有明显不足。该框架突破了传统静态评估的局限,实现了对LLMs事实核查能力的全面审计。

如图,在训练集上,train_acc出现剧烈抖动,原因是训练的batch_size太小。我这里的batch_size为1,如果调高一些,acc曲线图震荡的情况将会得到改善。

使用ChatGLM-6B进行P-Tuning微调







