logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Prometheus 2: 一个专门评估其他语言模型的开源语言模型(续集)

与现有的开源评估语言模型不同,PROMETHEUS 2 模型能够有效地处理直接评估和成对排序(最普遍的两种评估方案),在这两种方案上都表现出优越的性能和一致的结果,显著缩小了与专有语言模型评估的差距。为了缩小与专有语言模型的差距,本文的作者们研究了统一两种基于模型的评估范式 - 直接评估和成对排序,以训练一个稳健的统一评估语言模型。通过合并在不同评估格式上训练的模型,即直接评估和成对排序,作者们旨

文章图片
#prometheus#语言模型#开源
Google: 在新知识上微调大语言模型是否会鼓励产生幻觉?

当大型语言模型通过监督式微调进行对齐时,它们可能会遇到在预训练期间没有获得的新事实信息。人们经常推测,这可能会教导模型产生事实上不正确的回应的行为,因为模型被训练成生成没有基于其预先存在的知识的事实。在这项工作中,Google研究了这种暴露在新知识下对微调后模型利用其预先存在知识的能力之影响。为此,他们设计了一个受控的设置,专注于闭书问答,改变引入新知识的微调样本的比例证明,大型语言模型在通过微调

文章图片
#语言模型#人工智能#机器学习
变色龙还是树懒:揭示大型语言模型在知识冲突中的行为

jianxie22@m.fudan.edu.cn, {zhang.13253, su.809}@osu.edu摘要通过向大型语言模型(LLMs)提供外部信息,工具增强(包括检索增强)已成为解决LLMs静态参数记忆局限性的一个有前景的解决方案。然而,当外部证据与其参数记忆冲突时,LLMs对这种外部证据的接受程度如何?我们对LLMs在知识冲突下的行为进行了第一次全面和受控的调查。我们提出了一个系统的框

文章图片
#语言模型#人工智能#自然语言处理
LoRA Land: 310个经微调的大语言模型可媲美GPT-4

全面评估了LoRA微调在提升语言模型性能方面的有效性。通过在大量任务和基础模型上的实验,证实了LoRA作为一种参数有效微调技术的优势。4位量化LoRA微调模型能够以较小的开销达到甚至超过GPT-4的性能,这一结果非常振奋人心。

文章图片
#语言模型#人工智能#自然语言处理 +1
OpenELM:苹果开源的高效语言模型及训练推理框架

未来,随着更多的研究者参与改进和分析,OpenELM有望在各类自然语言任务上树立新的标杆,为LLM的发展注入新的活力。有别于此前只提供模型权重和推理代码,或在私有数据集上预训练的做法,苹果的开源内容包括了在公开数据集上进行训练和评估的完整框架,涵盖训练日志、多个检查点和预训练配置。与现有LLM在每层采用相同配置、均匀分配参数不同,OpenELM根据逐层缩放策略,让每层transformer的配置(

文章图片
#语言模型#人工智能#自然语言处理
用于视频大型多模态模型(Video-LMMs)的复杂视频推理和鲁棒性评估套件

这项工作全面评估了Video-LMMs在现实场景中应用所需的复杂推理和鲁棒性,揭示了现有模型的不足,为后续的算法改进和基准测试构建提供了重要参考。CVRR-ES有望推动Video-LMMs向更贴近人类理解和交互能力的方向发展。

文章图片
#音视频#语言模型
NVIDIA: RULER新测量方法让大模型现形

RULER基准的设计思路新颖,涵盖了检索、多跳跟踪、聚合、问答等不同类型的任务,能够全面考察LMs在长上下文理解方面的多种能力,弥补了之前工作的不足。合成任务虽然在真实性上有所欠缺,但能够灵活控制变量,有利于系统性的比较和分析。

文章图片
#人工智能#语言模型#压力测试 +2
FlashSpeech: 创新零样本语音合成系统

这篇由香港科技大学、微软、萨里大学等机构合作完成的论文,提出了一种名为FlashSpeech的创新零样本语音合成系统。该系统旨在解决当前大规模零样本语音合成方法生成速度慢、计算成本高的问题,实现高效、高品质的语音合成。

文章图片
#语言模型#深度优先#科技 +1
Meta最新研究: Flash Attention 为何是系统性能瓶颈?

随着机器学习趋向于更大和更复杂的模型,模型训练过程变得越来越计算和资源密集。生成式AI的出现进一步推动了模型开发的边界,大型语言模型(LLMs)通常在数百或数千个GPU上训练数月。以LLaMA2的70-B参数模型为例,需要1,720,320 GPU小时来训练。对于如此长的训练作业,训练不稳定已成为日益严重的问题。正如Google的PaLM模型等工作中所报告的那样,训练不稳定通常表现为在整个训练过程

文章图片
#人工智能#机器学习#深度学习 +1
《普罗米修斯》中的「工程师」是「异形」LLM创造者吗

其表现取决于提供的评分规则质量,以及我们用作评估者的模型之泛化能力。作为LM Buddy任务的Prometheus评估,会读取一个包含要评估提示的输入数据集,将那些提示传送给通过vLLM提供服务的LLM Judge,输出的是另一个版本的数据集,内容增加了Prometheus的意见和分数。值得注意的是,Prometheus是Llama-2-Chat-13B模型的微调版本,因此非常占用内存:它需要GP

文章图片
#人工智能
    共 24 条
  • 1
  • 2
  • 3
  • 请选择