Yuleave 个人主页

@Yuleave

Yuleave

2023-10-29 10:06:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

HUMANITY’S LAST EXAM (HLE) 综述：人工智能领域的“最终考试”

除了公共集之外，还保留了一个私有保留集，以评估模型在公共基准测试上的过度拟合和作弊行为。随着大型语言模型（LLMs）能力的飞速发展，其在数学、编程、生物等领域的任务表现已超越人类。为了系统地衡量这些能力，LLMs 需要接受基准测试（Benchmarks）的评估。HLE为 AI 领域提供了一个全新的、极具挑战性的评估平台，将有助于推动 AI 技术的持续进步，并为 AI 治理提供重要的参考依据。图 5

#人工智能 #自然语言处理 #学习

高效流式大语言模型（StreamingLLM）——基于“注意力汇聚点”的突破性研究

Transformer架构的LLMs在解码阶段会缓存所有先前token的键值对（KV），导致内存消耗随序列长度呈二次增长，显著增加了解码延迟。StreamingLLM利用注意力汇聚点具有高注意力值的特点，通过保留它们，可以将注意力分数分布保持在接近正常的水平。图7：有无Sink Token的模型在平均注意力logits上的可视化。，一种高效的框架，使LLMs能够处理无限长度的文本，而无需任何微调。

#语言模型 #人工智能 #自然语言处理

高效流式大语言模型（StreamingLLM）——基于“注意力汇聚点”的突破性研究

#语言模型 #人工智能 #自然语言处理

Kimi k1.5：基于大语言模型的多模态强化学习训练技术报告

近年来，基于下一个词预测的语言模型预训练在扩展计算能力方面取得了显著成效，但其发展受限于高质量训练数据的数量。为了突破这一瓶颈，Kimi团队提出了。未来，Kimi 团队将继续探索提高长上下文 RL 训练效率和可扩展性的方法，并研究在不损害模型探索能力的情况下改进信用分配和减少过度思考的方法。，旨在通过奖励机制引导模型探索学习，从而实现训练数据的持续扩展。

#语言模型 #人工智能 #深度学习

HUMANITY’S LAST EXAM (HLE) 综述：人工智能领域的“最终考试”

#人工智能 #自然语言处理 #学习

ToolHop: 多跳工具使用评估基准的全面解析

ToolHop 通过创新的查询驱动数据构建方法，为评估 LLMs 的多跳工具使用能力提供了一个全面且可靠的基准。它不仅揭示了当前模型在工具使用方面的不足，还为未来的研究和发展指明了方向。

#人工智能 #自然语言处理 #学习

SELF-RAG: 通过自我反思学习检索、生成和批判

SELF-RAG 是一种创新的框架，通过按需检索和自我反思来提高 LLM 的生成质量和事实准确性。实验结果表明，SELF-RAG 在多个任务上均优于现有的 LLM 和 RAG 方法。SELF-RAG 的核心思想是让 LLM 在生成过程中进行自我反思，并通过生成特殊的**反思标记（Reflection Tokens）**来控制其行为。SELF-RAG 在推理过程中通过生成反思标记来自我评估其输出，从

#学习

HUMANITY’S LAST EXAM (HLE) 综述：人工智能领域的“最终考试”

#人工智能 #自然语言处理 #学习

HUMANITY’S LAST EXAM (HLE) 综述：人工智能领域的“最终考试”

#人工智能 #自然语言处理 #学习

到底了