
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
传统的decoder-only语言模型适配检索的方法常导致语言生成能力的完全丧失,而RA-HMD的设计则在不破坏LM Head的前提下,让单一模型能够同时完成检索、分类与解释生成三类任务。为解决解码器模型无法兼顾检索与生成的问题,RA-HMD在LMM后接入可训练的MLP投影模块,生成可用于分类与检索的特征表示;RA-HMD融合了检索增强学习与对比微调机制,在保持语言生成能力的同时,显著提升了检测与
调整模型参数以符合人类价值观,但这种方法存在致命短板——它需要海量标注数据、消耗巨大算力,且会覆盖模型原有的知识("知识退化"),更无法适配闭源商业模型(如GPT-4)。三大阶段动态引导模型行为。(URIAL):在问题前添加3个安全回答示例+系统指令(如"你是一个无害助手"),即可让原始模型达到接近微调的安全水平。(CoSA):引入"安全配置器",动态生成文化适配的提示(如对欧美用户强调隐私,对亚
这一发现挑战了"LLMs具有类人推理能力"的主流认知,对依赖CoT的高风险领域(如医疗、法律)提出重要警示。论文开篇展示了一个典型矛盾案例:当询问Gemini模型"美国成立日是否在闰年"时,模型正确复述闰年规则("1776能被4整除且非世纪年→闰年"),却得出矛盾结论:"因此美国成立日在平年"。大型语言模型(LLMs)的思维链(Chain-of-Thought, CoT)推理能力被视为突破性进展,
LLM每次回答都要进行复杂的计算,尤其是需要多次调用模型的场景(比如连续推理、多轮对话),成本高得离谱。(Chain-of-Thought):模型需要反复自我验证才能给出答案。链接:https://arxiv.org/pdf/2505.01658。:抛弃传统Transformer,用状态空间模型实现线性复杂度。:混合Mamba+Transformer,兼顾效率和性能。(如AutoGPT):自动规划
其提出的自动化环境构建框架和两阶段训练策略,不仅显著提升了模型的工具调用能力,更证明了“小而精”的模型同样可以拥有强大的代理智能。:让模型在广泛的通用领域(多个工具域)进行训练,学习“何时调用工具”、“如何调用”以及“如何将工具结果整合进回复”的基础能力。:在特定的垂直领域(如零售、航空)进行精细化训练,使模型适应该领域的特定工具、任务和用户意图,生成更精准、更符合语境的回应。:以往的方法要么在真
针对真实的失败轨迹,系统从第一步开始,依次将每一步的智能体行为替换为由Oracle(理想的正确行为)提供的行为,并重新模拟后续所有步骤。这项工作不仅为多智能体系统的调试和优化提供了强大的工具,更重要的是,它为构建未来更鲁棒、更具韧性的高级人工智能系统,迈出了坚实的一步。:论文的基线实验表明,即便是当前最强的推理模型,在没有针对性训练的情况下,进行失败归因的准确率也普遍低于10%,缺乏实用价值。实证
例如一道对称性推理题,标准答案需要观察图形旋转规律,但若用文字描述,关键细节极易丢失(比如“黑色方块每次顺时针移动1格”可能被简化为“图形有移动”),导致纯文字模型根本无法解题。当前的多模态大模型(如GPT-4o、Gemini)看似能“看图说话”,但论文揭露了一个残酷真相:它们可能只是在玩“文字游戏”!更扎心的是实验数据:人类在这套新标准下的正确率是51.4%,而所有测试模型无一超过30%,甚至不
在数学推理(GSM8K)、代码生成(HumanEval)等任务中,OTT几乎无损,远超传统方法KIVI;像“捣乱分子”,它们的Keys在某些通道中数值极小,导致量化时误差被放大,最终影响模型输出质量。LLM 生成文本时,需要记住所有已生成内容的关键信息(类似“临时笔记”),这就是。异常令牌会拉大“最大值-最小值”,导致误差飙升,OTT通过排除它们缩小误差范围。生成内容过长时可能误差累积。:维护一个
它不仅需要海量标注数据,还特别“烧显卡”,训练一次动辄几十万小时,关键是教出来的AI换个App(比如从微信到淘宝)就懵了,完全不会举一反三。中,传统方法CogAgent-18B用了18B参数,结果跨平台表现还不如UI-R1的3B小模型,简直是“大力出不了奇迹”。简单来说,他们不给AI喂标注数据,而是定了一套“操作得分规则”——就像玩游戏,AI每做对一个动作就加分,错了扣分。(比如从手机操作迁移到电
然而,当前的多模态大语言模型(MLLMs)在此能力上面临严峻挑战——现有评测基准大多依赖文本主导推理或浅层视觉线索,无法真正检验图文深度融合的推理能力。:EMMA如同多模态推理的“X光机”,既暴露当前模型的“骨骼脆弱”,也为锻造更强AI指明淬火方向。四大领域精选2788道题目,其中64%为新构建题目,直击“图文必须协同推理”的核心任务,首次系统化评估MLLMs的跨模态推理短板。:过滤后保留的题目(







