logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

推理成本降98%,准确率升13%!微软提出TwT:Thinking without Tokens

如今的大模型(如GPT-4o)越来越聪明,但“聪明”的背后是巨大的计算成本。比如,解答一道数学题时,模型会一步步写出推理过程,虽然答案更准,但生成的文字量暴涨,导致算力消耗和响应时间激增。:TwT请多位“老师模型”(如GPT-4、Mistral等)各自写答案,再用。:挑出老师们观点差异最大的答案,避免“标准答案”单一化(用余弦相似度对比)。:探索更多任务类型,研究隐式推理机制,让LLM真正“无师自

Stanford、Meta和Google等发现LLM存在五大天花板,再扩算力已无用

近年来,LLMs如GPT系列、Llama等,以惊人的速度发展,参数规模从几亿跃升至万亿级别,性能在多类任务中显著提升。未来LLM的发展应转向“有限优化”,即在理解其理论边界的基础上,设计更可靠、透明、高效的模型系统。即使相关文档被检索到,LLM也存在“中间位置忽略”现象:模型更关注开头和结尾的文本,中间部分容易被忽略。训练数据中,长距离依赖的样本极少,导致模型对远距离位置的注意力权重接近初始化状态

#人工智能
哈希革新Transformer:这篇ICLR高分论文让一块GPU处理64K长度序列

机器之心报道机器之心编辑部Transformer 是近期 NLP 领域里最热门的模型之一,但因为算力消耗过大,对于个人研究者来说一直不太友好。近日一篇入选 ICLR 2020 的研究提出...

推测解码的三条Scaling laws,让接受率和吞吐量翻倍

传统的逐词生成方式(Auto-regressive Decoding)就像“一个字一个字写作文”,而推测解码技术则像“先草拟多个可能的后续句子,再快速验证”,从而大幅提速。但如何设计高效的草稿模型(Draft Model),一直是学术界和工业界的难题。LLM虽然能力强大,但生成文本时速度慢、计算成本高,尤其需要“长思考链”的任务(如复杂推理、长文本生成)更是雪上加霜。团队也提醒:盲目扩大草稿模型可

小模型大作为!微博的VibeThinker-1.5B超越DeepSeek R1等头部大模型

近年来,大型语言模型在推理任务上的突破,如OpenAI的o1模型和DeepSeek R1,似乎确立了一个“参数越大,能力越强”的行业共识。他们开发的VibeThinker-1.5B,仅用1.5亿参数和不到8000美元的训练成本,在多项高难度数学和编程基准测试中,竟超越了参数规模超过400倍的DeepSeek R1等顶级大模型。这一成果不仅挑战了传统的“缩放定律”,也为我们打开了一扇窗:通过精巧的算

#人工智能
直播预约 | Evaluation论文分享@ICML&ACL2025

此外,我们的方法还能生成更高质量的 CoT 推理,有助于进一步的 Judge 蒸馏,并无缝衔接地提升监督微调(SFT)的拒绝采样(rejection sampling)任务,我们称这种方法为 crowd rejection sampling,从而实现了更加高效的监督微调。此外,获取详细的评估轨迹的代价极高,缺乏扩展性。我们的基准包含587个精心策划的问题,来源于40篇最先进的研究论文,涵盖了从基本

#人工智能
2026年强化学习的算法创新建议(请收藏)

论文提出 MINEDOJO 框架,基于 Minecraft 构建含数千任务的开放环境与互联网级知识库,通过 Transformer 预训练的 MINECLIP 模型提供语言条件化奖励,结合 PPO 与自模仿学习实现强化学习 agent 的多任务学习与泛化。论文提出 FGNN-MADRL 方法,将图神经网络(GNN)与多智能体深度强化学习(MADRL)结合,融入联邦学习框架,通过构建车路图提取车辆特

#算法#人工智能#机器学习 +1
73%人类认同率!Video-Bench实现视频质量精准打分

如何准确评估这些模型的性能,确保它们生成的视频准确符合人类的审美和需求,成为了一个亟待解决的问题。Video-Bench的评估框架利用多模态大语言模型(Multimodal Large Language Model,MLLM)的强大能力,通过链式查询技术和少样本评分技术,实现了对视频生成质量的高效评估。现有基于大语言模型(Large Language Model,LLM)的基准虽能更好模拟人类评估

#音视频#人工智能
NeurIPS 2025 | 语义表征攻击:用“自然语言”攻破大模型防线,11/18个模型完全沦陷,成功率100%!

下表展示了在不同计算预算(15s, 30s, 60s)下,各攻击方法的攻击成功率(ASR)、提示词困惑度(PPL)以及在防御下的攻击成功率(ASR_D)。可以看到,SRA不仅在极短时间(15s)内就能达到极高的攻击成功率,而且生成的提示词困惑度最低(越低越自然),同时在防御机制下依然保持极高的攻击效果。从下图中可以看到,在SRA的框架下,攻击提示词(Prompts)和模型响应(Responses)

#人工智能
AI如何看懂足球?上海交大团队打造Multi-Agent系统,全面解析“美丽足球”!

足球被称为“最复杂的团队运动”,但现有的研究却像“只会看画面的球迷”——要么只能识别动作(比如铲球、射门),要么回答不了需要背景知识的问题(比如“某球员上赛季进了多少球”)。更尴尬的是,现有模型像“单科偏科生”:有的擅长识别球衣号码,有的能生成解说,但无法协同作战。这就像让11个前锋踢比赛,结果一团糟。:包含1.3万道“足球考题”,覆盖13类任务(比如识别球衣颜色、判断犯规视角),题目类型包括文字

#人工智能
    共 940 条
  • 1
  • 2
  • 3
  • 94
  • 请选择