
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
AI研究正从"泛能力堆高"转向"系统瓶颈拆解"。5篇新论文聚焦关键问题:1)个性化奖励模型仅75.94%准确率,揭示通用与个性化对齐差异;2)Android Agent在线训练通过单状态多动作采样提升1.4倍效率;3)视频生成需解耦物体/相机运动与因果关系;4)病理WSI的MoE路由需显式约束防失衡;5)LLM难以稳定执行语法规则转导,低资源翻译需谨慎。这些
AI研究正从"泛能力堆高"转向"系统瓶颈拆解"。5篇新论文聚焦关键问题:1)个性化奖励模型仅75.94%准确率,揭示通用与个性化对齐差异;2)Android Agent在线训练通过单状态多动作采样提升1.4倍效率;3)视频生成需解耦物体/相机运动与因果关系;4)病理WSI的MoE路由需显式约束防失衡;5)LLM难以稳定执行语法规则转导,低资源翻译需谨慎。这些
摘要 本文系统梳理了大语言模型(LLM)、视觉语言模型(VLM)和多模态大模型(MLLM)的技术路线。首先明确了概念区别,指出当前主流是将视觉能力"外挂"到LLM上的MLLM架构。重点分析了Transformer成为基础架构的原因,以及如何将图像patch与文本token统一表示。文章将主流模型分为纯LLM、视觉编码器+LLM和多模态系统三类,并详细解读了参数规模、上下文长度、
摘要 本文系统梳理了大语言模型(LLM)、视觉语言模型(VLM)和多模态大模型(MLLM)的技术路线。首先明确了概念区别,指出当前主流是将视觉能力"外挂"到LLM上的MLLM架构。重点分析了Transformer成为基础架构的原因,以及如何将图像patch与文本token统一表示。文章将主流模型分为纯LLM、视觉编码器+LLM和多模态系统三类,并详细解读了参数规模、上下文长度、
AI研究正从"能否推理"转向"推理如何发生与落地"。最新论文揭示4个关键趋势:1)隐式推理模型的可解释性被质疑,部分推理痕迹可恢复但存在浪费;2)4B小模型通过训练策略优化实现高水平数学证明;3)难题学习采用任务重写方法,使模型逐步掌握;4)长期运行的Agent系统设计更关注可审计性、持久化与安全性。这些进展表明AI竞争焦点正从"答案质量"
AI研究正从能力展示转向可靠运行,近期6篇论文聚焦关键问题: 置信度评估:BAS框架将LLM置信度与决策风险挂钩,避免高置信错误(arXiv:2604.03216) 上下文优化:Reflective Context Learning将prompt迭代系统化为优化问题(arXiv:2604.03189) 引用验证:研究发现3-18%AI生成URL存在幻觉,提出urlhealth修复工具(arXiv:
如果你问我,Med-PaLM 最大的价值是什么。它让我们第一次比较系统地看到,医疗大模型的潜力和风险会同时放大。更强的知识组织能力更灵活的问答与总结能力更统一的基础模型底座更流畅的幻觉更难察觉的错误自信更复杂的责任边界所以真正成熟的 AI+医疗路线,注定不会是“把一个大模型直接丢进医院”。把大模型作为能力核心,再用检索、规则、审计、拒答和人工复核把它圈进可控系统里。从这个意义上说,Med-PaLM
本文探讨了医疗场景中RAG(检索增强生成)系统的关键挑战与优化方向。医疗RAG不同于通用问答系统,其核心在于构建可追溯、可审计的高风险知识访问系统。文章指出简单向量化检索的五大不足:知识结构割裂、版本冲突、个案适配差、证据质量参差和缺乏拒答机制。提出医疗RAG的优化框架:先进行知识库治理和结构化切分,采用分层检索策略,生成前做证据整理与冲突标记,输出需附带精准引用。特别强调需建立三层拒答机制(检索
今天盘点 6 篇值得关注的 AI 新论文,重点看 agent harness 外部化、LLM self-improvement 闭环、RAG 的 adaptive chunking、可信 AI 的 memory 瓶颈,以及研究型 AI 如何基于反馈持续迭代。
今天盘点 6 篇值得关注的 AI 新论文,重点看 agent harness 外部化、LLM self-improvement 闭环、RAG 的 adaptive chunking、可信 AI 的 memory 瓶颈,以及研究型 AI 如何基于反馈持续迭代。







