
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我曾以为,我能将测试用例写得滴水不漏,就能端稳这碗饭。直到行业迭代的浪潮拍过来——那些我引以为傲的“熟练操作”,在自动化工具面前,竟成了最容易被替代的“无用功”。

研究团队提出了一个核心洞察:语言模型的策略实际上是由一系列“内部策略”组成的。你们是否想过在大模型强化学习的场景下,什么是策略(Policy)?实际上,这个和环境交互的大模型策略(Language Model Policy)每次都会产生一个新的token,这个采样的过程本质上是对一个词表上的概率分布进行采样,即,而这个概率分布正好来自于最后一层的隐状态(Hidden States)加解嵌入矩阵(U

工业标准文档因其复杂结构(长篇幅、嵌套条款、多条件规则)导致传统RAG方法效果不佳。研究提出Ontology-aware KG-RAG框架,通过三阶段处理:①构建文档本体树结构;②将条款拆解为原子命题三元组;③图谱精炼优化。该方法在ASTM/API标准测试中,表格题型F1值提升93.7%,有毒条款召回率达0.91,显著优于传统方案。关键技术包括表格条件映射、单位归一化和两阶段检索策略,验证了结构化

更惨的是,等你改完第一步,第二步的假设可能也不对了,又要改,改完第二步,第三步又崩了……
文章介绍两篇2025年最新RL×LLM技术综述,聚焦强化学习在大语言模型全生命周期的应用。从预训练、对齐到推理增强,特别是RLVR(可验证奖励强化学习)技术让模型在数学、代码等领域表现大幅提升,涌现出"自我反思"等能力。文章详细解析了算法演进、奖励设计、策略优化等关键技术,并提供了丰富的开源资源和训练框架,为开发者提供了全面的技术指导。

CATArena是突破性大模型智能体评估框架,跳过传统"跑分"模式,通过棋牌游戏多轮对抗实现AI自我进化。采用三维评估指标:策略编程能力、全局学习能力和泛化能力。实验显示Claude-4-Sonnet表现最佳,且写代码策略与直接推理是两种不同能力,尤其在策略性游戏中代码实现更有效。该框架为评估大模型智能体提供了新范式,强调持续学习适应能力而非一次性答题表现。

今天分享旗下的学术期刊Artificial Intelligence Review最新刊登的文章:《这是一本认识、应用AI Agent的实战指南,系统梳理了智能体的基础知识、构建工具、配置流程与场景实践,面向希望用AI技术提高工作生产力的读者。一方面,内容涵盖基础的技术理论及主流框架的实战方法,详解本地与云端部署、安全合规、持续升级与维护机制等。另一方面,精选多个行业实用案例,覆盖常见业务场景,帮

Agentic-KGR提出通过多智能体强化学习共同进化构建知识图谱,解决静态知识库覆盖缺失、时效滞后和建用分离三大痛点。创新点包括动态schema扩展、检索增强记忆和多尺度提示压缩。实验显示,该方法在图谱抽取任务中F1最高提升8.9%,在下游QA任务中性能显著提升,同时将推理成本降低49%,实现了知识图谱与大模型的共生进化循环。

文章介绍了大模型基座模型岗位的高薪情况,指出应届生薪酬普遍超100万,且比有经验者更受欢迎。这些岗位主要集中在美国和中国一线城市,要求应聘者能够阅读并复现顶会论文。文章强调了论文写作的重要性,尤其是将工作意义讲清楚的叙事能力,并提供了一系列免费论文写作课程和资源,帮助研究者提高论文发表能力。

RAG与智能体技术有交集但功能不同。RAG本质是通过检索获取外部数据输入大模型,只能单向交互;而智能体不仅能获取数据,还能通过工具与外部环境双向交互,自主选择调用工具,甚至影响外部环境。智能体比RAG更强大灵活,应用范围更广,被称为"Agentic RAG"。从成本角度看,RAG技术更简单,但智能体代表了更先进的发展方向。








