
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
结论1: 自动化Agent系统设计可能代表着智能体开发的新范式。手动设计智能体系统所面临的效率低下和创新局限性。利用LLM的强大编程能力在代码空间中进行搜索,可能能够自动发明新颖、高效的智能体构建块和组合方式,可以加速了智能体系统的发展。元智能体搜索算法能够持续发现超越 SOTA 手动设计的智能体。本文提出的 Meta Agent Search 算法在多个领域(包括逻辑推理、阅读理解、数学、多任务
总结1: SwiRL + Tool use > Base Model + Tool use >> Base Model。引入工具后还是效果提升非常大,说明Base Model已经具备不错的Tool调用的能力了。SwiRL可以改进Tool 调用的能力。总结2: 不需要其他标注资源,利用现有的Model就可以合成数据进行RL训练提升Model的Tool Use能力。
结论1: LLM在数学推理能力提升并非总能迁移到其他领域。通过对20多个开源模型和受控实验进行评估,发现许多在数学基准测试上表现强劲的模型,在其他推理和非推理任务上往往无法有效迁移其增益,甚至出现灾难性遗忘。这推翻了“数学能力提升即通用能力提升”的直观假设,强调了模型在专业化训练后泛化能力面临的挑战。结论2: 强化学习(RL)相比监督微调(SFT)在保持LLM通用能力方面具有显著优势。结论4: 在
框架通过“两步走”策略生成高质量学术综述。第一步,通过学习人类撰写的综述范例和检索相关论文,用LLM生成一个结构化、有逻辑的启发式大纲。第二步,针对大纲的每个小节,利用一个带有记忆和时序感知重排功能的智能体(SANA)来检索高质量的核心文献,然后驱动LLM并行生成各部分内容,最后汇总精炼成文。同时,为了客观评估,文章还提出了一个包含100篇人类综述的基准。结论1: SURVEYFORGE开创性地利
摘要: Nof1研究团队开展了一项突破性实验,测试6个顶尖大型语言模型(包括GPT-5、Gemini 2.5等)在真实量化交易场景中的表现。研究通过"Alpha Arena"平台为每个模型分配1万美元真实资金,在加密货币衍生品市场进行完全自主交易。实验采用独特的"Harness"系统,每2-3分钟向模型提供实时市场数据和账户状态,要求输出结构化交易决策。研究

1.n-gram自己理解:n代表窗口长度,n-gram的思想就是先滑窗,然后统计频次,然后计算条件概率,你可以取前面n个的条件概率,不一定要取全部的,最后得到的是整个句子的一个概率,那这个概率可以代表句子的合理性。详情见:https://zhuanlan.zhihu.com/p/32829048如何利用n-gram作为额外的特征呢?例如:我 爱 北京 天安门这样词就有各种组...
1 综述Semantic Segmentation using Fully Convolutional Networks over the yearsJun 1, 2017https://meetshah1995.github.io/semantic-segmentation/deep-learning/pytorch/visdom/2017/06/01/semantic-segmen...
Title【24点游戏】是什么?"Game of 24"是一种数学益智游戏,旨在通过组合和计算四个给定的数字(通常是1到9之间的整数)来得到结果为24的表达式。【Mini Crosswords 填字游戏】是什么?:Mini Crosswords是一种简化版的填字游戏,适合在有限的空间和时间内进行。与传统的填字游戏不同,Mini Crosswords使用较小的网格,通常为5x5或6x6,且只包含较少

1.n-gram自己理解:n代表窗口长度,n-gram的思想就是先滑窗,然后统计频次,然后计算条件概率,你可以取前面n个的条件概率,不一定要取全部的,最后得到的是整个句子的一个概率,那这个概率可以代表句子的合理性。详情见:https://zhuanlan.zhihu.com/p/32829048如何利用n-gram作为额外的特征呢?例如:我 爱 北京 天安门这样词就有各种组...
1以前的研究将知识或个人资料混合融入预先训练的语言模型。其同时考虑知识和人物角色的能力仍然是有限的,导致生成结果出现幻觉,并且使用人物角色的方法也很被动。1提出一种有效的agent,同时基于外部知识和persona。2选择合适的知识和persona生成回答,利用poly-encoder的方法来实现候选打分。3实施了人物角色级别指标,以考虑微妙的人物角色基础的多种人物角色选择。4利用检索的方式来增强








