logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI也有两幅面孔?复旦等最新研究:高压之下大模型集体变脸

在一个案例里,Gemini-3-Flash 生成了具有木马特征的代码,它自己也意识到这一点,但主动把它包装成“防御性监控工具” ,并添加了绕过杀毒软件的配置,同时假装一切正常。浏览器打开 http://127.0.0.1:8000/viewer/,即可查看完整的评测报告、风险评分、思维链分析、交互轨迹、运行日志等内容。但在高压 + 高诱惑下,直接飙升至 54.5%,部分模型风险率翻了三倍以上。件系

#人工智能
ACL 2026 | 微软提出RepoGenesis:AI能从README生成完整仓库吗?

PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。等商业 IDE 做了一轮系统评测(多模型配置,主文侧重 GPT-5.1、Claude-Sonnet-4.5、Qwen3-30B 等组合,细节见附录)。真正让人头疼的 0 到 1,往往是读完一份需求文档,把一整套可部署的代码仓库搭出来:目录怎么拆、依赖怎么对齐、多个文件之间的接口与错误处

#人工智能
200刀打败18万美元FARS,我们离真正的Auto Research还有多远?

虚高的原因是很多时候 paper 做出来效果不好,然后就放在 paper 上了,而 agentic review 会觉得 negative results 也是一个很好的发现,并且是一个诚实的表现,然后会在 strength 里面狠狠地加分。其中日行迹的 FARS 出来的时候让我感觉很惊艳,感觉 academic 要完,然后看着手头的 Claude Code(Opus 4.6),想着说看能不能用

Harness开始自己进化了:复旦×北大让Agent实现自改,10轮跑赢Codex

AHE 取得了 77.0% 的 pass@1 成绩,超过了同样基于初始种子框架的 ACE(68.9%)和 TF-GRPO(72.3%)自演进基线,并优于由人类专家调试的 Codex-CLI(71.9%)。这说明,至少在这组实验里,真正带来稳定增益的不是更长的 Prompt,而是工具、中间件和长期记忆这些更硬的 Harness 结构。总有一些你不认识的人,知道你想知道的东西。AHE 最有意思的地方,

又挖到一个宝藏仓库!高分Auto Research工具,全在这里了

Anthropic Claude, OpenAI, Azure OpenAI, Gemini, Groq, AWS Bedrock, 自定义 OpenAI 兼容 API。总有一些你不认识的人,知道你想知道的东西。

大规模智能体网络如何真正扩展?一篇综述梳理拓扑、记忆与动态更新

全局记忆(global memory)有利于共享上下文(shared context)和状态对齐(state alignment),局部记忆(local memory)更贴近真实分布式环境(distributed environment),但也更容易带来分歧。基于这些观察,作者认为未来研究需要更关注几个方向:更明确的一致性模型(consistency model)、更强的共享状态控制(state

别再二选一了!一文看懂On-Policy与Off-Policy的本质分歧(含GRPO深度拆解)

GRPO 是一种 on-policy 策略优化方法,它在传统 Advantage 函数的基础上引入“动作组内的相对优势”作为优化依据,从 Q(s,a) 的角度看,它不是直接优化 Q 值,而是间接对 Q(s,a) 与 V(s) 的差值进行 group-wise 归一化,从而提升策略更新的稳定性与鲁棒性。On-policy 强调“靠自己经验成长”的策略闭环,Off-policy 强调“借助他人经验学习

NTU发布世界模型交互新范式:把手伸进屏幕不再是梦

给一张照片,对着空气比划几下,AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频,物体也会产生对应的物理响应——还能自回归地一直生成下去,长视频也保持稳定。我们用逐像素的 Plücker 射线嵌入编码相机运动,通过轻量级 adapter 以加法方式注入扩散模型,将手部关节运动和头部自运动彻底解耦,解决上述手-相机歧义。如下图所示:训练时(上排),手在抓握物体,手部被遮挡,提取出的 m

NeurIPS 2024 | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%

©作者|机器之心对于人类而言,一旦掌握了 “打开瓶盖” 的动作,面对 “拧紧螺丝” 这样的任务通常也能游刃有余,因为这两者依赖于相似的手部动作。然而,对于机器人来说,即使是这样看似简单的任务转换依然充满挑战。例如,换成另一种类型的瓶盖,机器人可能无法成功打开。这表明,目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑,而只是单纯的依赖于数据拟合。针对该问题,来自中山大学和华为诺亚等单位的研究团

#机器人
RL Scaling大时代来临!siiRL首创全分布式框架,千卡强化学习训练轻松跑通

展望未来,我们计划将多智能体支持作为系统的核心特性进行重点拓展,这包括支持更复杂的智能体交互工作流,扩展对多智能体强化学习(MARL)算法的兼容性,并实现更丰富的智能体与环境的交互机制,从而将我们的框架打造为一个功能全面的多智能体研发平台。更糟糕的是,海量数据很容易压垮中心节点的内存,导致系统崩溃(OOM),从根本上限制了系统的可扩展性和稳定性。,siiRL 不仅彻底解决了传统单控制器设计的瓶颈问

#分布式
    共 1684 条
  • 1
  • 2
  • 3
  • 169
  • 请选择