logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Opus 4.6 的 Benchmark 该怎么看:方法学偏差与你自己的评估

摘要:大模型厂商发布的benchmark成绩往往存在设计、运行条件和报告方式的差异,不能直接作为决策依据。以Anthropic发布的Opus 4.6为例,其Terminal-Bench分数受不同工具链影响,Humanity's Last Exam成绩依赖额外工具支持,GDPval-AA的144 Elo优势仅代表70%场景领先。更值得关注的是,该模型在核心指标SWE-bench和MCP Atlas上

#人工智能
从 OpenClaw RCE 漏洞看本地 Agent 安全:你的 Shell 权限正裸奔吗?

OpenClaw(前身是 Clawdbot/Moltbot)最近火得一塌糊涂。GitHub 星数飙升到 149k,大家都在感叹终于有个开源版的"贾维斯"了。你可以让它帮你发邮件、整理文件、甚至控制智能家居。但就在几天前,爆出的 CVE-2026-25253 漏洞给这股热潮浇了一盆冷水。CVSS 评分 8.8,高危。简单说,如果你在用老版本的 OpenClaw,黑客只要发给你一个链接,你点开,你的电

#安全
60,000 星的代价:解析 OpenClaw 的架构设计与安全教训

OpenClaw项目GitHub星标激增但暴露严重安全隐患:默认绑定localhost的设计在容器化环境中失效,导致上千实例暴露公网,其中一起案例造成1.8亿AI令牌被盗。核心问题在于单点架构将所有敏感功能集中,使攻击者一旦突破即可完全接管系统。文章指出AI代理的特殊风险在于能执行自然语言指令,建议必须默认开启认证、拆分功能模块、实施最小权限原则。随着项目热度持续攀升(18万星标),如何在易用性与

文章图片
#AIGC#人工智能#安全
ClawdHub 技能市场的信任漏洞:下载量能被刷,“官方推荐“能被骗

AI技能平台ClawdHub存在严重安全漏洞:研究员通过伪造下载量使恶意技能登上热门推荐,48小时内23名用户安装。该平台缺乏代码审查、下载量验证和作者信誉系统,使攻击者可轻易植入窃取API密钥的恶意指令。更复杂的供应链攻击和依赖污染手法可能造成更大危害。建议用户安装前检查作者历史、查看源码并限制权限,同时官方正计划改进统计方式和引入安全扫描。这暴露出AI Agent生态缺乏成熟信任基础设施的问题

文章图片
#人工智能
“不读代码“的开发哲学:Vibe Coding 是终极生产力还是定时炸弹?

摘要:Peter Steinberger展示了AI编程(Vibe Coding)的极致形态,一天提交688次commit,其中296次来自AI项目Clawdbot。与传统开发流程不同,Vibe Coding通过自然语言描述需求,AI生成代码并直接提交,将开发时间从数天缩短至数小时。然而,研究发现仅10.5%的AI生成代码是安全的,常见漏洞包括硬编码敏感信息、SQL注入、路径遍历等。AI编程还导致技

文章图片
#AIGC#人工智能
“不读代码“的开发哲学:Vibe Coding 是终极生产力还是定时炸弹?

摘要:Peter Steinberger展示了AI编程(Vibe Coding)的极致形态,一天提交688次commit,其中296次来自AI项目Clawdbot。与传统开发流程不同,Vibe Coding通过自然语言描述需求,AI生成代码并直接提交,将开发时间从数天缩短至数小时。然而,研究发现仅10.5%的AI生成代码是安全的,常见漏洞包括硬编码敏感信息、SQL注入、路径遍历等。AI编程还导致技

文章图片
#AIGC#人工智能
用 clawdbot 做自动化:任务编排、触发器与可观测性

clawdbot是一款开源AI助手,能操作浏览器、调用API、访问shell,强调沙盒隔离和系统化能力。文章从编排、触发、可观测性三方面分析如何将其从"能用"升级为"敢长期跑"的自动化系统:1)任务编排需拆解阶段并设置护栏;2)通过cron、事件和人工触发实现自动化运转;3)建立日志、指标、追踪、审计的可观测性闭环。建议从低风险场景起步,逐步构建可靠的自动化

文章图片
#自动化#运维
Prompt Injection 怎么防:攻击面与工程防线(含安全 Checklist)

大模型上线后的安全风险主要来自Prompt Injection(提示注入),即用户通过输入或外部文档植入恶意指令,诱导模型越权操作。防御需分层处理:1)输入层过滤敏感内容;2)提示词明确信任边界;3)RAG场景净化数据源;4)工具调用实施白名单与最小权限;5)输出层脱敏敏感信息;6)持续监控异常行为。核心原则是将外部内容视为不可信数据,通过工程手段(如权限控制、审计日志)而非单纯依赖模型判断来降低

文章图片
#安全#网络
幻觉怎么治:引用/约束/拒答/工具验证的组合拳(策略矩阵 + Checklist)

大模型幻觉问题的工程解决方案 大模型上线后常出现“幻觉”问题,如编造事实、虚假引用等,难以通过Prompt彻底解决。本文提出一套工程化组合拳: 引用(Grounding):强制基于证据回答,标注来源,无证据时拒答 约束(Constraints):通过结构化输出、范围限定减少自由发挥 拒答(Refusal):证据不足时明确告知并引导用户补充信息 工具验证(Tool):可验证数据(如订单、计算)交由工

文章图片
#矩阵#线性代数#人工智能
什么时候不该用 Agent:复杂度上升但收益为零的禁用清单 + 替代方案

摘要: Agent技术虽热,但盲目使用可能增加工程复杂度,而非加速落地。文章指出,Agent仅适用于路径不确定、需多步规划和动态工具选择的任务,否则会带来成本、延迟和安全性等问题。列举了10种不应使用Agent的场景(如固定流程、高风险操作等),并建议优先采用工作流、RAG或单次工具调用等替代方案。提供决策树帮助判断是否需要Agent,强调必须设置停止条件、权限控制和评测体系。最后给出上线前的关键

文章图片
#前端#javascript#开发语言
    共 18 条
  • 1
  • 2
  • 请选择