logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

上下文工程崛起:天才少年Peak Ji,揭开AI Agent的真相

一个任务,动辄要调用几十个工具,几百轮对话,模型上下文越堆越长,性能却一路下滑。一个任务,动辄要调用几十个工具,几百轮对话,模型上下文越堆越长,性能却一路下滑。当AI模型的战争还在比拼参数和算力时,Peak Ji 用“上下文工程”提醒整个行业——真正的智能,不在模型的大小,而在于它能否像人一样“有选择地记得”。因为它直接决定了性能与成本。:不再依赖有限的128K窗口,而是把文件系统变成AI的外部大

#人工智能
ChatGPT只是开始,AI Agent才是终局

但你接着说:"发邮件给老板,看他回复啥,然后约个下周的会"——它就懵了,跟你说:"我只能聊天,不能发邮件啊哥。你可以@一个AI助理,让它"整理今天的未读消息,提取待办事项,按优先级排序"。演示视频里,Manus接到任务"帮我筛选简历",它自己解压文件、逐份阅读、提取关键信息、生成排名表格——全程没人管。百度的"智能体商店",有各种垂直场景的Agent:写论文的、做PPT的、分析财报的。说实话,Ch

#人工智能
AI Agent 评估如何做?

在 τ2-bench 的航班预订任务中,Claude Opus 4.5 发现了评估规则里的一个漏洞,绕过限制,给用户找到了更优解。客服、销售、辅导场景里,语气、解释、同理心很难写成规则,只能借助 LLM 评分器,并且需要频繁和人工校准。Prompt 更清晰了,工具调用也规整了,关键路径自己跑了好几遍,看起来没什么问题。但他们也发现,只看测试不够,代码质量、工具调用习惯、是否乱改文件,同样值得进评估

Block押注AI,裁员40%,股价暴涨24%

科技公司正在集体"瘦身"回到疫情前的规模——Block从2019年的3800人膨胀到10000人,现在又裁回6000人。2026年2月26日,Block(原Square)CEO Jack Dorsey 做了一件事:他在公司财报发布的同时,宣布裁员超过4000人,占员工总数的40%。Block自研的Goose是一个开源AI Agent,定位是"你的机器上的AI队友"。Dorsey说"智能工具的能力每

#人工智能
<span class=“js_title_inner“>AI Agent 评估如何做?</span>

在 τ2-bench 的航班预订任务中,Claude Opus 4.5 发现了评估规则里的一个漏洞,绕过限制,给用户找到了更优解。客服、销售、辅导场景里,语气、解释、同理心很难写成规则,只能借助 LLM 评分器,并且需要频繁和人工校准。Prompt 更清晰了,工具调用也规整了,关键路径自己跑了好几遍,看起来没什么问题。但他们也发现,只看测试不够,代码质量、工具调用习惯、是否乱改文件,同样值得进评估

一个被低估的Agent架构样本:Clawdbot到底强在哪?

从多 Agent 协作,到自治执行,再到各种“下一代智能体框架”,每一篇看起来都很先进,但真正在工程层面落地的东西,反而越来越少。很多 Agent 项目卡住的点,并不在模型能力,而在一些被忽略得很彻底的“笨问题”上。Clawdbot 的记忆系统,没有复杂的分层设计,也没有花哨的生命周期管理。Telegram、Slack 这些渠道,只是它的“入口”,而不是舞台中心。你会明显感觉到,它更像一个住在你电

#架构
华为盘古大模型陷“抄袭门”?背后真相远比你想的复杂

一位来自哥斯达黎加大学、署名为韩国籍的学生在GitHub上发布报告称,华为新近开源的盘古Pro MoE 720B模型,和阿里巴巴此前开源的通义千问Qwen-2.5模型,在参数结构上高度相似,甚至注意力参数的相似度高达0.927——这个数字几乎可以称得上是“克隆级别”的一致。更具戏剧性的一幕在7月6日凌晨出现。值得注意的是,这起事件中涉及的核心问题,并不仅仅是技术层面的“谁抄了谁”,更重要的是,在一

#华为
字节跳动开源神器Agent TARS,AI自动化时代真来了

简单说,它不是给你写好一个 Agent 用的,而是帮你快速搭出一套自己的智能代理系统。而你作为开发者,不用纠结“我要选哪个大模型”,也不用死磕链式调用,只需要搭好结构、定义好任务目标,剩下的交给它自己调度。如果你想认真搞一个能落地的 AI Agent 系统,又不想被各种概念绕晕,试试 TARS,你可能会和我一样真香警告。甚至你可以让 Agent 们互相对话,比如一个管规划,一个管执行,一个管汇报,

#自动化#运维
华为出大事了!在发布会上展示大模型能力,按下 Ctrl-C 中断,显示对应代码 time.sleep(6)...

华为在发布会现场展示大模型文生图能力时,第一次运行时按下 Ctrl-C 中断,显示对应的代码 time.sleep(6)。这个新闻在网上引起了广泛讨论,我们看一看大家怎么说。贾杨清评价,这个是客户端调用的demo,跟大模型本身能力无关。也有朋友这样评价:“实话实说,这个只能大概率实锤代码写的很挫逼,这种直接在代码里 sleep 的,很多静态检查工具都会给警告的。但你非要说他做假,这个确实没法实锤。

#华为
字节跳动发布免费AI编程神器!Trae震撼上线,直接对标Cursor,支持Claude大模型!...

今天字节跳动在海外推出了一款新的 AI IDE 工具,叫做 Trae。它直接跟 Cursor 竞争,支持中文,而且集成了像 Claude 3.5 和 GPT-4o 等大模型。现在这款工具可以免费使用,不过目前仅限 MacOS 系统。首先,你可以去官网(trae.ai)下载并安装 Trae。安装完成后,打开软件,第一次启动时需要进行一些简单的设置。设置过程中,你可以选择界面的主题颜色和语言。目前提供

    共 66 条
  • 1
  • 2
  • 3
  • 7
  • 请选择