logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

理解 KV Cache:LLM 推理为什么能越写越快

摘要: KV Cache(KV缓存)是提升大语言模型(LLM)推理速度的关键机制。其核心原理是缓存历史token的Key和Value向量,避免重复计算。首次生成token时需完整处理输入(prefill阶段),耗时较长;后续token则基于缓存快速流式生成。KV Cache以显存换计算效率,但长上下文或高并发时会显著增加显存占用,因此衍生出MQA(多查询注意力)和GQA(分组查询注意力)等优化技术

文章图片
#AI
Harness Engineering 被讲烂之后,Agent 工程真正难的是什么?

看 Anthropic、OpenAI、Gemini 的 Harness 都在做啥?

文章图片
#人工智能
我用 PAI/Codex 理解 Harness Engineering:Agent 工作环境到底怎么搭

从工程师视角出发,带你过一遍 Harness Engineering

文章图片
#AI
LLM 训练能不能少跑一点?Nous Research 的 TST 方法

在论文「Efficient Pre-Training with Token Superposition」中,Nous Research 提出的方法叫 Token-Superposition Training,简称 TST。TST 可以直接接入现有预训练流程,不需要改变并行策略、优化器、分词器、训练数据或模型架构,却能提高预训练阶段单位计算量下的数据吞吐效率。上图展示了在 10B-A1B MoE 模

文章图片
#深度学习#人工智能
用好 Codex Goal,关键就这三步

goal。可能已经有小伙伴用上它了。Goal 的使用方式很简单:在 prompt 开头输入/goal,再告诉 Codex 你希望它完成什么目标。接下来,Codex 就会围绕这个目标持续循环,直到它认为目标已经完成。Goal 模式不是普通的一轮对话,也不是你让模型“帮我改一下代码”那么简单。它更像是一个持续运行的 Agent 循环:执行动作、评估结果、判断是否达成目标,如果没有达成,就继续下一轮。所

文章图片
终端里跑 3D 老鼠,桌面窗口成摆锤;AI 大佬新公司估值百亿起

上周技术圈的信息挺杂,但有几条线索值得放在一起看。一边,AI 产品继续往具体工作流里走:Claude Code 开始支持 Agent View,OpenAI 把 Codex 带到移动端;另一边,开发者社区继续整活:有人给 Claude Code 做实体旋钮,有人做 Claude 用量桌面仪表盘,还有人把终端做成能显示 3D 老鼠的玩具。下面,我们开始本期的「周一上线」。

文章图片
#3d#人工智能
大会实录|宿度:用 OpenClaw 破解 AI 焦虑,重新定义人与 AI 的协作边界

比起焦虑“会不会被替代”,更值得思考的是:AI 如何进入工作流,如何沉淀经验,又如何与人形成更稳定的协作关系。正如宿度在现场借一本书所介绍的概念,人类在使用 AI 工具时:问题不可避免,但问题终将被解决。

文章图片
#人工智能
大会实录|宿度:用 OpenClaw 破解 AI 焦虑,重新定义人与 AI 的协作边界

比起焦虑“会不会被替代”,更值得思考的是:AI 如何进入工作流,如何沉淀经验,又如何与人形成更稳定的协作关系。正如宿度在现场借一本书所介绍的概念,人类在使用 AI 工具时:问题不可避免,但问题终将被解决。

文章图片
#人工智能
给 OpenClaw 上装备:养“龙虾”的 10 个实用 Skill 推荐

摘要:OpenClaw("龙虾")爆火后,用户发现不安装Skill功能有限。本文推荐10个实用Skill,包括联网搜索、私人笔记管理、自动化浏览器等生产力工具,并强调安装前的安全防护措施。同时提供云端部署的排坑指南,解决Linux系统依赖冲突问题,帮助用户充分发挥AI助手潜力。从基础功能到进阶应用,Skill的合理配置能显著提升OpenClaw的实际工作效率。

文章图片
#php#开发语言#人工智能 +1
用 Bub 和飞书搭一个更懂群聊上下文的小机器人

虚拟内存通过页表、TLB 与缺页机制,实现安全高效的内存管理。

文章图片
#机器人
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择