
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:作者分享使用开源编程工具opencode和本地ollama量化模型的经验,发现效果不理想后尝试ollama云端模型,但免费额度快速耗尽。随后转向智谱AI的GLM系列模型,发现新用户注册可获赠大量免费token(GLM4.5送1200万,GLM4.7送500万)。文章详细介绍了在opencode中配置智谱AI模型的方法:1)安装opencode;2)获取API密钥并配置GLM模型;3)重启后选

谷歌推出Gemini 3.1 Flash-Lite模型,主打速度与成本优势。该模型首字响应速度提升2.5倍,整体输出提速45%,定价为输入$0.25/百万Token、输出$1.50/百万Token,性价比显著。在多项基准测试中表现优异,甚至超越前代更大模型。支持可调节"思考等级"功能,适用于从简单任务到复杂推理的多种场景。目前已通过Google AI Studio和Vertex

摘要:随着算力成本上升和数据隐私问题凸显,小型语言模型(SLM)正成为AI领域的新趋势。SLM基于Transformer架构,通过模型压缩技术(如修剪、量化、知识蒸馏)大幅降低参数量,实现边缘设备的高效运行。主流SLM如Meta的Llama3.2、Google的Gemma等展现出媲美大模型的性能,在端侧AI助手、物联网等场景优势显著。SLM以低成本、低延迟、高隐私性等特点,正在推动AI向更务实、普

摘要:Kimi团队2026年提出的AttentionResiduals(AttnRes)创新性地解决了传统残差连接在深度维度上的PreNorm稀释问题。通过将注意力机制引入深度轴,AttnRes使各层能动态选择历史信息,替代了固定权重的残差累加。实验表明,其优化版本BlockAttnRes在48B大模型上显著提升性能(如MMLU提升1.1分,GPQA提升7.5分),额外开销仅2%。该研究不仅统一了

AI Agent是一种能够感知环境、自主规划和执行任务的智能系统,相比大语言模型(LLM)具有更强的主动性和执行能力。其核心组件包括大脑(LLM)、工具(Tools)、记忆(Memory)和规划能力(Planning)。Claude Code作为AI Agent的典型应用,是一款自主编程工具,支持自动化任务、开发新功能、调试Bug等,并可通过自然语言指令进行操作。最新特性包括自动模式、语音模式和远

2026 年 3 月 ,Google Research 悄然发布了一篇注定要在 AI 工程圈引发地震的研究——TurboQuant。没有铺天盖地的发布会,没有华丽的宣传 PPT,只有一套扎实到骨子里的数学推导。然而仅在 24 小时内,这项研究就让内存芯片巨头 Micron 和 Western Digital 的股价同步下跌,Cloudflare CEO 将其称为"Google 的 DeepSeek

本文介绍了一种通过DispatchMap模式扩展AI Agent工具能力的方法。核心思路是保持主循环不变,通过字典映射将工具名与处理函数关联,实现零成本工具扩展。文章详细解析了路径沙箱(safe_path)安全机制、四个专用工具(read/write/edit文件及bash)的实现,以及如何通过TOOL_HANDLERS字典实现工具分发。这种设计遵循开放-封闭原则,新增工具只需注册到字典而无需修改

本文提出了一种为AI Agent添加结构化任务管理模块的方法,通过引入"Todo工具"解决多步任务执行中的注意力漂移问题。核心创新点包括: 设计了一个独立于对话历史的PlanningState状态,包含任务列表和健康指标 强制同一时间只能有一个进行中任务,确保执行焦点 实现自动提醒机制,当Agent长时间未更新计划时主动干预 提供可视化进度展示,使任务状态对开发者和模型都清晰可

摘要:Harness是Anthropic推出的托管智能体运行框架,它重新定义了AI应用开发方式。作为连接LLM与现实世界的"操作系统",Harness解决了传统Agent开发中80%的基础设施构建难题,包括工具调用、状态管理、异常处理等。系统包含四大核心概念:Agent(配置定义)、Environment(运行容器)、Session(任务实例)和Events(通信单元)。通过与

本文介绍了通过父子智能体架构解决长任务中上下文污染问题的方法。父智能体负责委派任务,子智能体在独立上下文中执行复杂操作后仅返回摘要,从而避免中间结果污染父智能体上下文。关键技术包括:1)工具分离(子智能体无task工具防止递归);2)文件系统共享;3)30轮安全限制;4)消息完全隔离。实验显示该方法可减少88%的上下文占用,有效解决了智能体"记性太好"导致的性能下降问题。








