logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多协议适配管线:Responses API ↔ Chat Completions 翻译层设计与实现

本文提出了一种多协议翻译代理方案,旨在解决AI编程工具生态中三种不兼容API协议(ChatCompletions、ResponsesAPI、Messages)的兼容性问题。该方案通过三层处理流水线实现:协议翻译层将不同协议请求转换为统一格式,推理注入层补充推理内容,上游转发层完成请求转发。核心创新包括:1)单代理支持多协议入口;2)统一缓存机制;3)精确的流式事件映射;4)透明的错误透传设计。该架

#网络
DeepSeek/MiMo 推理链缓存代理:从内存到 SQLite 的两级缓存架构实战

本文针对AI推理模型API在多轮会话中因缺失推理内容字段导致工具调用链断裂的问题,提出了三级优化方案:首先采用填充空推理字段的临时方案确保协议兼容性;随后引入SQLite持久化缓存解决内存缓存易失性问题,并通过工具调用ID索引提升缓存复用率;最终构建两级缓存架构(内存+SQLite)实现性能与可靠性的平衡。方案采用WAL模式、线程安全连接等技术保障稳定性,并配备可视化仪表盘便于运维管理。该零外部依

#缓存#sqlite#架构 +1
一次“正确”的数据库迁移,如何演变成删库事故——AI Coding Agent 的致命误判 yolo权限

摘要:某开发团队在进行LLM配置模块架构升级时,因数据库迁移脚本顺序错误导致外键约束冲突。AI代理错误判断后直接删除数据库文件,造成核心业务数据全部丢失。事故暴露了AI代理对数据价值的认知偏差,倾向于采用"删库重建"的简单方案。建议为AI代理设置安全边界:高风险操作二次确认、自动备份机制、读写分离、业务分库等防护措施。核心教训在于AI无法理解数据的不可再生性,合理的架构设计可为

#人工智能#数据库
Responses协议深度解析:从“聊天”到“干活”的架构革命

当我为了省 Token、保账号,用剪贴板操控 DeepSeek 网页版时,才真正理解了为什么 OpenAI 要彻底抛弃 Chat 协议,也要强推这套有状态的 Responses。故事的起点很荒诞。几个月前,我跟朋友吹牛,说一个月消耗多少 Token 才算“大手子”。朋友晒出的账单是月烧 3 亿 Token,我嘴上说“这不就是随便的事吗”,心里却在盘算:怎么才能让自己的 Token 统计数字也暴涨?

#架构#websocket
Responses协议深度解析:从“聊天”到“干活”的架构革命

当我为了省 Token、保账号,用剪贴板操控 DeepSeek 网页版时,才真正理解了为什么 OpenAI 要彻底抛弃 Chat 协议,也要强推这套有状态的 Responses。故事的起点很荒诞。几个月前,我跟朋友吹牛,说一个月消耗多少 Token 才算“大手子”。朋友晒出的账单是月烧 3 亿 Token,我嘴上说“这不就是随便的事吗”,心里却在盘算:怎么才能让自己的 Token 统计数字也暴涨?

#架构#websocket
Claude Code 搜索工具失灵,用 MCP + 提示词注入绕过 tavily

本文分享了解决ClaudeCode在第三方API中转时搜索功能失效的完整方案。通过使用Tavily MCP服务器替代内置搜索工具,配合用户级提示词注入,成功绕过协议不兼容问题。文章详细介绍了Tavily的优势、MCP服务器配置步骤(包括常见错误修正)、提示词重定向规则设置,并提供了完整操作速查表。该方案不依赖中转站协议更新,具有自主可控、灵活性强等特点,特别适合习惯使用ClaudeCode但遇到搜

#搜索引擎#网络
Hermes Agent 踩坑实录:为了不占 C 盘

之前一直在用 OpenClaw,一个社区推动的 AI Agent 工具。后来发现 Nous Research 推出了 Hermes Agent——一个号称"越用越强"的自主 Agent,支持持久记忆、自动创建技能、跨会话学习,还能跑在 Telegram、Discord 等多个平台上。作为一个爱折腾的人,当然想上手试试。但我有几个硬性要求不装 Docker(太占资源)不装 WSL(不想碰 Linux

#windows#python
理解大模型API缓存机制:从Claude Code的缓存失效到DeepSeek的硬盘缓存

摘要:本文分析了ClaudeCode缓存失效问题,指出其随机归属头机制导致系统提示词前缀不一致,使缓存无法命中。通过对比KVCache与提示词缓存的差异,阐述了DeepSeek采用硬盘持久化、多层落盘等策略的缓存优势。同时讨论了API中转站对缓存的影响,建议开发者关注环境变量设置和中转站处理策略,以优化推理速度和成本。

#缓存
谷歌屏幕共享功能别浪费:我把它改成了视频会议,结果人多就炸了

本文分享了将闲置的浏览器推流代码改造为视频会议功能的实践过程。作者最初采用WebRTC P2P Mesh架构,发现其在小规模会议(4人以内)具有零服务器成本、低延迟等优势,但随着人数增加会面临带宽和计算资源瓶颈(6人时上传带宽达10Mbps,10人时需解码10路视频)。通过对比Mesh与SFU架构的差异,作者最终保留Mesh模式但限制最大人数(6人),并为更大规模会议推荐SFU方案。文章揭示了技术

#p2p#网络
仿B站直播功能技术选型:为什么必须用SRS而不是WebRTC P2P?

本文分析了直播平台技术选型的关键问题,指出WebRTC P2P架构不适合大规模直播场景的原因。通过对比P2P和服务端转发两种架构的带宽消耗差异,说明P2P模式在观众数量增加时会导致主播端带宽不足。文章揭示了B站、抖音等平台采用RTMP推流+SRS服务器转发+FLV/HLS拉流的经典架构的原因,并指出WebRTC仅适用于连麦等特定场景。最后给出了务实的技术选型建议:RTMP推流+SRS转发+FLV拉

#webrtc
    共 74 条
  • 1
  • 2
  • 3
  • 8
  • 请选择