Vincentt___ 个人主页

@Vincentt___

Vincentt___

2026-06-09 22:13:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

100万token真的能用吗？GLM-5.2和Gemini长上下文的实测分析

厂商宣称的"支持100万token"和实际可用的"可靠长度"是两回事。核心问题在位置偏差：Lost in the Middle研究显示，64K上下文中中间位置信息召回率仅38%，而开头位置85%。这个规律在更长上下文中仍然存在。GLM-5.2的IndexShare优化了计算效率（FLOPs减少2.9倍），使1M token推理可行，但没有解决位置编码本身的局限。RoPE对长距离位置关系的区分度随距

#RAG #人工智能

Claude Code Skills 全解析：1500+ Agent技能库汇总

AI编程助手的竞争已从"谁更聪明"转向"谁更懂你"。Claude Code Skills 让你可以把编程习惯、项目规范、最佳实践"教"给AI，打造真正属于你的编程搭档。本文深度解析 Skills 机制，并汇总 1500+ 社区技能库。

#人工智能

MiMo-Code开源16天11K星：小米AI编码Agent的持久记忆和自进化机制

MiMo-Code是小米开源的终端AI编程Agent，16天11K星。核心差异化是持久记忆系统和自进化机制。持久记忆跨会话存储项目结构、架构决策、用户偏好和问题修复记录，存储在 .mimo/memory/ 目录中。新会话自动加载记忆，不需要重新分析项目、重新解释偏好、重复讨论已决策的问题。效果在使用5-10次后开始明显。自进化机制在每次会话结束后异步分析交互数据——观察用户对生成代码的修改模式（双

#开源 #人工智能

Python实战：一条命令评测多个大模型（DeepSeek/通义千问/GPT-4o），自动生成对比报告

选大模型还在靠感觉？本文介绍如何用Python打造一个LLM评测工具，一条命令批量测试DeepSeek、通义千问、GPT-4o等多个模型，支持精确匹配、语义相似度、LLM裁判三种评分方式，内置中文测试集，自动生成Markdown对比报告。附完整代码和测试数据，帮你用数据选出最适合业务场景的模型。（148字）

#人工智能 #深度学习 #后端 +1

Python实战：手写LLM API成本优化工具，语义缓存+智能路由+Prompt压缩，每月省30-50%

LLM API花费太高？本文介绍如何用Python打造一个LLM成本优化器，通过四大手段自动降低API费用：语义缓存（相似问题直接返回缓存结果，省100%）、智能路由（简单任务走便宜模型，省50-80%）、Prompt压缩（去除系统提示词废话，省30%）和预算管控（超限自动降级）。客户端代码一行不用改，只改base_url即可接入。附完整代码和配置示例。

#python #缓存 #后端

我花了一周时间部署odysseus，对比ChatGPT/Claude的结果如下

odysseus 26天78K星，自托管AI工作空间最火项目。我花一周实际部署，对比ChatGPT/Claude/Copilot的结果：部署耗时约3小时，混合模式月费$8-12（原SaaS订阅$70+）。功能覆盖度方面，聊天和Agent功能基本覆盖SaaS方案，额外提供邮件/笔记/日历集成、本地全文搜索、多模型切换、自定义Agent定时任务。差距在于聊天流畅度、移动端缺失、文档协作功能有限。适合有

#人工智能

大模型量化实战：GGUF vs AWQ vs GPTQ深度对比与选型指南

大模型量化将模型从FP16转为INT4，显存减少70%，速度提升80%。三种方案对比：GGUF适合CPU推理，AWQ速度最快，GPTQ兼容性最好。实测数据：4bit量化后，AWQ显存5.4GB、速度58t/s、质量损失0.9%，综合表现最优。选型：CPU用GGUF，GPU用AWQ，兼容性用GPTQ。

#人工智能 #后端

ponytail爆火背后：为什么AI Agent写的代码总是太啰嗦？

ponytail（GitHub 53K星）是一个Claude Code Skill，让AI Agent少写54%代码。核心思路不是简单压缩代码，而是改变AI的生成逻辑——按项目现有模式写代码，不写多余的安全保护和注释。AI代码冗余三大原因：安全策略（宁可多写不敢漏写）、缺乏项目上下文、指令模糊。ponytail通过优先级排序（功能>一致性>必要性>可读性）和明确“不做什么”来解决。实测token消

#数据库 #人工智能

GLM-5.2技术解析：智谱100万上下文开源模型的4个关键改进

GLM-5.2是智谱AI 2026年6月发布的旗舰开源模型（744B参数，40B活跃），支持100万token稳定上下文。四个关键技术改进：IndexShare让每4层稀疏注意力共享索引器，FLOPs减少2.9倍；MTP推测解码接受长度提升20%；可调节思考力度（低/中/高三级）；异步RL框架slime持续优化。Terminal-Bench 2.1得分81.0（Claude Opus 4.8为85

#人工智能

百度Unlimited-OCR实测：和DeepSeek-OCR比，到底强在哪？

百度Unlimited-OCR开源8天10K星，基于DeepSeek-OCR改进，定位One-shot长程文档解析。两种推理模式：gundam（1024/640，裁剪高精度）和base（1024/1024，整页解析）。原生支持PDF和多页文档，使用PyMuPDF转图后批量解析。支持Transformers和SGLang两种推理框架，SGLang方式提供OpenAI兼容API和并发处理。32K上下文

#人工智能 #百度 #开源 +1

共 35 条

请选择