
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
厂商宣称的"支持100万token"和实际可用的"可靠长度"是两回事。核心问题在位置偏差:Lost in the Middle研究显示,64K上下文中中间位置信息召回率仅38%,而开头位置85%。这个规律在更长上下文中仍然存在。GLM-5.2的IndexShare优化了计算效率(FLOPs减少2.9倍),使1M token推理可行,但没有解决位置编码本身的局限。RoPE对长距离位置关系的区分度随距
AI编程助手的竞争已从"谁更聪明"转向"谁更懂你"。Claude Code Skills 让你可以把编程习惯、项目规范、最佳实践"教"给AI,打造真正属于你的编程搭档。本文深度解析 Skills 机制,并汇总 1500+ 社区技能库。
MiMo-Code是小米开源的终端AI编程Agent,16天11K星。核心差异化是持久记忆系统和自进化机制。持久记忆跨会话存储项目结构、架构决策、用户偏好和问题修复记录,存储在 .mimo/memory/ 目录中。新会话自动加载记忆,不需要重新分析项目、重新解释偏好、重复讨论已决策的问题。效果在使用5-10次后开始明显。自进化机制在每次会话结束后异步分析交互数据——观察用户对生成代码的修改模式(双
选大模型还在靠感觉?本文介绍如何用Python打造一个LLM评测工具,一条命令批量测试DeepSeek、通义千问、GPT-4o等多个模型,支持精确匹配、语义相似度、LLM裁判三种评分方式,内置中文测试集,自动生成Markdown对比报告。附完整代码和测试数据,帮你用数据选出最适合业务场景的模型。(148字)
LLM API花费太高?本文介绍如何用Python打造一个LLM成本优化器,通过四大手段自动降低API费用:语义缓存(相似问题直接返回缓存结果,省100%)、智能路由(简单任务走便宜模型,省50-80%)、Prompt压缩(去除系统提示词废话,省30%)和预算管控(超限自动降级)。客户端代码一行不用改,只改base_url即可接入。附完整代码和配置示例。
odysseus 26天78K星,自托管AI工作空间最火项目。我花一周实际部署,对比ChatGPT/Claude/Copilot的结果:部署耗时约3小时,混合模式月费$8-12(原SaaS订阅$70+)。功能覆盖度方面,聊天和Agent功能基本覆盖SaaS方案,额外提供邮件/笔记/日历集成、本地全文搜索、多模型切换、自定义Agent定时任务。差距在于聊天流畅度、移动端缺失、文档协作功能有限。适合有
大模型量化将模型从FP16转为INT4,显存减少70%,速度提升80%。三种方案对比:GGUF适合CPU推理,AWQ速度最快,GPTQ兼容性最好。实测数据:4bit量化后,AWQ显存5.4GB、速度58t/s、质量损失0.9%,综合表现最优。选型:CPU用GGUF,GPU用AWQ,兼容性用GPTQ。
ponytail(GitHub 53K星)是一个Claude Code Skill,让AI Agent少写54%代码。核心思路不是简单压缩代码,而是改变AI的生成逻辑——按项目现有模式写代码,不写多余的安全保护和注释。AI代码冗余三大原因:安全策略(宁可多写不敢漏写)、缺乏项目上下文、指令模糊。ponytail通过优先级排序(功能>一致性>必要性>可读性)和明确“不做什么”来解决。实测token消
GLM-5.2是智谱AI 2026年6月发布的旗舰开源模型(744B参数,40B活跃),支持100万token稳定上下文。四个关键技术改进:IndexShare让每4层稀疏注意力共享索引器,FLOPs减少2.9倍;MTP推测解码接受长度提升20%;可调节思考力度(低/中/高三级);异步RL框架slime持续优化。Terminal-Bench 2.1得分81.0(Claude Opus 4.8为85
百度Unlimited-OCR开源8天10K星,基于DeepSeek-OCR改进,定位One-shot长程文档解析。两种推理模式:gundam(1024/640,裁剪高精度)和base(1024/1024,整页解析)。原生支持PDF和多页文档,使用PyMuPDF转图后批量解析。支持Transformers和SGLang两种推理框架,SGLang方式提供OpenAI兼容API和并发处理。32K上下文







