logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

100万token真的能用吗?GLM-5.2和Gemini长上下文的实测分析

厂商宣称的"支持100万token"和实际可用的"可靠长度"是两回事。核心问题在位置偏差:Lost in the Middle研究显示,64K上下文中中间位置信息召回率仅38%,而开头位置85%。这个规律在更长上下文中仍然存在。GLM-5.2的IndexShare优化了计算效率(FLOPs减少2.9倍),使1M token推理可行,但没有解决位置编码本身的局限。RoPE对长距离位置关系的区分度随距

#RAG#人工智能
Claude Code Skills 全解析:1500+ Agent技能库汇总

AI编程助手的竞争已从"谁更聪明"转向"谁更懂你"。Claude Code Skills 让你可以把编程习惯、项目规范、最佳实践"教"给AI,打造真正属于你的编程搭档。本文深度解析 Skills 机制,并汇总 1500+ 社区技能库。

#人工智能
MiMo-Code开源16天11K星:小米AI编码Agent的持久记忆和自进化机制

MiMo-Code是小米开源的终端AI编程Agent,16天11K星。核心差异化是持久记忆系统和自进化机制。持久记忆跨会话存储项目结构、架构决策、用户偏好和问题修复记录,存储在 .mimo/memory/ 目录中。新会话自动加载记忆,不需要重新分析项目、重新解释偏好、重复讨论已决策的问题。效果在使用5-10次后开始明显。自进化机制在每次会话结束后异步分析交互数据——观察用户对生成代码的修改模式(双

#开源#人工智能
Python实战:一条命令评测多个大模型(DeepSeek/通义千问/GPT-4o),自动生成对比报告

选大模型还在靠感觉?本文介绍如何用Python打造一个LLM评测工具,一条命令批量测试DeepSeek、通义千问、GPT-4o等多个模型,支持精确匹配、语义相似度、LLM裁判三种评分方式,内置中文测试集,自动生成Markdown对比报告。附完整代码和测试数据,帮你用数据选出最适合业务场景的模型。(148字)

#人工智能#深度学习#后端 +1
Python实战:手写LLM API成本优化工具,语义缓存+智能路由+Prompt压缩,每月省30-50%

LLM API花费太高?本文介绍如何用Python打造一个LLM成本优化器,通过四大手段自动降低API费用:语义缓存(相似问题直接返回缓存结果,省100%)、智能路由(简单任务走便宜模型,省50-80%)、Prompt压缩(去除系统提示词废话,省30%)和预算管控(超限自动降级)。客户端代码一行不用改,只改base_url即可接入。附完整代码和配置示例。

#python#缓存#后端
我花了一周时间部署odysseus,对比ChatGPT/Claude的结果如下

odysseus 26天78K星,自托管AI工作空间最火项目。我花一周实际部署,对比ChatGPT/Claude/Copilot的结果:部署耗时约3小时,混合模式月费$8-12(原SaaS订阅$70+)。功能覆盖度方面,聊天和Agent功能基本覆盖SaaS方案,额外提供邮件/笔记/日历集成、本地全文搜索、多模型切换、自定义Agent定时任务。差距在于聊天流畅度、移动端缺失、文档协作功能有限。适合有

#人工智能
大模型量化实战:GGUF vs AWQ vs GPTQ深度对比与选型指南

大模型量化将模型从FP16转为INT4,显存减少70%,速度提升80%。三种方案对比:GGUF适合CPU推理,AWQ速度最快,GPTQ兼容性最好。实测数据:4bit量化后,AWQ显存5.4GB、速度58t/s、质量损失0.9%,综合表现最优。选型:CPU用GGUF,GPU用AWQ,兼容性用GPTQ。

#人工智能#后端
ponytail爆火背后:为什么AI Agent写的代码总是太啰嗦?

ponytail(GitHub 53K星)是一个Claude Code Skill,让AI Agent少写54%代码。核心思路不是简单压缩代码,而是改变AI的生成逻辑——按项目现有模式写代码,不写多余的安全保护和注释。AI代码冗余三大原因:安全策略(宁可多写不敢漏写)、缺乏项目上下文、指令模糊。ponytail通过优先级排序(功能>一致性>必要性>可读性)和明确“不做什么”来解决。实测token消

#数据库#人工智能
GLM-5.2技术解析:智谱100万上下文开源模型的4个关键改进

GLM-5.2是智谱AI 2026年6月发布的旗舰开源模型(744B参数,40B活跃),支持100万token稳定上下文。四个关键技术改进:IndexShare让每4层稀疏注意力共享索引器,FLOPs减少2.9倍;MTP推测解码接受长度提升20%;可调节思考力度(低/中/高三级);异步RL框架slime持续优化。Terminal-Bench 2.1得分81.0(Claude Opus 4.8为85

#人工智能
百度Unlimited-OCR实测:和DeepSeek-OCR比,到底强在哪?

百度Unlimited-OCR开源8天10K星,基于DeepSeek-OCR改进,定位One-shot长程文档解析。两种推理模式:gundam(1024/640,裁剪高精度)和base(1024/1024,整页解析)。原生支持PDF和多页文档,使用PyMuPDF转图后批量解析。支持Transformers和SGLang两种推理框架,SGLang方式提供OpenAI兼容API和并发处理。32K上下文

#人工智能#百度#开源 +1
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择