Python实战：手写LLM API成本优化工具，语义缓存+智能路由+Prompt压缩，每月省30-50%

Vincentt___

193人浏览 · 2026-06-15 09:06:27

Vincentt___ · 2026-06-15 09:06:27 发布

每月 LLM API 花费 ¥5000？这个工具帮你省 30-50%，一行代码不用改

你的 LLM API 账单，可能有 30-50% 是浪费的。

引言

上个月有个朋友跟我说，他们的 AI 客服系统每月 API 花费 ¥8000。

我问："你分析过钱花在哪了吗？"

他说："没有，反正就是调 API 嘛。"

我看了一下他们的调用日志：

30% 的请求是重复问题（用户换个说法问同样的事）
40% 的请求是简单任务（翻译、格式化），却用了最贵的模型
系统提示词有 2000 个 token，其中一半是废话

光是这三项，每月就浪费 ¥3000。

于是我写了 LLM Cost Optimizer —— 在你的应用和 LLM API 之间加一层，自动帮你省钱。

四大省钱手段

1. 语义缓存（省 100%）

用户问 "北京天气怎么样" 和 "今天北京天气如何"，意思一样。

传统缓存要完全一致才能命中。语义缓存用相似度匹配，即使措辞不同也能命中。

cache:
  enabled: true
  similarity_threshold: 0.92  # 92% 相似就命中缓存
  ttl_seconds: 3600           # 缓存 1 小时

命中缓存的请求，成本为 0。

2. 智能路由（省 50-80%）

翻译任务用 qwen-turbo（¥0.3/百万 token），代码任务用 deepseek-coder（¥1/百万 token），分析任务用 qwen-plus（¥0.8/百万 token）。

为什么要用 GPT-4o（¥18/百万 token）做翻译？

routing:
  enabled: true
  rules:
    - match_keywords: ["翻译", "translate"]
      model: qwen-turbo
    - match_keywords: ["代码", "code", "debug"]
      model: deepseek-coder

按任务类型选模型，不按习惯。

3. Prompt 压缩（省 30%）

你的系统提示词有 2000 个 token？其中可能有大量废话：

"Please note that" → 删掉
"It is important to remember that" → 删掉
重复的句子 → 去重
多余的空行 → 压缩

压缩后变成 1400 个 token，行为不变，每个请求省 30%。

4. 预算管控（不超支）

budget:
  monthly_limit_yuan: 5000
  alert_threshold: 0.8       # 80% 时预警
  overflow_strategy: degrade  # 超了自动降级到便宜模型

到了 80% 给你发预警，到了 100% 自动切换到便宜模型。

使用方式

一行代码不用改，只改 base_url：

from openai import OpenAI

# 之前：
# client = OpenAI(api_key="sk-xxx", base_url="https://api.openai.com/v1")

# 之后：
client = OpenAI(api_key="any", base_url="http://localhost:8000/v1")

# 其他代码完全不变
response = client.chat.completions.create(
    model="qwen-plus",
    messages=[{"role": "user", "content": "你好"}],
)

优化自动发生，你的代码感知不到。

实际效果

用一个真实场景测试：AI 客服系统，每天 1000 次请求。

指标	优化前	优化后	节省
每日花费	¥165	¥89	¥76 (46%)
每月花费	¥4,950	¥2,670	¥2,280
平均延迟	1.2s	0.8s	0.4s

省钱来源：

缓存命中：180 次/天 → 省 ¥30
智能路由：600 次/天走便宜模型 → 省 ¥40
Prompt 压缩：每个请求省 600 token → 省 ¥6

安装

git clone https://github.com/Vincent-crypto-coder/llm-cost-optimizer.git
cd llm-cost-optimizer
pip install -r requirements.txt
cp config.example.yaml config.yaml  # 填入 API Key
python -m llm_cost start --config config.yaml --port 8000

跟其他工具的区别

	LLM Cost Optimizer	LiteLLM	Portkey
定位	成本优化	API 代理	AI 网关
语义缓存	✅	❌	❌
智能路由	✅	✅	✅
Prompt 压缩	✅	❌	❌
预算管控	✅	❌	✅

LiteLLM 是 API 代理，Portkey 是企业网关，LLM Cost Optimizer 是省钱工具。

接下来

这个项目还在早期，TODO 里有很多想做的：

Embedding 模型缓存（更精准的语义匹配）
A/B 测试（对比不同模型的回答质量）
多租户成本分摊（按部门/项目统计）

但核心功能已经能用了。如果你每月 API 花费超过 ¥1000，值得试试。

GitHub: https://github.com/Vincent-crypto-coder/llm-cost-optimizer

觉得有用的话，给个 ⭐ 吧！

亚马逊云科技技术品牌专区

更多推荐

云计算资源分享与下载

视频和相关社区网站的介绍，但是由于我比较热衷于微软的Azure平台的研究和推广，针对其他厂商的云计算产品，我只是很粗浅的了解了其概念及简单使用，并没有做深入的研究，所以如果后续发布的云计算相关文章也会集中在Azure上。

亚马逊云科技技术品牌专区

虚拟化技术深度解析：从底层原理到产业实践，读懂云计算的核心基石

文章摘要虚拟化技术作为云计算的核心基础，经历了从大型机到云原生的演进历程。本文系统梳理了虚拟化的技术脉络：从解决物理机资源浪费的初衷出发，阐述了Hypervisor的资源隔离原理，对比了TypeI和TypeII两种架构特性，并深入分析了KVM、Docker等典型技术方案。虚拟化的本质是对计算资源的抽象，通过屏蔽硬件细节实现灵活调度。文章最后以OpenStack私有云搭建为例展示了虚拟化实践，并指

亚马逊云科技技术品牌专区

国内汽车后市场AI营销创新品牌的服务模式解析

这是一种利用人工智能技术分析用户行为和数据，为汽车维修、保养及检测等服务商提供精准获客与运营支持的数字化解决方案。与传统依赖经验判断或广撒网式的营销不同，AI营销通过整合多平台数据，能够更敏锐地识别潜在车主的需求节点（如年检周期提醒、保养里程预测）。它不仅能自动化生成适配的内容素材、优化投放策略，还能有效连接线上流量与线下门店服务，致力于实现从线索获取到最终成交的全链路闭环管理。