guiniaosu1992 个人主页

@guiniaosu1992

guiniaosu1992

2026-06-14 21:20:32 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI 实时推理流式预热实战：首字符延迟从 800ms 砍到 200ms

我们/笔者在做即答侠（一款面向求职者的 AI 面试 copilot）时遇到这个问题：早期版本 ASR 收到 finalize 信号后再调 LLM，TTFT 平均 850ms，用户反馈"反应慢，像 Siri"。A: 我们算过：gpt-4o-mini input 0.15 美元/1M token，单次面试 session ~5K input token，浪费 30% 即多花 ~0.0002 美元/se

#人工智能

到底了