
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
你们团队现在的大模型评测是怎么做的?如果你愿意,我下一篇可以继续写一版“基于 Python + Streamlit 搭建轻量 LLM 评测平台”的可复现实战。
你们线上多模型路由现在是静态主备,还是已经做了动态评分?如果你愿意,我下一篇可以继续写一版基于 FastAPI + Redis + Prometheus 的最小可运行 Demo。
你们团队现在的 Code Review,最耗时的是哪一类问题?如果你也在做 LLM 审查助手,欢迎把你的评估指标或踩坑点发在评论区,我可以再写一篇对照实验和回归测试方案。
你们线上做结构化输出时,最常见的失败是哪一类:代码块包裹、字段漂移,还是枚举值越界?如果你愿意,我下一篇可以继续写一版 FastAPI + Pydantic + OpenAI/通义 千问兼容实现。
你们线上做结构化输出时,最常见的失败是哪一类:代码块包裹、字段漂移,还是枚举值越界?如果你愿意,我下一篇可以继续写一版 FastAPI + Pydantic + OpenAI/通义 千问兼容实现。
你们线上漂移监控现在主要看哪些指标?如果你愿意,我下一篇可以继续写“模型裁判在线校准与人工抽检配比”的实测方案。
你们线上遇到过哪种上下文失控问题?是长对话、RAG 文档过多,还是工具返回太长?欢迎把场景贴在评论区,我可以按真实问题继续补一版评测与治理细节。
你们现在做大模型离线评测时,最大的卡点是在抽样、标注,还是指标设计?欢迎在评论区贴一段你的评测流程,我可以按工程实现角度帮你看看。
你们线上最常见的结构化输出异常是哪一种?是 JSON 解析失败、字段缺失,还是枚举值漂移?欢迎把场景和报错贴出来,我可以按工程实践给你一版可复现的治理方案。







