qq_39167407 个人主页

qq_39167407

2023-03-11 15:04:06 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

你们团队现在的大模型评测是怎么做的？如果你愿意，我下一篇可以继续写一版“基于 Python + Streamlit 搭建轻量 LLM 评测平台”的可复现实战。

你们线上多模型路由现在是静态主备，还是已经做了动态评分？如果你愿意，我下一篇可以继续写一版基于 FastAPI + Redis + Prometheus 的最小可运行 Demo。

你们团队现在的 Code Review，最耗时的是哪一类问题？如果你也在做 LLM 审查助手，欢迎把你的评估指标或踩坑点发在评论区，我可以再写一篇对照实验和回归测试方案。

你们线上做结构化输出时，最常见的失败是哪一类：代码块包裹、字段漂移，还是枚举值越界？如果你愿意，我下一篇可以继续写一版 FastAPI + Pydantic + OpenAI/通义千问兼容实现。

你们线上漂移监控现在主要看哪些指标？如果你愿意，我下一篇可以继续写“模型裁判在线校准与人工抽检配比”的实测方案。

你们线上遇到过哪种上下文失控问题？是长对话、RAG 文档过多，还是工具返回太长？欢迎把场景贴在评论区，我可以按真实问题继续补一版评测与治理细节。

你们现在做大模型离线评测时，最大的卡点是在抽样、标注，还是指标设计？欢迎在评论区贴一段你的评测流程，我可以按工程实现角度帮你看看。

你们线上最常见的结构化输出异常是哪一种？是 JSON 解析失败、字段缺失，还是枚举值漂移？欢迎把场景和报错贴出来，我可以按工程实践给你一版可复现的治理方案。

到底了