logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型应用评测基线建设的工程实践:从任务分层、样本抽样与标注规范到自动化回归评测和版本对比看板

你们团队现在的大模型评测是怎么做的?如果你愿意,我下一篇可以继续写一版“基于 Python + Streamlit 搭建轻量 LLM 评测平台”的可复现实战。

#自动化#回归#android
多模型路由与降级容灾的工程实践:从任务分级、成本/时延预算到熔断切换与效果回放的可复现方案

你们线上多模型路由现在是静态主备,还是已经做了动态评分?如果你愿意,我下一篇可以继续写一版基于 FastAPI + Redis + Prometheus 的最小可运行 Demo。

#人工智能
基于大语言模型的代码审查助手设计与实现:从Diff解析、Prompt约束到结果校验的工程实践

你们团队现在的 Code Review,最耗时的是哪一类问题?如果你也在做 LLM 审查助手,欢迎把你的评估指标或踩坑点发在评论区,我可以再写一篇对照实验和回归测试方案。

#语言模型#elasticsearch#分类
大模型应用中的结构化输出稳定性工程实践:从 JSON Schema 约束到解析兜底与异常样本回放

你们线上做结构化输出时,最常见的失败是哪一类:代码块包裹、字段漂移,还是枚举值越界?如果你愿意,我下一篇可以继续写一版 FastAPI + Pydantic + OpenAI/通义 千问兼容实现。

#json#大数据#人工智能
大模型应用中的结构化输出稳定性工程实践:从 JSON Schema 约束到解析兜底与异常样本回放

你们线上做结构化输出时,最常见的失败是哪一类:代码块包裹、字段漂移,还是枚举值越界?如果你愿意,我下一篇可以继续写一版 FastAPI + Pydantic + OpenAI/通义 千问兼容实现。

#json#大数据#人工智能
大模型评估中的线上漂移监控工程实践:从样本回流、分桶指标看板到告警阈值校准

你们线上漂移监控现在主要看哪些指标?如果你愿意,我下一篇可以继续写“模型裁判在线校准与人工抽检配比”的实测方案。

#人工智能#算法
大模型应用中的上下文窗口治理:从对话压缩、记忆分层到长上下文成本与效果平衡

你们线上遇到过哪种上下文失控问题?是长对话、RAG 文档过多,还是工具返回太长?欢迎把场景贴在评论区,我可以按真实问题继续补一版评测与治理细节。

#windows#服务器#数据库 +1
大模型评测集构建的工程实践:从业务目标拆解、样本分层抽样到高一致性人工标注

你们现在做大模型离线评测时,最大的卡点是在抽样、标注,还是指标设计?欢迎在评论区贴一段你的评测流程,我可以按工程实现角度帮你看看。

#人工智能#算法#大数据
大模型应用中的结构化输出稳定性治理:从 JSON Schema 约束、重试修复到线上异常兜底

你们线上最常见的结构化输出异常是哪一种?是 JSON 解析失败、字段缺失,还是枚举值漂移?欢迎把场景和报错贴出来,我可以按工程实践给你一版可复现的治理方案。

#人工智能#算法#前端 +1
到底了