
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大模型测评分享功能的设计和实现是一个复杂而重要的工程,它不仅仅是技术实现,更是对业务需求、用户体验、安全保障的综合考量。业务价值:分享功能解决了评测结果传播和协作的核心痛点,提高了工作效率和决策质量。技术架构:采用分层架构设计,确保了系统的可扩展性、可维护性和高性能。安全保障:多层次的安全控制机制,保护了敏感数据的安全性和访问的可控性。用户体验:从分享创建到结果展示的全流程优化,提供了流畅、直观的

大模型测评工具选型指南 当前大模型评估面临公平性、准确性与效率的挑战,主流测评工具各有侧重: 综合评估:商汤OpenCompass支持分布式多模型对比,适合企业级评测; 性能优化:LMDeploy专注推理延迟/吞吐测试; 代码能力:EvalPlus提供代码生成全流程验证; 自动化评分:清华PrometheusEval利用LLM进行问答打分; 工程部署:EvalScope擅长API并发测试。 选型建
本文介绍了AI模型评测系统中的两项关键技术:Chat ID和TTFT(首次响应时间)。Chat ID通过为每次模型调用生成唯一标识,实现了全链路追踪和与Langfuse分析平台的深度集成,解决了评测过程的可观测性问题。系统采用结构化响应格式和多模型统一管理策略,支持上下文对话的关联分析。TTFT则精确测量响应时间,为性能优化提供数据支撑。这两项技术的结合构建了一个透明、可观测的AI模型评测体系,能

摘要: 本文以AI模型测评平台工程化实践为核心,系统阐述了从目标定义到代码落地的闭环流程。通过四类核心角色(算法、工程、产品、管理)的需求分析,明确测评对象与粒度(数据集、题目、模型、裁判模型),并将"好不好"拆解为6类可度量维度(准确性、稳定性、成本等)。重点提出"评分口径即代码"的理念,通过文件级与系统默认提示词的双层管理,结合JSON强约束协议,确保测
Whisper-CTranslate2革新语音识别技术,大幅降低硬件门槛并提升处理速度。该工具基于CTranslate2引擎优化OpenAI Whisper模型,使CPU处理1小时音频仅需5分钟,内存占用降低70%以上。性能测试显示,在普通CPU上其速度甚至超过原版GPU运行效果,而准确率损失仅0.2-0.3%。特别适合处理播客、会议录音等长音频场景,让语音识别从高端GPU需求变为普通电脑即可胜任
本文介绍了一套用于评估大语言模型(LLM)高并发性能的异步压测框架。该框架通过模拟不同并发请求,从吞吐量(QPS)、延迟(P99)、Token生成速度(TPS)和首Token响应时间(TTFT)等多个维度评估模型表现。文章详细解析了核心设计思路,包括Prompt加载器、异步请求处理、并发控制等模块的实现代码,并展示了实际压测结果数据。测试结果表明,随着并发量增加,模型响应延迟上升而TPS下降,但仍

量化是将模型参数从高精度浮点数(如 FP32)转换为低精度表示(如 FP16、INT8、INT4)的技术。📌 举例:原本每个参数用 4 字节(FP32),量化后仅需 0.5 字节(INT4),模型体积缩小 8 倍!剪枝通过识别并移除神经网络中“不重要”的连接或结构,使模型变得更稀疏、更轻量。🔍 研究表明:大模型中大量参数对最终输出影响微弱,可安全移除。让一个小型“学生模型”学习大型“教师模型”
LLM 微调流程常见如下:但真正高效的实践顺序应当是:原因是:选择容易评估的任务,如:选择评估成本可控、有现成数据或可收集的数据集,如:🔑 核心判断标准:任务是否可评估/易评估!评估流程包括:明确任务目标(分类 / 生成)选择合适指标:例如在 GSM8k 上:5. 有没有工具能帮我们评估?✅ 有!推荐使用:lm-evaluation-harness(简称 lm-eval)GitHub 地址:ht
关于python爬虫这方面知识,在网络上有一些教程、文章,很有价值,能够带领新手快速入门。在这里我把自己学习时找到的一些教程列出来,与大家一起分享,欢迎补充!爬虫《一只小爬虫》《一只并发的小爬虫》《Python与简单网络爬虫的编写》《Python写爬虫——抓取网页并解析HTML》《[Python]网络爬虫(一):抓取网页的含义和URL基本构成》