andyguo 个人主页

@gzh0222

andyguo

2023-01-17 11:18:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI模型测评平台工程化实战十二讲（第五讲：大模型测评分享功能：安全、高效的结果展示与协作）

大模型测评分享功能的设计和实现是一个复杂而重要的工程，它不仅仅是技术实现，更是对业务需求、用户体验、安全保障的综合考量。业务价值：分享功能解决了评测结果传播和协作的核心痛点，提高了工作效率和决策质量。技术架构：采用分层架构设计，确保了系统的可扩展性、可维护性和高性能。安全保障：多层次的安全控制机制，保护了敏感数据的安全性和访问的可控性。用户体验：从分享创建到结果展示的全流程优化，提供了流畅、直观的

#人工智能 #安全 #c#

大模型测评工具全面盘点：谁才是你的理想“打分员”？

大模型测评工具选型指南当前大模型评估面临公平性、准确性与效率的挑战，主流测评工具各有侧重：综合评估：商汤OpenCompass支持分布式多模型对比，适合企业级评测；性能优化：LMDeploy专注推理延迟/吞吐测试；代码能力：EvalPlus提供代码生成全流程验证；自动化评分：清华PrometheusEval利用LLM进行问答打分；工程部署：EvalScope擅长API并发测试。选型建

AI模型测评平台工程化实战十二讲（第三讲：Chat ID与TTFT：构建全链路可观测的AI模型评测体系）

本文介绍了AI模型评测系统中的两项关键技术：Chat ID和TTFT（首次响应时间）。Chat ID通过为每次模型调用生成唯一标识，实现了全链路追踪和与Langfuse分析平台的深度集成，解决了评测过程的可观测性问题。系统采用结构化响应格式和多模型统一管理策略，支持上下文对话的关联分析。TTFT则精确测量响应时间，为性能优化提供数据支撑。这两项技术的结合构建了一个透明、可观测的AI模型评测体系，能

#人工智能

AI模型测评平台工程化实战十二讲（第二讲：目标与指标：把“测评”这件事说清楚（需求到蓝图））

摘要：本文以AI模型测评平台工程化实践为核心，系统阐述了从目标定义到代码落地的闭环流程。通过四类核心角色（算法、工程、产品、管理）的需求分析，明确测评对象与粒度（数据集、题目、模型、裁判模型），并将"好不好"拆解为6类可度量维度（准确性、稳定性、成本等）。重点提出"评分口径即代码"的理念，通过文件级与系统默认提示词的双层管理，结合JSON强约束协议，确保测

#数据库 #人工智能

语音识别的速度革命：从 Whisper 到 Whisper-CTranslate2，我经历了什么？

Whisper-CTranslate2革新语音识别技术，大幅降低硬件门槛并提升处理速度。该工具基于CTranslate2引擎优化OpenAI Whisper模型，使CPU处理1小时音频仅需5分钟，内存占用降低70%以上。性能测试显示，在普通CPU上其速度甚至超过原版GPU运行效果，而准确率损失仅0.2-0.3%。特别适合处理播客、会议录音等长音频场景，让语音识别从高端GPU需求变为普通电脑即可胜任

#语音识别 #xcode #人工智能 +1

大模型压测实战：如何评估你的LLM在高并发下的表现？

本文介绍了一套用于评估大语言模型(LLM)高并发性能的异步压测框架。该框架通过模拟不同并发请求，从吞吐量(QPS)、延迟(P99)、Token生成速度(TPS)和首Token响应时间(TTFT)等多个维度评估模型表现。文章详细解析了核心设计思路，包括Prompt加载器、异步请求处理、并发控制等模块的实现代码，并展示了实际压测结果数据。测试结果表明，随着并发量增加，模型响应延迟上升而TPS下降，但仍

#服务器 #运维 #linux +1

大模型压缩三剑客：量化、剪枝与知识蒸馏全解析

量化是将模型参数从高精度浮点数（如 FP32）转换为低精度表示（如 FP16、INT8、INT4）的技术。📌 举例：原本每个参数用 4 字节（FP32），量化后仅需 0.5 字节（INT4），模型体积缩小 8 倍！剪枝通过识别并移除神经网络中“不重要”的连接或结构，使模型变得更稀疏、更轻量。🔍 研究表明：大模型中大量参数对最终输出影响微弱，可安全移除。让一个小型“学生模型”学习大型“教师模型”

#剪枝 #人工智能 #机器学习

LLM微调评估先行：全面掌握 lm-eval 工具的实战与原理

LLM 微调流程常见如下：但真正高效的实践顺序应当是：原因是：选择容易评估的任务，如：选择评估成本可控、有现成数据或可收集的数据集，如：🔑 核心判断标准：任务是否可评估/易评估！评估流程包括：明确任务目标（分类 / 生成）选择合适指标：例如在 GSM8k 上：5. 有没有工具能帮我们评估？✅ 有！推荐使用：lm-evaluation-harness（简称 lm-eval）GitHub 地址：ht

#学习 #人工智能

python爬虫教程大全

关于python爬虫这方面知识，在网络上有一些教程、文章，很有价值，能够带领新手快速入门。在这里我把自己学习时找到的一些教程列出来，与大家一起分享，欢迎补充！爬虫《一只小爬虫》《一只并发的小爬虫》《Python与简单网络爬虫的编写》《Python写爬虫——抓取网页并解析HTML》《[Python]网络爬虫（一）：抓取网页的含义和URL基本构成》

接口测试总结

1.什么是接口测试接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换，传递和控制管理过程，以及系统间的相互逻辑依赖关系等。2.为什么做接口测试首先，节省测试成本，数据模型推算，底层的一个bug能够引发上层的8个左右bug，而且底层的bug很容易引起全网的宕机。相反接口测试能够提供系统复杂度上升情况下

#测试 #单元测试

共 52 条

请选择