
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了一套用于评估大语言模型(LLM)高并发性能的异步压测框架。该框架通过模拟不同并发请求,从吞吐量(QPS)、延迟(P99)、Token生成速度(TPS)和首Token响应时间(TTFT)等多个维度评估模型表现。文章详细解析了核心设计思路,包括Prompt加载器、异步请求处理、并发控制等模块的实现代码,并展示了实际压测结果数据。测试结果表明,随着并发量增加,模型响应延迟上升而TPS下降,但仍

摘要:随着AI模型评测中单一裁判模型的使用日益普遍,其主观偏差、评分随机性和标准不一致等问题逐渐显现。为提升评测的客观性,本文提出采用多裁判模型测评机制。该机制通过并行调用多个独立裁判模型进行评分,采用一致性判定和自动聚合方法处理结果,并对争议项进行人工复核。研究表明,这种方法能有效减少单一偏见、提高评分置信度,并量化评估稳定性。实践表明,多裁判模型机制显著提升了评测可靠性,同时兼容现有系统流程。

最近要针对大模型进行压力测试,才接触到了大模型推理框架 sglang、vllm,于是要抓紧给自己补补课。随着人工智能技术的不断进步,大规模模型(简称“大模型”)因其在自然语言处理、图像识别等领域的卓越表现而受到了广泛关注。这些模型通常拥有数以亿计甚至更多的参数,能够学习到更加复杂的数据特征和模式。然而,如何有效地部署并运行这些大模型成为了新的挑战。这时,大模型推理框架的作用就显得尤为重要了。
LLM 的命名标识不仅用于区分模型版本,更透露了模型设计目标、技术特性与适用场景。从基础的‑Base、指令微调的‑Instruct,到对话优化的‑Chat、知识蒸馏的‑Distill,再到专注数学、代码的‑Math‑Coder,以及面向图像、视频、音频的‑VL‑Video‑Audio,每个后缀都代表了特定的设计理念。量化、混合专家、强化学习等技术标识,则揭示模型在效率和能力上的优化策略。
LLM 的命名标识不仅用于区分模型版本,更透露了模型设计目标、技术特性与适用场景。从基础的‑Base、指令微调的‑Instruct,到对话优化的‑Chat、知识蒸馏的‑Distill,再到专注数学、代码的‑Math‑Coder,以及面向图像、视频、音频的‑VL‑Video‑Audio,每个后缀都代表了特定的设计理念。量化、混合专家、强化学习等技术标识,则揭示模型在效率和能力上的优化策略。
微调类别核心思想典型方法优点全参数微调更新全部参数,通过监督数据和 RLHF 调整行为SFT + 奖励模型 + RLHF/PPO性能最高,适合复杂任务选择性微调只更新部分权重(偏置、最后几层或自动选出的参数)Freeze Layers、BitFit、PASTA 等参数少、实现简单加性微调在模型层之间插入小型适配器,只更新适配器Bottleneck Adapter、Adapter Fusion、MA

微调类别核心思想典型方法优点全参数微调更新全部参数,通过监督数据和 RLHF 调整行为SFT + 奖励模型 + RLHF/PPO性能最高,适合复杂任务选择性微调只更新部分权重(偏置、最后几层或自动选出的参数)Freeze Layers、BitFit、PASTA 等参数少、实现简单加性微调在模型层之间插入小型适配器,只更新适配器Bottleneck Adapter、Adapter Fusion、MA

微调类别核心思想典型方法优点全参数微调更新全部参数,通过监督数据和 RLHF 调整行为SFT + 奖励模型 + RLHF/PPO性能最高,适合复杂任务选择性微调只更新部分权重(偏置、最后几层或自动选出的参数)Freeze Layers、BitFit、PASTA 等参数少、实现简单加性微调在模型层之间插入小型适配器,只更新适配器Bottleneck Adapter、Adapter Fusion、MA

摘要: Transformer是2017年提出的革命性神经网络架构,通过自注意力机制取代传统RNN/LSTM,实现高效并行处理和长距离依赖捕捉。其核心模块包括嵌入层、位置编码、多头注意力、前馈网络及残差连接,支持编码器-解码器结构。优势在于计算效率高、语义捕捉能力强,但面临O(n²)复杂度、高能耗等挑战。后续发展为大型语言模型(LLM),结合自监督学习、RLHF和多模态能力,推动AI进步,同时需优

大型语言模型(LLMs)已从简单文本处理工具发展为多模态通用智能体,其测评体系也从单一指标扩展到多维度综合评价。本文系统梳理了LLM测评的理论基础、指标体系和实施流程,指出全面测评需覆盖准确性、可靠性、偏见公平性和领域适配等维度。随着模型参数规模扩大,涌现能力使测评重点转向高级认知能力评估,而多模态特性则要求增加工具调用等新指标。文章提出八步测评闭环流程,强调需结合公开基准与业务数据,通过自动指标








