
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
vime 强化学习训练框架使用指南 vime 是专为大规模语言模型(LLM)和视觉语言模型(VLM)强化学习训练设计的开源框架,由GLM团队开发。该框架基于Megatron和vLLM构建,支持多种RL算法和训练场景。 核心功能: 支持GRPO、GSPO、Reinforce++、PPO等多种RL算法 提供异步训练架构,优化GPU利用率 支持MoE模型训练和专家并行 集成vLLM推理引擎实现高吞吐量数

本文介绍了使用EvalScope框架评测Claude模型Agent能力的指南,主要包含三种评测方案: General FC函数调用评测:适用于自定义Agent工具评测,支持JSONL格式数据集,可灵活定义工具和测试用例。 Tau2-Bench多轮对话评测:模拟真实用户交互,评估客服类Agent的任务完成能力,支持航空、零售、电信等场景。 BFCL函数调用评测:标准化函数调用评测基准,包含简单调用、

本文介绍了使用EvalScope框架评测Claude模型Agent能力的指南,主要包含三种评测方案: General FC函数调用评测:适用于自定义Agent工具评测,支持JSONL格式数据集,可灵活定义工具和测试用例。 Tau2-Bench多轮对话评测:模拟真实用户交互,评估客服类Agent的任务完成能力,支持航空、零售、电信等场景。 BFCL函数调用评测:标准化函数调用评测基准,包含简单调用、

本文介绍了使用EvalScope框架评测Claude模型Agent能力的指南,主要包含三种评测方案: General FC函数调用评测:适用于自定义Agent工具评测,支持JSONL格式数据集,可灵活定义工具和测试用例。 Tau2-Bench多轮对话评测:模拟真实用户交互,评估客服类Agent的任务完成能力,支持航空、零售、电信等场景。 BFCL函数调用评测:标准化函数调用评测基准,包含简单调用、

本文介绍了使用mini-swe-agent工具评测大模型在SWE-bench Verified数据集上的操作指南。主要内容包括:1) 安装步骤,通过pip安装开发模式获取两个CLI命令;2) 核心命令mini-extra swebench的参数说明及使用方法;3) 单条实例调试和批量运行模式;4) 输出结果结构说明和官方评测方法;5) 完整实操流程总结;6) 常见问题解决方法;7) 离线使用方案。

摘要:本文介绍了vLLM推理服务监控看板的搭建过程,使用Prometheus+Grafana+vLLM-metrics组件。主要内容包括:1)环境准备,详细说明了Prometheus和Grafana的安装配置步骤;2)看板配置,包含数据源添加和仪表盘导入;3)最终效果展示。通过配置Prometheus采集vLLM服务指标,结合Grafana可视化展示,实现了对vLLM推理服务的实时监控。文章提供了

vscode搭建cuda调试环境

vLLM-Omni框架扩展了多模态支持,实现文本、图像、视频和音频的并行生成。环境配置使用vLLM-Ascend镜像和GitHub代码库,成功安装所需依赖。通过启动vLLM模型推理服务和图形界面,测试了图像生成功能。此外,采用TeaCache和Cache-DiT两种加速方法优化性能,对比显示TeaCache将端到端延迟降低至基准的93.3%,Cache-DiT达到96.6%。该框架显著提升了多模态

本文对Qwen2.5-72B-Instruct模型进行了量化效果评测,主要考察精度损失和推理性能。使用msit/msmodelslim工具进行w8a8和w4a16两种量化,并在evalscope工具上进行测试。结果显示:w8a8量化最大精度损失仅0.012,w4a16为0.0261;在性能方面,w8a8在8卡部署时吞吐提升1.46倍,而w4a16性能提升有限,适合并发需求低的场景。测试数据表明,w









