logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架

vime 强化学习训练框架使用指南 vime 是专为大规模语言模型(LLM)和视觉语言模型(VLM)强化学习训练设计的开源框架,由GLM团队开发。该框架基于Megatron和vLLM构建,支持多种RL算法和训练场景。 核心功能: 支持GRPO、GSPO、Reinforce++、PPO等多种RL算法 提供异步训练架构,优化GPU利用率 支持MoE模型训练和专家并行 集成vLLM推理引擎实现高吞吐量数

文章图片
#人工智能#深度学习#语言模型
【模型评测】-基于 Claude-CLI 的 Agent 评测指南

本文介绍了使用EvalScope框架评测Claude模型Agent能力的指南,主要包含三种评测方案: General FC函数调用评测:适用于自定义Agent工具评测,支持JSONL格式数据集,可灵活定义工具和测试用例。 Tau2-Bench多轮对话评测:模拟真实用户交互,评估客服类Agent的任务完成能力,支持航空、零售、电信等场景。 BFCL函数调用评测:标准化函数调用评测基准,包含简单调用、

文章图片
#语言模型#人工智能
【模型评测】-基于 Claude-CLI 的 Agent 评测指南

本文介绍了使用EvalScope框架评测Claude模型Agent能力的指南,主要包含三种评测方案: General FC函数调用评测:适用于自定义Agent工具评测,支持JSONL格式数据集,可灵活定义工具和测试用例。 Tau2-Bench多轮对话评测:模拟真实用户交互,评估客服类Agent的任务完成能力,支持航空、零售、电信等场景。 BFCL函数调用评测:标准化函数调用评测基准,包含简单调用、

文章图片
#语言模型#人工智能
【模型评测】-基于 Claude-CLI 的 Agent 评测指南

本文介绍了使用EvalScope框架评测Claude模型Agent能力的指南,主要包含三种评测方案: General FC函数调用评测:适用于自定义Agent工具评测,支持JSONL格式数据集,可灵活定义工具和测试用例。 Tau2-Bench多轮对话评测:模拟真实用户交互,评估客服类Agent的任务完成能力,支持航空、零售、电信等场景。 BFCL函数调用评测:标准化函数调用评测基准,包含简单调用、

文章图片
#语言模型#人工智能
【模型评测】SWE-bench Verified数据集-1-配置评测任务

本文介绍了使用mini-swe-agent工具评测大模型在SWE-bench Verified数据集上的操作指南。主要内容包括:1) 安装步骤,通过pip安装开发模式获取两个CLI命令;2) 核心命令mini-extra swebench的参数说明及使用方法;3) 单条实例调试和批量运行模式;4) 输出结果结构说明和官方评测方法;5) 完整实操流程总结;6) 常见问题解决方法;7) 离线使用方案。

文章图片
#深度学习#人工智能#语言模型
[服务可观测]vllm推理服务指标监控看板搭建手册

摘要:本文介绍了vLLM推理服务监控看板的搭建过程,使用Prometheus+Grafana+vLLM-metrics组件。主要内容包括:1)环境准备,详细说明了Prometheus和Grafana的安装配置步骤;2)看板配置,包含数据源添加和仪表盘导入;3)最终效果展示。通过配置Prometheus采集vLLM服务指标,结合Grafana可视化展示,实现了对vLLM推理服务的实时监控。文章提供了

文章图片
#人工智能
[模型适配]-[多模态生成]-基于昇腾910B部署Qwen-Image-2512

vLLM-Omni框架扩展了多模态支持,实现文本、图像、视频和音频的并行生成。环境配置使用vLLM-Ascend镜像和GitHub代码库,成功安装所需依赖。通过启动vLLM模型推理服务和图形界面,测试了图像生成功能。此外,采用TeaCache和Cache-DiT两种加速方法优化性能,对比显示TeaCache将端到端延迟降低至基准的93.3%,Cache-DiT达到96.6%。该框架显著提升了多模态

文章图片
#人工智能
[推理优化]-[量化]-大模型量化效果评价-Qwen2.5-72B

本文对Qwen2.5-72B-Instruct模型进行了量化效果评测,主要考察精度损失和推理性能。使用msit/msmodelslim工具进行w8a8和w4a16两种量化,并在evalscope工具上进行测试。结果显示:w8a8量化最大精度损失仅0.012,w4a16为0.0261;在性能方面,w8a8在8卡部署时吞吐提升1.46倍,而w4a16性能提升有限,适合并发需求低的场景。测试数据表明,w

文章图片
#人工智能#语言模型
    共 25 条
  • 1
  • 2
  • 3
  • 请选择