Hi20240217 个人主页

@m0_61864577

Hi20240217

2024-02-20 21:06:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

通过LLM多轮对话生成单元测试用例

在采用这种方法之前,曾通过本文的方法生成算子组合测试用例。目前所测LLM生成的代码均会出现BUG,且多次交互后仍不能解决.也许随着LLM的更新,这个问题会得到解决.记录备用。

#测试用例

H800多机多卡通信带宽测试

以下代码用于测试GPU多机多卡通信带宽。

#pytorch #GPU

通过redfish协议实现服务器固件升级、从虚拟光驱启动自检盘并等待完成,最后截图保存

新开发的PCIE设备在做服务器适配时,有时需要服务器厂家更新BMC或BIOS固件。同时,我们也希望对PCIE设备做一些检测,最后收集一些信息存档。如果需要处理的服务器很多,通过BMC的界面进行人工操作就会比较麻烦。以下提供了一个脚本,供参考。

#服务器 #python #linux +1

H800基础能力测试

本文记录了H800基础测试步骤及测试结果。

#GPU

Nsight Compute 是怎么计算Roofline的呢

发现Nsight Compute中的Peak Work跟峰值算力对不上.这里进一步分析。

#pytorch

Llama-2-13b-chat-hf单卡、多卡推理

本文演示了Llama-2-13b-chat-hf模型如何下载、单卡推理、多卡推理的步骤及测试结果。

intel-xpu-backend-for-triton绕过pytorch直接调用Unified-Runtime

#pytorch #人工智能 #python

常用大模型服务REST API的使用方法

近几年国内外头部的AI公司相继发布了自己的大模型REST API服务,一些还支持在线体验。如果用python调用各家的REST API,就可以批量测试不同模型的效果本文整理了主要几个大模型提供商的REST API用法,方便集中查阅。

#语言模型

封装SDK时如何隐藏内部符号

在封装SDK,对外提供API时。希望不暴露内部符号,免得产生冲突,给集成带来麻烦.本文演示了二种方法。

#c++#linux

以pytorch pipeline并行为例,分析各kernel的耗时占比及性能瓶颈

以下DEMO演示了,pipeline多卡并行时,如何分析各kernel的耗时占比,如果nccl kernel占比过大,说明GPU有效利用率不高,主要分为以下步骤1.nsys profile 运行4卡pipeline并行demo2.用开源的nsys2json.py将nsys的sqlite-schema转成chrome event格式3.分析chrome event格式,按设备统计各kernel的耗时

#pytorch #人工智能 #python

共 18 条

请选择