
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在采用这种方法之前,曾通过本文的方法生成算子组合测试用例。目前所测LLM生成的代码均会出现BUG,且多次交互后仍不能解决.也许随着LLM的更新,这个问题会得到解决.记录备用。

以下代码用于测试GPU多机多卡通信带宽。

新开发的PCIE设备在做服务器适配时,有时需要服务器厂家更新BMC或BIOS固件。同时,我们也希望对PCIE设备做一些检测,最后收集一些信息存档。如果需要处理的服务器很多,通过BMC的界面进行人工操作就会比较麻烦。以下提供了一个脚本,供参考。

本文记录了H800基础测试步骤及测试结果。

发现Nsight Compute中的Peak Work跟峰值算力对不上.这里进一步分析。

本文演示了Llama-2-13b-chat-hf模型如何下载、单卡推理、多卡推理的步骤及测试结果。

intel-xpu-backend-for-triton绕过pytorch直接调用Unified-Runtime

近几年国内外头部的AI公司相继发布了自己的大模型REST API服务,一些还支持在线体验。如果用python调用各家的REST API,就可以批量测试不同模型的效果本文整理了主要几个大模型提供商的REST API用法,方便集中查阅。

在封装SDK,对外提供API时。希望不暴露内部符号,免得产生冲突,给集成带来麻烦.本文演示了二种方法。

以下DEMO演示了,pipeline多卡并行时,如何分析各kernel的耗时占比,如果nccl kernel占比过大,说明GPU有效利用率不高,主要分为以下步骤1.nsys profile 运行4卡pipeline并行demo2.用开源的nsys2json.py将nsys的sqlite-schema转成chrome event格式3.分析chrome event格式,按设备统计各kernel的耗时
