logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vllm关于riscv的issue和PR梳理

上面issue有人提问是否有riscv的支持,回复是说如果pytorch支持了那么vllm应该可以直接支持。这个issue提到有人想为vllm提供riscv贡献。这个稍早的PR提供的是RVV支持,但是还在拉扯中。这个PR提供的是Riscv的标量支持,已经合入。

#issue#risc-v
【Pytorch】pytorch中内存的计算

常用的pytorch计算环境是包含GPU在内的异构计算环境,因此内存的计算分为CPU内存的计算和GPU内存的计算。

文章图片
#pytorch#人工智能#python
【vscode插件】多行注释

最近在编写C++程序的过程中,笔者发现,vscode默认的多行注释是使用单行注释拼起来的,对于笔者想要突出多行注释,同时便于后续修改的需求无法满足,随体验一下自己开发VSCODE插件。效果就是选中多行文本时,使用Ctrl+/可以使用C++中的多行注释。可以说,整个插件的开发和上线过程非常流畅,基本按照。

文章图片
#vscode#ide#编辑器
【pytorch】昇思大模型配置python的conda版本

比如算子开发文档中推荐的python版本是3.7.5,比较老,使用清华源无法安装。把最后的conda activate jupyter改成下面两行。这样python --version的信息就是3.7.5.,如果python的版本比较老的话不推荐使用清华源。之后就是比较重要的,修改~/.bashrc。首先,切换conda的源,可以参考这篇。

文章图片
#python#pytorch#conda
【AscendC算子开发】笔记2 算子高级开发和调试调优

为什么gdb调试无法成功,因为run.sh里面有两行export,如果直接通过.XX运行的话需要配置一下。Tensor也可以通过特定的printf方法来打印,见上图。npu域也支持调试,可以使用上述的方法。内存检测工具见上图。

文章图片
【AscendC】配置ModelArts的算子开发环境

本文不介绍如何获得算子代金券,积极参加社区活动很容易获得。首先是参考官方提供的一个,文中用的镜像源的CANN版本是7.0.RC1,该版本无法适配最新的算子开发示例,也无法适配算子开发课程的8.0.RC2版本,因此需要升级。首先下载开发套件的run包,网址其余的安装依赖无需安装,python版本是合适的。

【AscendC】记录LpNorm的tiling方案中用到的一些变量

LpNorm的官方仓库链接在operator_contrib/LpNormV2CustomSample/FrameworkLaunch/LpNormV2Custom。观察其tiling方案可以看到,有几个比较特殊的变量:pType,pValue,stepSize,unitCount,totalLength。下面结合代码分别对其进行分析。

#人工智能
【AscendC】ReduceSum中指定workLocal大小时如何计算

对于tensor前n个数据计算接口,firstMaxRepeat为count/elementsPerRepeat,比如在half类型下firstMaxRepeat就是count/128,在float类型下为count/64,按需填入,对于count<elementsPerRepeat的场景,firstMaxRepeat就是1。首先注意到api的调用,分为高维切分模式和指定数量模式,两种模式的计算是

文章图片
#人工智能
【AscendC】算子调用API的对齐问题

可以看到,当我指定BufferNum为2且tileNum为128时,会发生报错,提示数据无法对齐,此时一个tiling的计算是8个数据,由于是half类型,即2B大小,因此每次进行拷贝的数据量总计16B,而规定的数据对齐方式为32B,因此会发生报错,得到的结果也会存在错误信息。在NPU侧调试的信息无法输出,如果发生报错也不知道原因。

文章图片
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择