huggon1 个人主页

@weixin_71945758

huggon1

2024-04-15 10:37:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

MindSpore 常用方法总结

操作方式差异MindSpore: 大部分ops需要先创建实例才能使用add_op = ops.Add()PyTorch: 可以直接调用函数result = torch.add(a, b)# 或 a + b。

#pytorch #人工智能 #python +1

从旋转位置编码RoPE到YaRN的原理与实现

旋转位置编码（RoPE）是当前大模型的主流位置编码方法，相比传统正余弦位置编码具有更好的外推能力。RoPE通过旋转矩阵将位置信息嵌入到查询和键向量中，能显式保留相对位置关系。其核心思想是将位置编码转化为旋转操作，使注意力分数仅依赖相对位置差而非绝对位置。实现时，先计算分层频率并生成旋转角度矩阵，然后对输入向量进行旋转变换。RoPE支持序列长度的平滑扩展，解决了长上下文建模的难题，已成为LLM的标准

#pytorch #人工智能 #算法

大模型常用激活函数总结

【代码】大模型常用激活函数总结。

#pytorch #深度学习 #人工智能

在pytorch中使用自定义的cuda算子

本文完整演示了在PyTorch中集成自定义CUDA算子的标准流程，重点展示如何通过JIT编译机制实现自定义的cuda算子的开发与验证。核函数声明（sgemm.h）：作为C++与CUDA的接口桥梁，声明设备函数原型。PyTorch扩展绑定（sgemm.cpp）CUDA核函数实现（sgemm.cu）Python测试模块（main.py）.cpp文件：pybind绑定。.cu文件：具体的内核实现。.py

#pytorch #人工智能 #python

从旋转位置编码RoPE到YaRN的原理与实现

#pytorch #人工智能 #算法

到底了