logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PyTorch模型轻松迁移昇腾平台:BERT优化与RoPE自定义算子实战

本文介绍了PyTorch模型在昇腾NPU平台的适配优化方法。通过BERT模型迁移和RoPE位置编码算子开发两个实战案例,展示了从基础迁移、精度验证到性能优化的完整流程。测试结果表明:自定义算子性能优异(RoPE算子耗时仅0.78ms),而复杂模型迁移需精细调优(BERT模型出现精度偏差)。文章总结出昇腾平台适配建议:优先优化计算密集型操作,采用渐进式迁移策略,利用平台提供的优化接口和精度保障体系,

文章图片
#pytorch#bert#人工智能 +1
PyTorch模型轻松迁移昇腾平台:BERT优化与RoPE自定义算子实战

本文介绍了PyTorch模型在昇腾NPU平台的适配优化方法。通过BERT模型迁移和RoPE位置编码算子开发两个实战案例,展示了从基础迁移、精度验证到性能优化的完整流程。测试结果表明:自定义算子性能优异(RoPE算子耗时仅0.78ms),而复杂模型迁移需精细调优(BERT模型出现精度偏差)。文章总结出昇腾平台适配建议:优先优化计算密集型操作,采用渐进式迁移策略,利用平台提供的优化接口和精度保障体系,

文章图片
#pytorch#bert#人工智能 +1
PyTorch模型轻松迁移昇腾平台:BERT优化与RoPE自定义算子实战

本文介绍了PyTorch模型在昇腾NPU平台的适配优化方法。通过BERT模型迁移和RoPE位置编码算子开发两个实战案例,展示了从基础迁移、精度验证到性能优化的完整流程。测试结果表明:自定义算子性能优异(RoPE算子耗时仅0.78ms),而复杂模型迁移需精细调优(BERT模型出现精度偏差)。文章总结出昇腾平台适配建议:优先优化计算密集型操作,采用渐进式迁移策略,利用平台提供的优化接口和精度保障体系,

文章图片
#pytorch#bert#人工智能 +1
昇腾Catlass的算子优化:Transformer中小批量矩阵乘法优化与性能提升实践

昇腾CANN推出CATLASS算子模板库,通过分层模块化设计优化GEMM类算子开发。该库将计算过程分解为Device、Kernel等5个层次,提供数据分块、计算单元配置等模块化组件,使开发效率提升50%以上。文章详细介绍了环境配置方法,并通过Transformer小批量矩阵乘法案例展示优化效果:批量32时性能提升2.05倍,且保持100%正确性。CATLASS显著降低了高性能算子开发门槛,特别适合

文章图片
#transformer#矩阵#深度学习 +1
昇腾Catlass的算子优化:Transformer中小批量矩阵乘法优化与性能提升实践

昇腾CANN推出CATLASS算子模板库,通过分层模块化设计优化GEMM类算子开发。该库将计算过程分解为Device、Kernel等5个层次,提供数据分块、计算单元配置等模块化组件,使开发效率提升50%以上。文章详细介绍了环境配置方法,并通过Transformer小批量矩阵乘法案例展示优化效果:批量32时性能提升2.05倍,且保持100%正确性。CATLASS显著降低了高性能算子开发门槛,特别适合

文章图片
#transformer#矩阵#深度学习 +1
昇腾Catlass的算子优化:Transformer中小批量矩阵乘法优化与性能提升实践

昇腾CANN推出CATLASS算子模板库,通过分层模块化设计优化GEMM类算子开发。该库将计算过程分解为Device、Kernel等5个层次,提供数据分块、计算单元配置等模块化组件,使开发效率提升50%以上。文章详细介绍了环境配置方法,并通过Transformer小批量矩阵乘法案例展示优化效果:批量32时性能提升2.05倍,且保持100%正确性。CATLASS显著降低了高性能算子开发门槛,特别适合

文章图片
#transformer#矩阵#深度学习 +1
昇腾Catlass的算子优化:Transformer中小批量矩阵乘法优化与性能提升实践

昇腾CANN推出CATLASS算子模板库,通过分层模块化设计优化GEMM类算子开发。该库将计算过程分解为Device、Kernel等5个层次,提供数据分块、计算单元配置等模块化组件,使开发效率提升50%以上。文章详细介绍了环境配置方法,并通过Transformer小批量矩阵乘法案例展示优化效果:批量32时性能提升2.05倍,且保持100%正确性。CATLASS显著降低了高性能算子开发门槛,特别适合

文章图片
#transformer#矩阵#深度学习 +1
昇腾Catlass的算子优化:Transformer中小批量矩阵乘法优化与性能提升实践

昇腾CANN推出CATLASS算子模板库,通过分层模块化设计优化GEMM类算子开发。该库将计算过程分解为Device、Kernel等5个层次,提供数据分块、计算单元配置等模块化组件,使开发效率提升50%以上。文章详细介绍了环境配置方法,并通过Transformer小批量矩阵乘法案例展示优化效果:批量32时性能提升2.05倍,且保持100%正确性。CATLASS显著降低了高性能算子开发门槛,特别适合

文章图片
#transformer#矩阵#深度学习 +1
从Python到仓颉:手把手迁移你的第一个程序(附环境搭建+编译运行全流程)

随着万物互联与智能时代的到来,作为华为推出的面向全场景应用开发的现代编程语言,仓颉(Cangjie)自发布以来就备受关注。根据仓颉官方文档介绍,它融合了函数式、命令式与面向对象等多种编程范式,强调高效编程、安全可靠、轻松并发、卓越性能四大核心优势。

文章图片
#开发语言#python
Energy期刊论文学习——基于集成学习模型的多源域迁移学习方法用于小样本实车数据锂离子电池SOC估计

Hi,大家好,我是半亩花海。现对领域内一篇SCI一区TOP期刊论文进行阅读,文献记录如下。本文提出一种基于集成学习的多源域迁移学习方法,用于解决小样本实车数据下锂电池SOC估计难题。研究构建包含锂三元、磷酸铁锂电池和实车数据的多源域集,针对不同源域设计差异化预训练模型(BiLSTM适配实验室数据,CNN-LSTM适配实车数据),并创新性地采用LSBoost动态权重融合策略。实验表明,该方法在目标域

文章图片
#论文阅读#集成学习#迁移学习
    共 20 条
  • 1
  • 2
  • 请选择