logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

做公开资料整理时,别忽略“失败记录”

《数据采集中的隐形陷阱:如何通过健康检查提升质量》 作者通过一次行业信息汇总的教训,揭示了数据采集工作中容易被忽视的质量隐患。原本看似完整的表格中,隐藏着因脚本自动填充旧数据而导致的时效性错误,这促使作者建立了系统的健康检查机制。文章提出三个关键改进点:1)设计包含访问状态、字段完整度等维度的健康检查模块;2)将稳定连接(如Dataify方案)与清晰日志结合,构建可靠基础环境;3)建立"测试-配置

文章图片
#python#java#前端
CANN ops-cv:异构计算中视觉算子的低延迟设计与硬件资源高效适配实践

ops-cv 不仅是一个视觉算子库,更是实时 AI 系统的基石。它通过算子融合、内存对齐、向量化计算与确定性调度,在预处理、检测、分割等关键路径上实现了数量级的延迟降低。在智能驾驶、工业自动化等对可靠性与实时性要求极高的领域,这种“硬件资源高效适配 + 低延迟设计”的工程范式,不仅提升了系统性能,更保障了业务连续性与用户体验。未来,随着多模态感知与空间智能的发展,ops-cv 将持续扩展其能力边界

文章图片
#CANN
CANN runtime 深度解析:异构计算架构下运行时组件的性能保障与功能增强实现逻辑

CANN runtime 不仅是一个执行引擎,更是异构计算系统的“性能引擎”与“稳定引擎”。它通过深度优化的内存管理、智能调度策略、故障自愈机制,在性能与可靠性之间取得了卓越平衡。在 AI 应用从云端走向边缘、从实验室走向生产的关键节点,这种“高性能 + 高可靠”的运行时设计,不仅是技术进步的体现,更是构建可持续、可扩展 AI 系统的基石。对于每一位致力于构建高效、可靠 AI 系统的工程师而言,深

文章图片
#架构#CANN#transformer +1
CANN ops-transformer:从算子开发到部署的大模型硬件端高效计算实践指南

Attention 分支# 残差 + 归一化# FFN 分支# 第二个残差 + 归一化return x该实现比原始 PyTorch 版本减少 60% 的 kernel launch 次数。不仅仅是一个算子库,更是一套面向大模型的高效计算方法论。它通过“专用设计 + 深度融合 + 工具链支持”,打通了从算子开发到生产部署的全链路,使开发者能够以较低成本释放 AI 硬件的最大潜能。

文章图片
#transformer#深度学习#人工智能 +2
CANN ops-transformer:大模型算子的硬件感知优化与异构计算架构协同设计

计算单元类型(如向量/矩阵/张量核);内存层次结构(寄存器、共享内存、全局内存带宽与容量);指令集支持(如FP16/BF16/INT8加速、特殊数学函数);并行粒度(线程块、流处理器、设备间拓扑)。传统框架通常将这些细节隐藏在运行时之后,导致“一次编写、处处低效”。而则主动建模硬件特征,使算子成为“为特定架构量身定制”的高性能原语。算法开发者与系统工程师共同面向硬件建模,通过全栈协同实现端到端优化

文章图片
#transformer#架构#深度学习
CANN ops-cv:Resize/NMS/卷积等经典视觉算子的硬件端适配与效率提升指南

Resize、NMS 与卷积虽为“经典”算子,却是决定视觉系统成败的“隐形冠军”。CANN ops-cv 通过深入硬件特性、重构计算流程、融合操作语义,将这些基础组件的性能推向极致。对于致力于打造高性能视觉应用的开发者而言,掌握 ops-cv 的使用与调优方法,不仅是技术升级,更是工程竞争力的体现。在 AI 落地从“能用”走向“好用”的今天,底层算子的效率,就是产品的体验。cann组织链接:htt

文章图片
#人工智能#CANN#transformer
CANN ops-cv:面向计算机视觉的 AI 硬件端高效算子库核心架构与开发逻辑

ops-cv 代表了计算机视觉基础软件从“功能正确”到“性能极致”的演进。它不再满足于实现算法,而是深入硬件微架构,通过融合计算、向量化、内存优化与异构调度,将每一帧图像的处理成本降至最低。在 AI 进入“端侧普及”时代的关键节点,这种“硬件端高效适配”的算子开发范式,不仅是性能提升的利器,更是构建可靠、实时、绿色视觉 AI 系统的基石。对于每一位致力于视觉系统优化的工程师而言,理解 ops-cv

文章图片
#人工智能#计算机视觉#架构 +1
CANN ops-transformer 对 RoPE 与 ALiBi 位置编码的原生支持

在现代 Transformer 架构中,位置编码(Positional Encoding)是赋予模型序列顺序感知能力的关键组件。随着大语言模型上下文长度不断突破,传统的绝对位置编码(如 Sinusoidal)已难以满足外推性与长程依赖建模需求。RoPE(Rotary Position Embedding)与ALiBi(Attention with Linear Biases)因其卓越的外推性能和计

文章图片
#人工智能#算法#CANN
CANN ops-cv:全场景视觉任务的硬件端专用算子库深度拆解与调用技巧

使用asc-devkit// Sobel 边缘检测编译后即可在 Python 中调用。

文章图片
#CANN
CANN ops-cv:揭秘视觉算子的硬件感知优化与内存高效利用设计精髓

不仅是一个视觉算子集合,更是一套面向真实部署场景的系统性优化框架。它通过硬件感知建模、内存高效利用、算子深度融合三大支柱,将视觉计算从“能跑”推向“跑得快、跑得省、跑得稳”。在 AI 视觉应用日益普及的今天,ops-cv正成为连接算法创新与硬件加速的关键桥梁,为智能摄像头、自动驾驶、工业质检等场景提供坚实底座。cann组织链接ops-cv仓库链接。

文章图片
#transformer#架构#深度学习 +2
    共 14 条
  • 1
  • 2
  • 请选择