logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一个插件,国内直接使用Claude Opus 4.7

Opus 4.7支持更高分辨率的视觉输入,加入自动化流程后,意味着模型可以像人一样操作电脑,例如使用浏览器、点击网页、填写表单、读取界面信息等。如果你身处非Claude官方指定支持的区域,那么Claude官网的套餐显然是不划算的,更别提国内用户还面临着注册、支付、封号的门槛。这里的文档推理指的是模型不仅能读取文档内容,还能理解其中的结构、表格、条款、上下文关系,并据此回答问题、提取信息或进行判断。

文章图片
#人工智能
Gemini 3.0 多模态实测:国内直连攻略+DeepSider快速接入完整教程

它聚合了最新的Gemini 3.0 Pro和Gemini 3.0 Pro Thinking,以及Sora 2,GPT-5,Claude 4.5,Nano Banana 2,Grok4......等几十款全球热门的AI大模型。经实测,只花了3分钟不到,DeepSider接入的Gemini 3.0 Pro就成功跑出了完整的1600多行代码!可以看到,Gemini 3.0 Pro正确地理解了用户要求,动

文章图片
#人工智能
Catlass 模板库调试调优经验与踩坑记录

作为开发者,我深深感受到 Catlass 作为一个强大的模板库,虽然上手确实有一定门槛,但一旦掌握了它的调试和调优方法,我就能充分释放昇腾 NPU 的澎湃算力。每次调整 Tile 大小、优化流水线策略、精细控制缓存和指令调度,都能让我直观地看到性能提升带来的巨大差异。各位开发者在做Catlass的开发的时候,我强烈建议大家可以先掌握一下Catlass 的调试技术,我一直认为代码3分靠写,7分靠调。

文章图片
#服务器#数据库
CANN Runtime 仓库深度工程解析:上下文生命周期、高并发调度与异构资源的原生仲裁机制

CANN Runtime 不仅是执行环境,更是系统性能和稳定性的基石。其深度体现在对显存的定制化池化管理、基于 Event 的高效异步调度、对硬件对齐的严格遵守,以及对性能和错误的全面可观测性。Runtime 成功地将复杂的硬件资源管理和并发控制抽象化,为上层应用提供了高性能、隔离性强的计算基础。

#网络#架构#c语言
CANN SHMEM 深度解析:PGAS 编程模型与单边通信的极致性能

在超大规模分布式 AI 集群中,通信模式的选择直接影响系统的可扩展性。库通过将 OpenSHMEM 标准与异构计算架构的物理特性相结合,为开发者提供了一种基于的高性能通信方案。其核心优势在于单边通信(One-sided Communication)机制,允许处理单元(PE)在不依赖目标 PE 任何软件参与的情况下,直接完成对远端显存的读写,从而实现极低延迟的数据交互。

#分布式
CANN SHMEM 深度解析:PGAS 编程模型与单边通信的极致性能

在超大规模分布式 AI 计算中,集合通信(如 AllReduce)虽然高效,但其同步机制对于细粒度的、非规则的访存模式(如图计算、稀疏更新)显得过于僵硬。库正是为解决这一挑战而设计。它基于 OpenSHMEM 标准,引入了编程模型,实现了跨设备显存的直接单边通信(One-sided Communication),极大地降低了数据交互的延迟和同步开销。

#c语言#开发语言
CANN HCOMM 底层架构深度解析:异构集群通信域管理、硬件链路使能与算力重叠优化机制

在超大规模模型训练中,计算集群的扩展性取决于节点间数据交互的效率。HCOMM 作为计算架构中集合通信算法的底层支撑库,负责管理复杂的物理链路并提供高效的内存访问模式。通过对硬件资源的深度调度,它为分布式训练构建了支撑万卡集群协同工作的高带宽、低延迟逻辑网络。

#架构
CANN ops-math 算子库深度解析:数学原子算子的指令流水线调度、存储对齐与数值稳定性机制

在神经网络的执行图中,数学基础算子扮演着“数字地基”的角色。卷积和矩阵乘法固然占据了大部分算力,但激活函数、归一化以及各类损失函数的计算逻辑则完全依赖于这些原子操作。ops-math通过底层指令集(Intrinsics)将数学公式直接映射为硬件微指令。相比于通用计算库,它绕过了复杂的抽象层,直接在寄存器级别进行数据流转。无论是标量操作还是张量运算,库内算子均遵循统一的编程模型,确保了逻辑的高度一致

CANN Ascend C 编程语言深度解析:异构并行架构、显式存储层级与指令级精细化控制机制

Ascend C 提供了全局同步原语,用于确保所有核心在进行下一步操作(如结果写回 Global Memory)之前,都完成了各自的分片计算。它基于 C/C++ 语法,通过引入特殊的类型和内置函数,赋予开发者直接管理计算核心算力、DMA 引擎和片上内存(Unified Buffer, UB)的能力,从而将算子的执行效率推向极致。开发者必须使用特定的修饰符来定义函数的运行环境,确保编译器选择正确的异

#c语言#架构#开发语言
CANN ascend-transformer-boost 深度解析:针对大模型的高性能融合算子库与算力优化机制

库是专为 Transformer 架构设计的高级加速层。它超越了通用算子组合,通过对硬件指令集、内存层级和 KV 缓存管理的深度定制,解决了 LLM 推理中和这两大核心瓶颈。

#transformer#深度学习#人工智能
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择