
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本项目聚焦于 SerDes 领域中较为常见的模拟电路结构。自 PCIe 5.0 起,业界逐步采用基于 ADC 的全数字架构,但该方向不在本文讨论范围内。由于可参考的模拟电路资料较少且实现工作量较大,本项目仅完成了 TX 发射端电路的实现。
本文介绍了NPX6芯片中16×16 MAC单元在Qwen3大语言模型推理中的应用。MAC阵列主要用于加速矩阵乘法运算,包括QKV投影、注意力分数计算等关键操作。阵列采用16×16结构,支持INT8/BF16/FP16三种数据格式,其中BF16模式每周期可并行产生256个乘积并输出16个部分和。文章详细解析了MAC单元的五级流水线设计、BF16数据格式优势,以及如何将Qwen3的权重矩阵映射到MAC
本文介绍了Qwen3 0.6B大语言模型在NPX6 NPU上的部署方案。NPX6采用16个Slice的多架构设计,每Slice含4096个MAC单元,支持FP16/BF16运算,并配备128KB AM和512KB VM内存。Qwen3 0.6B作为阿里云的轻量级模型(1.2GB BF16参数),需通过分层加载策略适配NPX6的64MB CSM内存。关键算子如Linear映射到MAC阵列,Softm
AMD Vivado™ IP 目录并不支持直接为所有 AMD Spartan™ UltraScale+™、AMD UltraScale™ 和 AMD UltraScale+™ 器件生成该 IP;但是,只要先选择一个与目标器件具有相同收发器类型(UltraScale GTH、UltraScale+ GTH 或 UltraScale+ GTY)的器件,即可随后将该 IP 迁移到目标器件中。由于以下原因
2019 年左右第一次接触AI,深度学习仍被视作机器学习的一个分支,传统算法包括决策树、支持向量机和 Boosting Tree 等。彼时深度学习主要应用在图像检测(如 YOLO)、图像分类等领域,自然语言处理(NLP)尚处早期阶段,多聚焦于词性分析、情感分类和知识图谱等基础任务。2022 年底,ChatGPT 面世,彻底改变了 NLP 与 AI 的发展路线。
我在系列文章(专栏)中用到的工程环境、全部源码与可直接运行的虚拟机统一打包,方便大家学习和使用,以PCIe协议为例,学习从模拟、数字到驱动完整高速串行通信链路。本项目除了实机仿真,还有VCS UVM仿真环境,qemu模拟环境,以及SerDes模拟电路设计与仿真和版图示例(28nm工艺)整体项目和文章专注为高速串行通信,覆盖模拟,版图,数字,驱动, FPGA实机测试等可以获得从算法到数字,模拟的综合
5 Vivado截图
本项目采用 Cadence Virtuoso (版本 IC23.1)作为模拟电路设计平台,工艺库为 UMC 28 nm。Cadence Virtuoso 是 Cadence Design Systems 推出的旗舰级定制 IC 设计平台,专为模拟、混合信号及 RF 芯片开发而设计。它在统一的工作界面中集成原理图输入、版图编辑和参数化单元库,并提供直观的操作体验。
2019 年左右第一次接触AI,深度学习仍被视作机器学习的一个分支,传统算法包括决策树、支持向量机和 Boosting Tree 等。彼时深度学习主要应用在图像检测(如 YOLO)、图像分类等领域,自然语言处理(NLP)尚处早期阶段,多聚焦于词性分析、情感分类和知识图谱等基础任务。2022 年底,ChatGPT 面世,彻底改变了 NLP 与 AI 的发展路线。







