存内计算开发者个人主页

@m0_58966968

存内计算开发者

专注存内计算

2023-08-30 15:54:10 加入 DevPress

简介

首个存内计算开发者社区，基于知存科技领先的存内技术，涵盖最丰富的存内计算内容，以存内技术为核心，史无前例的技术开源内容，囊括云/边/端侧商业化应用解析以及新技术趋势洞察等，邀请业内大咖定期举办线下存内workshop，实战演练体验前沿架构；从理论到实践，做为最佳窗口，存内计算让你触手可及。传送门：https://bbs.csdn.net/forums/computinginmemory?category=10003；

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

ISSCC论文详解：ISSCC 2024 34.3 “闪电”数模混合存内计算，适应transformer和CNNs架构

图中蓝色为数字计算部分，黄色为模拟计算部分，通过将高位、低位数字单元（HDU与LDU）与高位、低位模拟单元（HAU、LAU），如图所示对其进行排列组合（两个子阵列与HDU和LDU对组合，四个子阵列与HDU和LAU对组合，其余两个子阵列与HAU和LAU对组合），以此来进行高效的INT 8的MAC操作。接下来我们将以创新点2：近似压缩器的设计为重点，从本论文的近似电路仿真出发，介绍近3年的近似计算技术

#人工智能 #架构 #transformer +2

【ISSCC】论文详解-34.6 28nm 72.12TFLOPS/W混合存内计算架构

在基于外积的双模CIM架构中，文章使用了多种方法以提升能效EF，使用CSR格式存储数据以处理稀疏矩阵、执行外积运算以避免使用大扇入的多级加法器树，但是文章在进行双模计算时有着组件空闲的问题，在INT模式下，有关指数、符号数等计算组件处于空闲状态，双模情况下的硬件利用率仍是一个具有挑战性的问题。以具体的乘累加操作为例，如下图2所示，对于W[7:0]×A[7:0]的乘累加操作，首先通过如下所示的公式转

#算法 #人工智能 #机器学习 +2

ISSCC论文详解-2024 ISSCC 34.4 台积电3nm[1]

在这种运算模式中，相较于模拟存算使用模拟值进行累加运算，数字存算电路中的加法树电路消耗巨大的面积，以图中所示电路为例，权重4bit、输入1bit，加法树的第一级就需要采用3个全加器和1个半加器才能完成运算，若电路为64并行度，则需要64个这样的电路，传统意义上1个全加器需要28个晶体管，1个半加器需要20个晶体管，这在电路面积层面的消耗是巨大的，而后续层电路中的加法器个数会在此基础上增加；过去几十

#arm开发 #硬件工程 #材料工程 +3

论文详解：字节万卡集群训练大模型，算力利用率达55.2%

论文：万卡集群训练大模型（by字节跳动）我们介绍了MegaScale的设计、实现和工程经验，这是一个用于训练大语言模型（LLMs）的生产系统，其规模超过10,000个GPU。在这个规模上训练LLMs带来了前所未有的训练效率和稳定性挑战。我们采取全栈方法，共同设计算法和系统组件，涵盖模型块和优化器设计、计算与通信重叠、操作符优化、数据管道和网络性能调优。在生产中，保持整个训练过程的高效率（即稳定性）

#人工智能 #量子计算 #AIGC +3

腾讯发表多模态综述，一文详解多模态大模型

MFN的输入是一个包含N个视图的多视图序列，每个视图的长度为t。有点类似nlp和cv里面的trip loss方式（比较学习），值得注意的是，CMCL中的对比loss是对称的，文本到图像的对比loss也类似。多模态大模型脱胎于大模型的发展，传统的多模态模型面临着巨大的计算开销，而 LLMs 在大量训练后掌握了关于世界的“先验知识”，因而一种自然的想法就是使用 LLMs 作为多模态大模型的先验知识与认

#人工智能 #AIGC #量子计算

存内计算原理分类——数字存内计算与模拟存内计算

该成果已发表在《Science》上。2022年，国内的知存科技率先量产商用WTM2101芯片，结合了RISC-V指令集与NOR Flash存内计算阵列，使用特殊的电路设计抑制阈值电压漂移对计算精度的影响，可实现低功耗计算与低功耗控制，其阵列结构与芯片架构如图4所示，包括1.8 MB NOR Flash存内计算阵列，一个RISC-V核，一个数字计算加速器组，320 kB RAM以及多种外设接口[5]

#分类 #数据挖掘 #人工智能 +4

存内计算是否可以应用于边缘计算

具体体现在边缘PaaS平台的云边协同能力，包括边缘资源运维管控、应用管理、云管边端的云边协同，利用OpenYurt提供的容器化隔离环境，统一部署Master集群在公有云，将结点下沉到边缘端，并重写结点的心跳检测机制和自治逻辑，以实现边缘容器在稳定的局域网络环境中自运行。随着云边端计算的不断发展，存算架构的优势不断显现，通过赋能边缘计算，相信在不远的将来，存内计算的应用将更为广泛。从以上对云边端计算

#边缘计算 #人工智能 #神经网络 +3

【ISSCC论文详解】-ISSCC.34.5 用于统一加速CNN和Transformers的818-4094 TOPS/W电容可重构CIM宏单元

DDAC路径的重用于电容重置中，减少了晶体管的使用，优化了电路的总体布局。在输入或权重为8bit时，CR-CIM的transformer模块SQNR相较于[2]和[3]提高了22dB，CSNR相较于[2]和[3]至少提高了13dB，CNN模块的SQNR也略有提高，说明了CR-CIM具有优秀的噪声控制能力。（1）电容可重新配置的CIM架构（CR-CIM）：支持基于电荷的计算和基于电容的ADC操作以同

#cnn #重构 #人工智能 +3

字节Coze实现多Agent模式，文内在线体验，实时给产品经理提需求

多Agent模式背后的算力需求通常较高，因为需要同时处理来自多个智能体的任务和数据。存内计算作为一种新兴的计算架构，能够在存储器阵列内完成逻辑运算，避免存储器和处理器之间频繁的数据搬移操作，从而提升算力，降低功耗。

#人工智能 #架构 #transformer +3

到底了