logo
publist
写文章

简介

首个存内计算开发者社区,基于知存科技领先的存内技术,涵盖最丰富的存内计算内容,以存内技术为核心,史无前例的技术开源内容,囊括云/边/端侧商业化应用解析以及新技术趋势洞察等, 邀请业内大咖定期举办线下存内workshop,实战演练体验前沿架构;从理论到实践,做为最佳窗口,存内计算让你触手可及。传送门:https://bbs.csdn.net/forums/computinginmemory?category=10003;

擅长的技术栈

可提供的服务

暂无可提供的服务

ISSCC论文详解:ISSCC 2024 34.3 “闪电”数模混合存内计算,适应transformer和CNNs架构

图中蓝色为数字计算部分,黄色为模拟计算部分,通过将高位、低位数字单元(HDU与LDU)与高位、低位模拟单元(HAU、LAU),如图所示对其进行排列组合(两个子阵列与HDU和LDU对组合,四个子阵列与HDU和LAU对组合,其余两个子阵列与HAU和LAU对组合),以此来进行高效的INT 8的MAC操作。接下来我们将以创新点2:近似压缩器的设计为重点,从本论文的近似电路仿真出发,介绍近3年的近似计算技术

文章图片
#人工智能#架构#transformer +2
【ISSCC】论文详解-34.6 28nm 72.12TFLOPS/W混合存内计算架构

在基于外积的双模CIM架构中,文章使用了多种方法以提升能效EF,使用CSR格式存储数据以处理稀疏矩阵、执行外积运算以避免使用大扇入的多级加法器树,但是文章在进行双模计算时有着组件空闲的问题,在INT模式下,有关指数、符号数等计算组件处于空闲状态,双模情况下的硬件利用率仍是一个具有挑战性的问题。以具体的乘累加操作为例,如下图2所示,对于W[7:0]×A[7:0]的乘累加操作,首先通过如下所示的公式转

文章图片
#算法#人工智能#机器学习 +2
ISSCC论文详解-2024 ISSCC 34.4 台积电3nm[1]

在这种运算模式中,相较于模拟存算使用模拟值进行累加运算,数字存算电路中的加法树电路消耗巨大的面积,以图中所示电路为例,权重4bit、输入1bit,加法树的第一级就需要采用3个全加器和1个半加器才能完成运算,若电路为64并行度,则需要64个这样的电路,传统意义上1个全加器需要28个晶体管,1个半加器需要20个晶体管,这在电路面积层面的消耗是巨大的,而后续层电路中的加法器个数会在此基础上增加;过去几十

文章图片
#arm开发#硬件工程#材料工程 +3
论文详解:字节万卡集群训练大模型,算力利用率达55.2%

论文:万卡集群训练大模型(by字节跳动)我们介绍了MegaScale的设计、实现和工程经验,这是一个用于训练大语言模型(LLMs)的生产系统,其规模超过10,000个GPU。在这个规模上训练LLMs带来了前所未有的训练效率和稳定性挑战。我们采取全栈方法,共同设计算法和系统组件,涵盖模型块和优化器设计、计算与通信重叠、操作符优化、数据管道和网络性能调优。在生产中,保持整个训练过程的高效率(即稳定性)

文章图片
#人工智能#量子计算#AIGC +3
腾讯发表多模态综述,一文详解多模态大模型

MFN的输入是一个包含N个视图的多视图序列,每个视图的长度为t。有点类似nlp和cv里面的trip loss方式(比较学习),值得注意的是,CMCL中的对比loss是对称的,文本到图像的对比loss也类似。多模态大模型脱胎于大模型的发展,传统的多模态模型面临着巨大的计算开销,而 LLMs 在大量训练后掌握了关于世界的“先验知识”,因而一种自然的想法就是使用 LLMs 作为多模态大模型的先验知识与认

文章图片
#人工智能#AIGC#量子计算
存内计算原理分类——数字存内计算与模拟存内计算

该成果已发表在《Science》上。2022年,国内的知存科技率先量产商用WTM2101芯片,结合了RISC-V指令集与NOR Flash存内计算阵列,使用特殊的电路设计抑制阈值电压漂移对计算精度的影响,可实现低功耗计算与低功耗控制,其阵列结构与芯片架构如图4所示,包括1.8 MB NOR Flash存内计算阵列,一个RISC-V核,一个数字计算加速器组,320 kB RAM以及多种外设接口[5]

文章图片
#分类#数据挖掘#人工智能 +4
存内计算是否可以应用于边缘计算

具体体现在边缘PaaS平台的云边协同能力,包括边缘资源运维管控、应用管理、云管边端的云边协同,利用OpenYurt提供的容器化隔离环境,统一部署Master集群在公有云,将结点下沉到边缘端,并重写结点的心跳检测机制和自治逻辑,以实现边缘容器在稳定的局域网络环境中自运行。随着云边端计算的不断发展,存算架构的优势不断显现,通过赋能边缘计算,相信在不远的将来,存内计算的应用将更为广泛。从以上对云边端计算

文章图片
#边缘计算#人工智能#神经网络 +3
【ISSCC论文详解】-ISSCC.34.5 用于统一加速CNN和Transformers的818-4094 TOPS/W电容可重构CIM宏单元

DDAC路径的重用于电容重置中,减少了晶体管的使用,优化了电路的总体布局。在输入或权重为8bit时,CR-CIM的transformer模块SQNR相较于[2]和[3]提高了22dB,CSNR相较于[2]和[3]至少提高了13dB,CNN模块的SQNR也略有提高,说明了CR-CIM具有优秀的噪声控制能力。(1)电容可重新配置的CIM架构(CR-CIM):支持基于电荷的计算和基于电容的ADC操作以同

文章图片
#cnn#重构#人工智能 +3
字节Coze实现多Agent模式,文内在线体验,实时给产品经理提需求

多Agent模式背后的算力需求通常较高,因为需要同时处理来自多个智能体的任务和数据。存内计算作为一种新兴的计算架构,能够在存储器阵列内完成逻辑运算,避免存储器和处理器之间频繁的数据搬移操作,从而提升算力,降低功耗。

文章图片
#人工智能#架构#transformer +3
到底了