logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

全文 -- TileLang: A Composable Tiled Programming Model for AISystems

现代AI工作负载在训练和推理过程中高度依赖优化的计算内核。这些AI内核遵循明确的数据流模式,例如在DRAM与SRAM之间移动数据块,并对这些数据块执行一系列计算。尽管这些模式清晰可见,编写高性能内核依然复杂。要实现峰值性能,需要以硬件为中心进行细致优化,以充分利用现代加速器。虽然领域专用编译器试图减轻编写高性能内核的负担,但它们在易用性和表达性方面仍存在不足。本文提出TileLang,一种通用的分

#人工智能#量子计算
药物设计中的计算模拟或ai的方法

单纯依靠计算模拟或AI的方法,其核心目标是。。

#人工智能
减少临床实验的医学药物研发的前沿技术综述

各类技术减少临床实验的逻辑可归纳为三个层次源头筛选CADD/AIDD、类器官、器官芯片等技术,在临床前剔除无效 / 高风险药物,减少进入临床的候选物数量;精准设计生物标志物、PK/PD 模型等技术,优化临床实验的人群和方案,提高临床实验的成功率,避免重复实验;替代验证RWS、数字医疗等技术,替代或补充部分传统临床实验,利用现有数据 / 数字技术完成药物的后续验证,减少专门的人体试验。

#量子计算
全文 - Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

通过机器学习,训练出能够找到最优的 LLM 网络结构的超模型。摘要:我们推出了 Jet-Nemotron,一个新的混合架构语言模型系列,它在匹配或超越领先的全注意力模型精度的同时,显著提高了生成吞吐量。Jet-Nemotron 是使用后神经架构搜索(PostNAS)开发的,这是一种新颖的神经架构探索流程,能够实现高效的模型设计。与先前方法不同,PostNAS 从一个预训练的全注意力模型开始,并冻结

#语言模型#人工智能#自然语言处理
全文 - ATLAHS: An Application-centric Network Simulator Toolchain for AI, HPC, and Distributed Storage

网络模拟器在评估大规模系统性能方面发挥着至关重要的作用。然而,现有的模拟器严重依赖合成的微基准测试,或仅狭隘地关注特定领域,限制了其提供全面性能洞察的能力。本工作中,我们介绍了ATLAHS,一个灵活、可扩展且开源的工具链,旨在追踪真实世界的应用程序并精确模拟其工作负载。ATLAHS利用GOAL格式来建模AI、HPC及分布式存储应用中的通信和计算模式。它支持多种网络模拟后端,并能处理多任务和多租户场

#人工智能
ubuntu 20.04 安装使用 nvidia gdrcopy

首先安装 nvidia display driver ,cuda toolkit其次安装依赖工具。

文章图片
#ubuntu
nvidia 显卡硬件文档手册

https://github.com/NVIDIA/open-gpu-doc

cudaMemcpy(Ah, Ad, 1024, D2H) 的执行细节

虚拟地址问题GPU不直接使用Ah这个CPU虚拟地址。驱动程序通过锁定内存和IOMMU映射,将Ah转换为稳定的物理地址,再为GPU提供一个它能够理解的IOVA。Copy Engine角色它是一个高度专业化的DMA控制器,独立于GPU的3D/Compute核心,专门负责在设备与主机之间高效地搬运数据。数据流Ad->->PCIe->GPU GMMU->系统IOMMU->内存控制器->Ah对应的物理内存。

全文分析 e-GPU -- An Open-Source and Configurable RISC-V Graphic Processing Unit for TinyAI Applications

tiny gpu:skybox:ventus gpgpu:vortex gpgpu:virgo gpu:e-GPU:一个用于 TinyAI 应用的开源可配置 RISC-V 图形处理单元图形处理单元(GPU)擅长并行处理,但由于其功耗和面积限制,以及缺乏合适的编程框架,在超低功耗边缘设备(TinyAI)中仍未得到充分探索。为了应对这些挑战,本工作介绍了嵌入式 GPU(e-GPU),一个专为 Tiny

#risc-v
    共 86 条
  • 1
  • 2
  • 3
  • 9
  • 请选择