logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

体系结构论文(105):KernelCraft: Benchmarking for Agentic Close-to-MetalKernel Generation on Emerging Hardw

本文提出KernelCraft基准测试框架,用于评估LLM智能体在新兴硬件平台上生成底层汇编级计算内核的能力。该框架重点关注缺乏成熟生态的新硬件,要求智能体仅基于自然语言任务描述、ISA文档和硬件配置,通过诊断-修复循环生成功能正确且优化的内核代码。实验表明,前沿模型能在部分基础任务上达到55%成功率,并能优化编译器模板性能,但在复杂任务和专家级优化上仍有显著差距。研究还发现文档质量、推理深度和工

#人工智能
体系结构论文(104):AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing

本文提出AscendKernelGen框架,研究如何利用大语言模型自动生成NPU内核代码,并确保生成代码可编译、功能正确且性能优化。针对通用LLM在硬件专用代码生成上的不足,作者构建了包含文档推理、代码推理的Ascend-CoT数据集,开发了KernelGen-LM模型,并设计了NPUKernelBench评测体系。实验表明,经过领域自适应训练的模型在中等复杂度任务上表现优异(Level2执行率6

#深度学习#人工智能
体系结构论文(104):AscendKernelGen: A Systematic Study of LLM-Based Kernel Generation for Neural Processing

本文提出AscendKernelGen框架,研究如何利用大语言模型自动生成NPU内核代码,并确保生成代码可编译、功能正确且性能优化。针对通用LLM在硬件专用代码生成上的不足,作者构建了包含文档推理、代码推理的Ascend-CoT数据集,开发了KernelGen-LM模型,并设计了NPUKernelBench评测体系。实验表明,经过领域自适应训练的模型在中等复杂度任务上表现优异(Level2执行率6

#深度学习#人工智能
体系结构论文(103):AKG Kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis

这篇文章的定位很清楚:它想做的是一个 cross-platform kernel synthesis framework,而不是只在某个 benchmark 上生成一个快 kernel。这对于跨平台 kernel synthesis 很关键。这里可以看出一个很重要的事实:AKG kernel agent 的 correctness 成绩很亮眼,但性能上并不是“全面碾压”。这篇文章讨论的是一个很明确

#人工智能#大数据
体系结构论文(103):AKG Kernel Agent: A Multi-Agent Framework for Cross-Platform Kernel Synthesis

这篇文章的定位很清楚:它想做的是一个 cross-platform kernel synthesis framework,而不是只在某个 benchmark 上生成一个快 kernel。这对于跨平台 kernel synthesis 很关键。这里可以看出一个很重要的事实:AKG kernel agent 的 correctness 成绩很亮眼,但性能上并不是“全面碾压”。这篇文章讨论的是一个很明确

#人工智能#大数据
体系结构论文(102):KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI Accelerators at Meta

Meta提出KernelEvolve系统,解决超大规模推荐系统中多模型、多硬件平台下的kernel自动生成与优化问题。该系统基于Triton框架,通过树搜索算法结合LLM生成器,实现跨NVIDIA/AMD GPU及自研MTIA加速器的kernel自动优化。实验显示,在160个公开算子测试中实现100%正确率,并在生产环境中取得1.2-17倍性能提升。系统创新性地采用统一评估框架和知识库检索机制,显

#人工智能#语言模型#自然语言处理
体系结构论文(101):Agentic AI-based Coverage Closure for Formal Verification

这篇文章探讨了如何利用agentic AI提升形式化验证中的覆盖率闭合(coverage closure)。作者在现有Saarthi agent框架基础上,新增了两个覆盖相关agent:一个分析覆盖率报告并定位未覆盖区域,另一个基于分析结果生成新的SystemVerilog断言。通过迭代执行"分析-生成-验证"流程,系统能自动补全RTL设计中未覆盖的区域。实验表明,该方法在多个

#人工智能#bug#语言模型
体系结构论文(一百):ProofWright: Towards Agentic Formal Verification of CUDA

《ProofWright:面向CUDA的形式化验证代理框架》提出了一种针对LLM生成CUDA代码的可信性验证方案。该研究指出当前AI生成的CUDA代码存在严重安全隐患,仅靠编译测试无法确保内存安全、线程安全和语义正确性。为此,作者开发了包含两个核心组件的验证系统:基于VerCors的代理验证框架(实现74%的memory/thread safety验证率)和语义等价证明框架(14%完整语义验证率)

#论文阅读#语言模型#人工智能
体系结构论文(九十九):Large Language Models (LLMs) for Electronic Design Automation (EDA)

本文是一篇关于大型语言模型(LLM)在电子设计自动化(EDA)全流程中应用的综述论文。作者系统梳理了LLM在芯片设计各环节的渗透情况,从前端规格设计、RTL生成、验证测试到逻辑综合、物理实现和系统级测试。文章指出EDA流程中大量文本化中间产物(如Verilog代码、测试脚本等)与LLM的文本处理能力高度契合,并总结了当前LLM在EDA中的两大主要应用:代码/脚本生成和专家经验自动化。通过典型案例分

#语言模型#人工智能#自然语言处理
体系结构论文(九十八):NPUEval: Optimizing NPU Kernels with LLMs and Open Source Compilers

摘要:本研究提出NPUEval基准测试,旨在评估大语言模型(LLM)生成高效NPU内核代码的能力。与仅关注功能正确性的测试不同,NPUEval额外评估代码能否在真实NPU硬件上运行、结果正确性及向量化程度。研究采用AMD NPU硬件和开源编译器栈,构建包含102个机器学习算子的数据集,提供任务描述、数据流信息和参考实现。实验显示,现有模型虽能生成功能正确代码,但平均向量化率仅约10%,表明LLM尚

#人工智能#深度学习#自然语言处理
    共 22 条
  • 1
  • 2
  • 3
  • 请选择