
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本文提出HeteroInfer系统,针对移动SoC加速异构LLM推理进行优化。系统采用阶段特异性策略:prefill阶段最大化计算吞吐,decoding阶段优化内存带宽利用率。通过GPU-NPU协同计算,实现层级和细粒度张量级并行,并设计快速同步机制降低异构计算开销。实验表明,相比现有方案,HeteroInfer在端到端性能上提升1.34-6.02倍,同时降低55%能耗。该系统有效解决了移动
本文提出LLM-NPU框架,旨在优化低功耗神经处理单元(NPU)上的大型语言模型(LLM)推理。针对NPU原为视觉任务设计而面临的LLM适配挑战——包括参数量大、KV缓存增长、动态序列长度等问题,作者提出软件和硬件协同优化方案。软件侧通过算子融合、权重量化、KV缓存压缩、静态形状推理和推测解码等技术,显著降低内存瓶颈;硬件侧则探讨面向LLM的专用NPU架构演进方向,包括近内存计算、扩展累加深度、结
本文探讨了利用大语言模型(LLM)自动化分析EDA综合日志的创新方法。研究针对传统调试过程中人工分析冗长、格式不统一的综合日志效率低下的问题,提出了三种解决方案: 日志结构化处理:通过GPT-4实现表格提取和关键信息定位,提出"一次性表格描述学习"方法,使系统能够适应不同格式的日志文件。 混合调试方法:结合规则脚本和LLM分析,相比纯RAG方法将问题检测准确率从56%提升到10
本文提出了一种端到端硬件功能验证自动化系统UCAgent,通过三大创新机制解决现有LLM验证方法的局限性:1)采用Python验证环境替代传统HDL,降低LLM生成难度;2)细粒度31阶段工作流实现渐进式验证;3)引入验证一致性标签机制(VCLM)确保规格、覆盖模型和测试用例的语义闭环。实验表明,该系统在多个模块上实现了86%-100%的功能覆盖率,并能发现边界条件错误。相比传统方法,UCAgen
摘要:本文提出AscendOptimizer系统,针对华为Ascend NPU的AscendC算子优化难题,通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program:Stage I采用进化搜索优化tiling策略,利用硬件反馈探索可行解空间;Stage II通过"优化回退"机制从优质kernel反向构
本文综述了大型语言模型(LLM)在电子设计自动化(EDA)中的应用现状与发展趋势。首先分析了传统EDA工具面临的挑战,指出LLM在提高效率、准确性和减少人工错误方面的潜力。文章构建了四象限分类框架(语言-代码/代码-语言/代码-代码/语言-语言),系统梳理了LLM在EDA流程中的主要应用方向:代码生成(包括HDL、系统级设计、流程脚本等)、验证调试(断言生成、测试平台构建、安全验证等)、知识管理(
摘要:本文提出AscendOptimizer系统,针对华为Ascend NPU的AscendC算子优化难题,通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program:Stage I采用进化搜索优化tiling策略,利用硬件反馈探索可行解空间;Stage II通过"优化回退"机制从优质kernel反向构
阿里巴巴2026年论文《MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?》研究了利用大语言模型(LLMs)为移动设备生成高效内核(kernel)的可行性。研究发现,与服务器端内核开发不同,移动端面临兼容性优先、工程复杂性和数据稀缺三大挑战。为此,论文提出了MobileKernelBench基准测试和MoK
本文提出KernelCraft基准测试框架,用于评估LLM智能体在新兴硬件平台上生成底层汇编级计算内核的能力。该框架重点关注缺乏成熟生态的新硬件,要求智能体仅基于自然语言任务描述、ISA文档和硬件配置,通过诊断-修复循环生成功能正确且优化的内核代码。实验表明,前沿模型能在部分基础任务上达到55%成功率,并能优化编译器模板性能,但在复杂任务和专家级优化上仍有显著差距。研究还发现文档质量、推理深度和工
本文提出AscendKernelGen框架,研究如何利用大语言模型自动生成NPU内核代码,并确保生成代码可编译、功能正确且性能优化。针对通用LLM在硬件专用代码生成上的不足,作者构建了包含文档推理、代码推理的Ascend-CoT数据集,开发了KernelGen-LM模型,并设计了NPUKernelBench评测体系。实验表明,经过领域自适应训练的模型在中等复杂度任务上表现优异(Level2执行率6







