logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

上海AILab发布智能算子迁移系统,多款国产芯片在公开数据集转化通过率可超90%

KernelSwift 把 “大模型偶尔写出好算子” 的偶然事件,变成 “持续、可复现、高性能” 的必然结果。其通过可控的优化迭代框架、分层的反馈体系、多样化的探索策略,让大模型真正成为算子优化的 “智能助手”,结合DeepLink芯片适配的基础和技术能力,既降低了底层优化的技术门槛,又持续推高 AI 系统的性能上限。未来,随着数据飞轮的持续转动,KernelSwift 还将在更多算子场景、更多硬

文章图片
跨芯片统一优化,DLCompiler 与 DLBlas 驱动算子极致表现!

回顾过往技术实践过程,上海人工智能实验室(上海 AI 实验室)DeepLink 团队产出许多开源成果。2025 年 9 月,DeepLink 团队开源扩展的深度学习编译器,以及面向大模型训练与推理、异构硬件适配的高性能算库。开发者无需手动调优,即可获得接近硬件峰值的性能。面向架构,研究团队通过深度融合,在性能保持无损的同时,突破了跨代迁移难题。

文章图片
#人工智能#昇腾#算力
国产芯片上如何排查大模型精度问题?干货经验分享!

我们使用了逐算子、逐 module 层精度对比工具,以及 loss 曲线比对的方式,排查分析了大模型微调时下游评测精度在 A2 和 CUDA 对不齐的问题。经分析发现和rms_norm存在精度问题,在使用非和使用组合的rms_norm后,loss 曲线可以和 CUDA 对齐,且下游评测任务的平均得分和 CUDA 基本一样。如果你喜欢我们的内容,欢迎我们!也欢迎在评论区与我们互动!你的支持是我们持续

文章图片
#人工智能#语言模型
从混训到混推,DeepLink筑牢多元算力赋能“人工智能+”基座

全球人工智能正加速向通用人工智能(AGI)演进,大模型对高效、稳定、低成本的算力需求持续攀升。如能解决多元芯片异构智算集群间算力调度难、利用率低、资源浪费等瓶颈,将为释放异构算力潜能,实现高效协同,为迈向AGI筑牢算力基座。继2025年以,实现跨千公里多智算中心长稳混训千亿参数大模型后,上海人工智能实验室将“战果”拓展至大模型推理环节,于近期推出了(以下简称“DeepLink混推方案”)实现了对。

文章图片
#人工智能
支持变长序列的Mamba-1训练

作者:FR、XHR、ZJC from HPC Group@ Shanghai AI Lab,WZR、CZ和SP from NDS Group@ Shanghai AI Lab。

文章图片
#人工智能#语言模型
从混训到混推,DeepLink筑牢多元算力赋能“人工智能+”基座

全球人工智能正加速向通用人工智能(AGI)演进,大模型对高效、稳定、低成本的算力需求持续攀升。如能解决多元芯片异构智算集群间算力调度难、利用率低、资源浪费等瓶颈,将为释放异构算力潜能,实现高效协同,为迈向AGI筑牢算力基座。继2025年以,实现跨千公里多智算中心长稳混训千亿参数大模型后,上海人工智能实验室将“战果”拓展至大模型推理环节,于近期推出了(以下简称“DeepLink混推方案”)实现了对。

文章图片
#人工智能
从“数据作坊”到“数据工厂”:Nimbus,面向具身合成数据管线的统一生产框架

Nimbus 精准直击具身仿真合成数据生产的“碎片化、低效率、不稳定”三大痛点,通过创新的四层模块化架构提供了系统级解决方案。其中,调度优化层实现统一的动态流水线并行调度与容错机制,阶段执行层定义合成管线全生命周期的标准化执行抽象,功能组件层完成多类管线组件的归一化封装,后端优化层则针对各类渲染器落地通用型性能优化。这种分层解耦的设计,让统一的调度与优化原语能够无缝适配异构数据生成管线,无需开发者

文章图片
#深度学习#性能优化
取长补短,解锁推理性能1+1>2,DeepLink首发:生产级国产异构算力混合推理加速方案

DeepLink 团队打造首个国产异构算力 PD 分离混合推理方案,通过 PD 分离架构,实现了3款异构芯片的混合推理。此方案利用国产硬件的异构优势,实现 1+1 > 2 的推理效能,为 AI + 制造等场景的规模化落地提供可行路径。

文章图片
#开源#人工智能#硬件架构
Agent Memory(下):工作记忆折叠、会话档案化与记忆演化

在本篇中,我们转向长期一致性与多轮任务保持这类任务。通过 DeepAgent、Claude Agent SDK 和 MUSE 三条路径,我们看到现代记忆系统正在从“存储”演变为“面向行为链的组织与演化”。真正的 Agent Memory 是一种系统工程,而非单一模块。它牵涉信息表达、结构化组织、检索策略、工具调用链管理、行为一致性维护以及跨会话的经验演化。如何让记忆不仅服务单一任务,还能在更大范围

文章图片
#人工智能#深度学习
    共 14 条
  • 1
  • 2
  • 请选择