
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
作者:YZY, QJW, ZYC, LHJ from DeepLink Group @ Shanghai AI Lab。

KernelSwift 把 “大模型偶尔写出好算子” 的偶然事件,变成 “持续、可复现、高性能” 的必然结果。其通过可控的优化迭代框架、分层的反馈体系、多样化的探索策略,让大模型真正成为算子优化的 “智能助手”,结合DeepLink芯片适配的基础和技术能力,既降低了底层优化的技术门槛,又持续推高 AI 系统的性能上限。未来,随着数据飞轮的持续转动,KernelSwift 还将在更多算子场景、更多硬

回顾过往技术实践过程,上海人工智能实验室(上海 AI 实验室)DeepLink 团队产出许多开源成果。2025 年 9 月,DeepLink 团队开源扩展的深度学习编译器,以及面向大模型训练与推理、异构硬件适配的高性能算库。开发者无需手动调优,即可获得接近硬件峰值的性能。面向架构,研究团队通过深度融合,在性能保持无损的同时,突破了跨代迁移难题。

我们使用了逐算子、逐 module 层精度对比工具,以及 loss 曲线比对的方式,排查分析了大模型微调时下游评测精度在 A2 和 CUDA 对不齐的问题。经分析发现和rms_norm存在精度问题,在使用非和使用组合的rms_norm后,loss 曲线可以和 CUDA 对齐,且下游评测任务的平均得分和 CUDA 基本一样。如果你喜欢我们的内容,欢迎我们!也欢迎在评论区与我们互动!你的支持是我们持续

全球人工智能正加速向通用人工智能(AGI)演进,大模型对高效、稳定、低成本的算力需求持续攀升。如能解决多元芯片异构智算集群间算力调度难、利用率低、资源浪费等瓶颈,将为释放异构算力潜能,实现高效协同,为迈向AGI筑牢算力基座。继2025年以,实现跨千公里多智算中心长稳混训千亿参数大模型后,上海人工智能实验室将“战果”拓展至大模型推理环节,于近期推出了(以下简称“DeepLink混推方案”)实现了对。

作者:FR、XHR、ZJC from HPC Group@ Shanghai AI Lab,WZR、CZ和SP from NDS Group@ Shanghai AI Lab。

全球人工智能正加速向通用人工智能(AGI)演进,大模型对高效、稳定、低成本的算力需求持续攀升。如能解决多元芯片异构智算集群间算力调度难、利用率低、资源浪费等瓶颈,将为释放异构算力潜能,实现高效协同,为迈向AGI筑牢算力基座。继2025年以,实现跨千公里多智算中心长稳混训千亿参数大模型后,上海人工智能实验室将“战果”拓展至大模型推理环节,于近期推出了(以下简称“DeepLink混推方案”)实现了对。

Nimbus 精准直击具身仿真合成数据生产的“碎片化、低效率、不稳定”三大痛点,通过创新的四层模块化架构提供了系统级解决方案。其中,调度优化层实现统一的动态流水线并行调度与容错机制,阶段执行层定义合成管线全生命周期的标准化执行抽象,功能组件层完成多类管线组件的归一化封装,后端优化层则针对各类渲染器落地通用型性能优化。这种分层解耦的设计,让统一的调度与优化原语能够无缝适配异构数据生成管线,无需开发者

DeepLink 团队打造首个国产异构算力 PD 分离混合推理方案,通过 PD 分离架构,实现了3款异构芯片的混合推理。此方案利用国产硬件的异构优势,实现 1+1 > 2 的推理效能,为 AI + 制造等场景的规模化落地提供可行路径。

在本篇中,我们转向长期一致性与多轮任务保持这类任务。通过 DeepAgent、Claude Agent SDK 和 MUSE 三条路径,我们看到现代记忆系统正在从“存储”演变为“面向行为链的组织与演化”。真正的 Agent Memory 是一种系统工程,而非单一模块。它牵涉信息表达、结构化组织、检索策略、工具调用链管理、行为一致性维护以及跨会话的经验演化。如何让记忆不仅服务单一任务,还能在更大范围








