logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

梯度下降法为什么有效?简单证明

如果你是初学者,这篇文章会像一个温柔的导游,带你一步步理解为什么它能“聪明”地找到函数的最优解;如果你有数学背景,你会发现这里藏着泰勒展开的精妙推导和一阶近似的深刻洞见。

#语言模型#人工智能
LANA(Latency-Aware Network Acceleration):基于神经架构搜索的延迟感知网络加速技术

LANA通过创新的两阶段框架和整数线性优化,显著提升了神经网络加速的效率和效果。其逐层操作、超大搜索空间支持以及快速搜索能力,为深度学习研究者提供了宝贵的参考。

文章图片
#机器学习#人工智能#语言模型 +1
芝柏(Girard-Perregaux):瑞士高级制表的创新先驱(中英双语)

From the 1867 Tourbillon with Three Gold Bridges to the modern Neo Bridges and Laureato collections, Girard-Perregaux continues to blend mechanical excellence, artistic design, and innovation, solidif

文章图片
DeepSeekMath论文中后训练统一视角(Unified Paradigm)解析

通过引入一个统一视角,我们可以将常见的后训练(强化学习)方法归结到同一个公式框架下,并关注三大关键:数据源(离线 vs. 在线)、奖励函数(规则 vs. 模型)以及算法/梯度系数(SFT、RFT、DPO、PPO、GRPO 等)

#pytorch#深度学习
PrivacyScalpel:利用稀疏自编码器提升大语言模型隐私保护

《PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse Autoencoders》

文章图片
#语言模型#人工智能#自然语言处理
ZeRO Stage 1(简称 ZeRO-1)通俗介绍

只分区优化器状态(比如 Adam 的动量和方差)。这是入门级,适合模型参数和梯度还能塞下,但优化器状态吃太多内存的情况。

FlexiDepth:Adaptive Layer-skipping in Pre-trained LLMs

FlexiDepth通过动态层跳跃、轻量级路由器和适配器,为预训练LLM提供了高效的优化方案。

文章图片
#transformer#深度学习#人工智能 +2
    共 501 条
  • 1
  • 2
  • 3
  • 51
  • 请选择