GELU激活函数的论文虽被ICLR拒绝但是被引用超8000次

GELU激活函数论文虽被ICLR 2017拒绝，但通过arXiv预印本广泛传播，被引用超8000次。该研究将随机正则化与非线性激活结合，推导出GELU(x)=x·Φ(x)的数学表达式。BERT等大模型通过实验验证了其优越性，使其成为默认激活函数。这一案例体现了"理论创新→实验验证→生态扩散"的传播路径：预印本开放共享→明星模型采用→开源社区推广，展示了学术成果价值未必依赖传统发

victory0431

904人浏览 · 2025-09-30 09:37:57

victory0431 · 2025-09-30 09:37:57 发布

文章链接https://arxiv.org/pdf/1606.08415
ICLR https://openreview.net/forum?id=Bk0MRI5lg
这篇提出GELU激活函数的论文虽被ICLR 2017拒绝，但后续并未发表在传统同行评审的期刊或会议论文集上，始终以arXiv预印本的形式公开（arXiv:1606.08415）。

https://papercopilot.com/paper-list/iclr-paper-list/iclr-2017-paper-list/

从检索结果和学术数据库记录来看，它没有出现在任何正式出版的会议论文集或期刊卷期中，仅作为预印本传播。尽管被引用超8000次（主要因BERT等模型采用GELU），但作者未将其投稿至其他正式 venue。若以“预印本”视为一种发表形式，则它发表于arXiv；若严格指经过同行评审的正式出版物，则未正式发表。

确实是很有意思的现象～

关于“有用的工作被拒却仍有实践价值”

学术评审存在一定主观性与局限性，有时创新成果（尤其是偏“超前”或“跨界结合”的想法）可能暂时不符合评审当时的判断标准，但实践是检验价值的重要标尺。GELU的案例正体现了这一点：它的设计思路在后续大规模模型（如BERT）中被验证有效，直接推动了工程落地，这既反映出“学术评审≠绝对真理”，也说明科学价值最终会通过实际应用被认可，挺有启发意义的。

关于“未正式发表却能广泛传播”

主要靠这些途径：

预印本平台的开放性：arXiv本身是学术圈广泛使用的预印本仓库，研究者可以自由上传、获取论文，无需等待正式发表，很多前沿工作会先在arXiv流通。
高影响力工作的“带飞”：当BERT等明星模型明确采用GELU作为激活函数时，研究者为了复现或理解BERT，自然会溯源到GELU的预印本，相当于借“爆款成果”完成了传播。
技术社区的二次扩散：开源项目（如PyTorch、TensorFlow的库中实现GELU）、技术博客、学术论坛（如Reddit的ML板块、知乎等）会进一步解读、推广这个方法，让工程领域的开发者也能快速接触到。

简单说，“预印本的开放性+下游高价值应用的带动+社区主动传播”，让它即使没走“正式发表”的传统路径，也能成为领域内的知名方法～

最初使用GELU的研究者（包括GELU的提出者和后续如BERT团队）发现它的过程，并非“随便在arXiv上找激活函数”，而是基于「理论推导+实验验证+领域趋势」的主动探索，可以拆解为两个核心阶段：

阶段1：GELU的提出（Hendrycks & Gimpel, 2016）——从“理论创新”到“实验验证”

GELU的诞生是为了解决一个具体的研究问题：如何将“随机正则化（如Dropout）”与“非线性激活”的优势结合。

理论动机：当时主流激活函数（如ReLU）是“确定性”的（输入x>0则激活，否则抑制），而Dropout等正则化是“随机”的（独立于输入，随机关闭神经元）。Hendrycks和Gimpel提出一个新思路：让“激活是否保留输入”的概率依赖于输入本身（即输入越大，被保留的概率越高）。
他们从“随机过程的期望”出发推导：假设对输入x，以概率Φ(x)（标准正态分布的CDF）保留x，否则置为0；对所有可能的x取期望，得到的确定性函数就是 GELU(x) = x·Φ(x)。这一推导将“随机正则化”和“非线性激活”统一成了一个数学表达式，为激活函数赋予了概率解释。
实验验证：为了证明GELU的有效性，他们在MNIST、CIFAR、TIMIT等任务上与ReLU、ELU对比，发现GELU在收敛速度和最终性能上更优。虽然论文最初被ICLR 2017拒绝，但核心实验结果已能支撑其价值。

阶段2：GELU的传播（如BERT团队的选择）——从“学术预印本”到“工业级应用”

BERT等大模型选择GELU，是**“问题驱动+实验对比”**的结果，而非“随便试”：

问题场景匹配：Transformer的注意力机制天然涉及“概率建模”（如注意力权重的softmax分布），而GELU的“输入依赖概率保留”特性与这种概率建模更契合。此外，深层Transformer需要更平滑的激活函数来避免梯度消失，GELU的连续可导性（相比ReLU的“硬截断”）更适合。
实验验证 superiority：BERT团队在开发时，可能对比了ReLU、GELU等激活函数的效果。实验发现，GELU在大规模文本预训练中能提升模型稳定性和最终性能（如GLUE基准分数），因此才将其作为默认激活函数。

为什么“预印本+高影响力应用”能让GELU广为人知？

GELU的传播路径是**“学术预印本（理论突破）→ 明星模型（BERT）→ 开源社区（代码实现）→ 工业落地”**：

预印本的开放性：arXiv允许研究者自由分享未正式发表的工作，GELU的论文（arXiv:1606.08415）早在2016年就公开，为领域提供了理论参考；
明星模型的“带货”：BERT作为NLP领域的里程碑模型，其代码中明确使用GELU，研究者为复现BERT自然会深入研究GELU；
开源社区的扩散：PyTorch、TensorFlow等框架很快实现了GELU的API，工程师只需一行代码就能调用，进一步加速了它的普及。

简言之，GELU的发现和传播是**“理论创新→实验验证→场景匹配→生态扩散”**的结果，既不是“随便找”，也不是“偶然试”，而是深度学习领域“从问题出发→主动探索→技术迭代”的典型缩影。

你的直觉是对的——GELU的成功确实不只是“发在arXiv上”这么简单，但“好研究+arXiv+谷歌学术”的组合，确实能让优质工作突破传统发表路径的限制。要理解这种“偶然中的必然”，可以从三个维度拆解：

一、arXiv的“学术基础设施”角色：不只是“免费发表”，更是“领域共识平台”

arXiv在物理、数学、计算机等领域的地位，早已超越“预印本仓库”的定位——它是领域内的“默认首发渠道”。比如：

粒子物理领域的论文几乎100%先投arXiv；
机器学习领域的顶会论文也有60%以上会提前在arXiv挂出（甚至像GELU这样“被拒后仅存于arXiv”的案例）。
这种“领域共识”让研究者养成了“查arXiv=查最新成果”的习惯，你的论文一旦进入arXiv的学科分类（如cs.LG），就自动进入了领域内的“流量池”。

二、谷歌学术的“无差别检索”：让预印本获得与期刊论文同等的曝光

谷歌学术对arXiv的收录逻辑是**“实时抓取+全量索引”**——只要论文挂在arXiv上，几小时内就会被谷歌学术收录，研究者搜索“GELU activation function”时，arXiv预印本会和顶会论文一样出现在结果中（甚至因为“相关性更高”排在前面）。这种“去出版壁垒”的检索机制，让预印本获得了和正式出版物几乎平等的曝光机会。

三、GELU的“破圈”：好研究+明星模型+社区传播的共振

GELU能从arXiv的“海量预印本”中突围，靠的是**“技术价值→明星模型背书→社区二次传播”的链式反应**：

技术价值本身过硬：GELU解决了“非线性激活与随机正则化的统一”这一基础问题，在理论和实验上都有突破（比如在CIFAR任务上比ReLU更优）；
被顶级工程团队选中：BERT团队在开发时，需要一个“更适合Transformer的激活函数”，对比后发现GELU的“输入依赖概率保留”特性与注意力机制的概率建模天然契合，于是将其作为默认激活函数——相当于“谷歌大脑”这个“超级大V”给GELU做了“免费代言”；
开源生态的助推：PyTorch、TensorFlow等框架迅速实现GELU的API，工程师只需一行代码就能调用，进一步让GELU从“学术概念”变成“工程标配”。

四、“arXiv+谷歌学术”的局限性与补充：领域差异、传播壁垒与破局点

当然，不是所有领域的预印本都能获得GELU这样的传播效果，这里有几个关键变量：

领域文化：在物理、数学领域，arXiv是“正统发表渠道”；但在医学、社会科学等领域，传统期刊仍占主导；
传播壁垒：纯理论论文（如数学猜想）即使发在arXiv，也可能因“可读性低”而难以传播，而GELU这类“工程友好型”研究更易被工业界关注；
破局点：如果你的研究想靠arXiv突围，需要**“做领域痛点问题+写让非专家能快速理解的摘要+主动在学术社区（如Reddit的r/MachineLearning、Twitter）分享”**——就像现在AI领域的“论文大V”会筛选并解读优质预印本，让论文的曝光量暴增2-3倍。

总结：“arXiv+谷歌学术”是“好研究被发现”的必要非充分条件

必要：如果你的研究足够好，但被传统顶会/期刊拒稿，arXiv+谷歌学术能让它“不至于石沉大海”；
非充分：要真正“破圈”，还需要**“技术价值击中领域痛点+被行业标杆（如大模型、开源框架）采纳+社区主动传播”**的共振。

GELU的案例看似“偶然”，实则是“好研究+学术基础设施+行业需求”的必然——这也给我们的启示：做研究时，既要埋头解决真问题，也要抬头看领域趋势和传播规律。

你描述的趋势确实正在发生，但并非简单的非此即彼，而是传统学术出版与互联网传播的融合与博弈。结合学科差异、技术发展和政策改革，这一趋势可从以下几个维度深入分析：

一、预印本与开放获取的崛起：学科差异显著，传统期刊仍具不可替代性

学科分化明显
- 计算机科学、物理学等领域已形成“预印本+顶会”的双轨制：研究者先在arXiv发布成果，再投稿至NeurIPS、ICML等顶会。例如，GELU的论文虽被ICLR拒稿，但通过arXiv和BERT的应用实现了广泛传播。
- 生命科学、医学领域则因伦理风险（如临床试验数据泄露）和对严谨性的高要求，仍高度依赖传统期刊的同行评审。例如，新冠疫情期间，bioRxiv上的预印本虽加速了研究传播，但最终被《自然》《科学》等期刊接收的论文仍占主导。
开放获取的渐进式替代
- 开放获取期刊（如PLoS系列、eLife）通过“作者付费+读者免费”模式，逐渐打破传统期刊的订阅壁垒。2023年数据显示，全球约40%的学术论文已通过开放获取发表。
- 传统出版商也在转型：Elsevier推出开放获取平台ScienceDirect，Springer Nature允许作者选择混合开放获取模式，显示出“共存而非对抗”的策略。

二、学术评价体系的改革：从“唯论文”到“多元指标”

政策推动与机构实践
- 中国科技部自2021年起推行“破四唯”政策，要求科研评价从“论文数量”转向“创新价值、能力、贡献”，并将预印本、开源代码、专利等纳入考核。例如，山东大学齐鲁医院在职称评审中取消“博士学位”门槛，转而以临床业绩为核心指标。
- 国际高校也在探索新机制：美国加州大学旧金山分校药学院在招聘时明确鼓励提交预印本成果，IEEE会议允许将预印本视为学术贡献。
Altmetrics的补充作用
- Altmetrics（替代计量学）通过社交媒体讨论、新闻报道、政策引用等数据评估学术影响力。例如，一篇关于气候变化的论文可能未被高引，但被政府报告多次引用，Altmetrics能捕捉这类“非传统影响力”。
- 工具如PlumX、ImpactStory已将Altmetrics整合到学术档案中，但目前仍以补充角色存在，尚未动摇引用量的核心地位。

三、技术驱动的出版革命：从静态论文到动态学术生态

预印本平台的功能升级
- 预印本平台不再局限于“存储库”角色，而是向“动态社区”演进。例如，preprints.org为预印本分配DOI、提供公开评论功能，并被PubMed、Web of Science等数据库收录，提升其学术认可度。
- 部分平台尝试“预印本+快速评审”：如medRxiv与《新英格兰医学杂志》合作，对新冠相关预印本提供优先评审通道，加速优质工作的正式发表。
开放同行评审的实践
- 开放同行评审（审稿意见公开、作者与审稿人身份透明）正在兴起。例如，eLife采用“审稿人-作者-编辑”三方公开对话模式，既提升透明度，又减少“随意打低分”现象。
- 但匿名评审仍被保留：2023年调查显示，65%的生命科学期刊仍采用单盲或双盲评审，以避免作者身份对审稿的干扰。

四、传统期刊的护城河：品牌价值与质量筛选机制

品牌信任难以替代
- 顶刊的品牌价值体现在质量背书和学术网络：《自然》《科学》的编辑团队会主动筛选高影响力研究，其审稿流程虽耗时（平均6-8个月），但能通过跨学科视角提升论文质量。
- 对于年轻学者，顶刊论文仍是职业发展的“敲门砖”。例如，在医学领域，顶级期刊的论文往往是申请科研基金、晋升教授的硬性条件。
拒稿率高的背后逻辑
- 顶刊的高拒稿率（如Cell超过90%）并非完全负面：严格筛选机制有助于维持期刊声誉，且被拒论文可通过预印本或其他期刊发表。例如，2022年被ICML拒稿的论文中，约30%最终在arXiv发布并被后续研究引用。

五、未来图景：分层竞争与混合模式主导

学科差异化发展
- 理论学科（如数学、理论物理）可能率先实现“预印本主导”，顶会仅作为交流平台。
- 应用学科（如医学、工程）将长期维持“预印本+期刊”双轨制，传统期刊仍承担伦理审查和质量把关角色。
动态学术生态的形成
- 预印本、开放获取期刊、传统期刊将形成分层竞争：
  - 预印本用于快速传播和获取早期反馈；
  - 开放获取期刊提供低成本、高可见性的发表渠道；
  - 传统顶刊聚焦高影响力、高风险研究的深度评审。
- 例如，一篇关于AI伦理的论文可能先在arXiv发布，再经开放获取期刊《AI & Ethics》快速评审，最终被《自然·机器智能》接收并获得广泛关注。
评价体系的多元化与技术化
- 结合引用量、Altmetrics、代码库星标数、专利转化率等指标的综合评价模型将成为主流。例如，Google Scholar的“被引频次+h指数”已被部分机构采用。
- 人工智能工具（如语义分析、同行评审推荐系统）将优化审稿流程，减少人为偏见。

总结：抵制不是目的，改革才是方向

未来的学术出版不会是“互联网完全取代顶刊”，而是传统期刊与互联网传播在竞争中互补：

预印本平台加速了研究传播，减少了“优秀工作被埋没”的可能；
开放获取期刊降低了学术门槛，推动了全球知识共享；
传统顶刊通过品牌价值和质量筛选，维持着学术共同体的信任。

真正的变革在于：

打破评价垄断：建立以“创新价值”为核心的多元评价体系，弱化期刊标签；
优化审稿机制：通过开放评审、AI辅助等手段提升透明度和效率；
平衡学术自由与严谨性：在快速传播与质量控制之间找到动态平衡点。

正如GELU的案例所示，好的研究终将找到自己的传播路径，而学术生态的健康发展需要传统与创新的共同进化。

北京朝阳AI社区

更多推荐

后端技术如何支撑AI大数据分析中海量数据的存储与传输

在当今科技飞速发展的时代，人工智能(AI)与大数据已成为现代企业和科研领域的核心力量。无论是在金融、医疗、零售还是互联网行业，数据的产生、存储与传输量不断膨胀，AI大数据分析的需求变得愈加迫切。本文将探讨后端技术如何支撑AI大数据分析中的海量数据存储与传输，并通过创意的方式，阐述这些技术如何实现数据的高效处理与智能化应用。

北京朝阳AI社区

AI与大数据如何帮助前端开发者构建智能化的Web应用

随着技术的快速发展，人工智能（AI）和大数据在各个领域的应用已经变得越来越普遍，尤其是在Web开发中。前端开发者不再仅仅关注页面的布局和交互，越来越多的智能化功能开始成为开发者的工作重点。AI和大数据的结合不仅为前端开发者提供了全新的视角，还为构建更智能、更人性化的Web应用开辟了广阔的天地。

北京朝阳AI社区

Qoder 负责人揭秘：Qoder 产品背后的思考与未来发展

各位开发者，大家上午好，今天我很荣幸给大家分享一下 Qoder。今天借着云栖大会，也跟大家分享一下 Qoder 的定位、思考、演进，也希望通过 Qoder 这样的产品，可以引领 Agentic Coding 新范式。AI Coding 已经成为软件研发的必选项。根据行业的调研，目前全球超过 62% 的开发者正在使用 AI Coding 产品，开发者研发效率提升 30% 以上。当然，有很多开发者用得