logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

条件概率:不确定性决策的基石

若 ( A ) 和 ( B ) 不独立,则 ( P(A \mid B) \neq P(A) )(如抽球不放回时,第二次概率受第一次影响)。它是连接数据与推断的桥梁,也是概率思维区别于直觉判断的核心工具。:条件概率将样本空间缩小到 ( B ) 发生的范围内,计算 ( A ) 在此子空间中的比例。它量化了事件之间的关联性,是贝叶斯推理、统计建模和机器学习的基础。条件概率依赖已知条件 ( B ),未指定

文章图片
#决策树#算法#机器学习 +2
GBDT:梯度提升决策树——集成学习中的预测利器

梯度提升的核心在于将复杂问题分解为连续的简单近似”—— Jerome Friedman(GBDT提出者)GBDT凭借其可解释性预测精度和特征工程简化能力,成为结构化数据建模的黄金标准。尽管深度学习在图像、文本领域占优,GBDT及其衍生算法(如XGBoost)仍在表格数据竞赛(Kaggle)和工业系统中占据统治地位,是机器学习工程师必须掌握的核心工具之一。延伸阅读原论文:Friedman, J. H

文章图片
#决策树#集成学习#算法 +2
对抗样本:深度学习的隐秘挑战与防御之道

对抗样本是由 Christian Szegedy 等人在2014年首次提出的概念,指的是在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出。这些样本对人类观察者来说与正常样本几乎没有区别,但却能完全迷惑深度学习模型。如下图所示,在图像分类任务中,对一张熊猫图片添加少量噪声后,人类仍然识别为熊猫,但模型却以高置信度将其分类为长臂猿。本文由「大千AI助手」原创发布,

文章图片
#深度学习#人工智能#神经网络
Swish激活函数:深度学习中的自适应门控激活机制

Swish是一种自适应激活函数,由Google Research团队在2017年提出,其基本形式定义为,其中σ表示sigmoid函数。Swish的设计受到了长短期记忆网络(LSTM)和高速公路网络(highway network)中使用sigmoid函数进行门控的启发。作为一种自门控激活函数,Swish使用相同的标量输入进行门控计算,简化了门控机制的同时保持了强大的表达能力。Swish激活函数具有

文章图片
#深度学习#人工智能#神经网络
残差:从统计学到深度学习的核心概念

残差(Residual)是统计学和机器学习中的重要概念,指观测值与模型预测值之间的差异。eiyi−yiei​yi​−y​i​yiy_iyi​是实际观测值 📊yi\hat{y}_iy​i​是模型预测值 🔮举个简单例子:在房价预测模型中,如果某房屋实际售价为100万元,模型预测为95万元,则残差为+5万元(表示模型低估了实际价格)。残差反映了模型预测的误差大小和方向,是评估模型性能、诊断模型问题的

文章图片
#深度学习#人工智能
PPO:强化学习中的近端策略优化——原理、演进与大规模应用实践

是由OpenAI团队于2017年提出的,通过约束策略更新幅度,解决了传统策略梯度方法训练不稳定、易发散的核心问题。该算法兼具的稳定性与一阶优化的简洁性,已成为深度强化学习(DRL)和大语言模型对齐(RLHF)的。

文章图片
#人工智能#深度学习#算法
生成对抗网络(GAN):深度学习领域的革命性突破

生成对抗网络(Generative Adversarial Networks,简称GAN)是由等人于2014年提出的一种革命性生成模型框架。GAN的核心思想是通过两个神经网络相互对抗的过程来学习数据分布——一个是生成器(Generator),试图生成逼真的假数据;另一个是判别器(Discriminator),试图区分真实数据和生成器产生的假数据。这种对抗过程使得两个网络在竞争中共同进步,最终生成器

文章图片
#深度学习#生成对抗网络#人工智能
贝叶斯深度学习:赋予AI不确定性感知的认知革命

传统深度学习:追求“最可能答案”贝叶斯深度学习:回答“答案的可信度是多少”其本质是让AI具备认知谦逊(Epistemic Humility)高风险决策(医疗、金融、自动驾驶)小样本学习(科学实验、罕见病诊断)开放环境感知(机器人应对未知场景)可解释性要求(司法、金融审计)随着计算硬件的进步和近似推断算法的成熟,贝叶斯深度学习正成为构建可信赖AI系统的核心支柱。本文由「大千AI助手」原创发布,专注用

文章图片
#人工智能#深度学习#机器学习 +1
大语言模型强化学习中的熵崩溃现象:机制、影响与解决方案

具体来说,研究者计算每个token的协方差,然后随机选择r·N个协方差在预设范围[ωlow, ωhigh]内的token(r为裁剪比例,N为总token数),将这些token从策略梯度更新中排除。这种熵崩溃现象在不同规模的大语言模型中都存在,包括从0.5B到32B参数规模的模型,以及不同模型家族(Qwen2.5、Mistral、LLaMA)和不同任务(数学和编程)。"的局部最优策略,从而停止尝试新

文章图片
#语言模型#人工智能#自然语言处理
GRPO(组相对策略优化):大模型强化学习的高效进化

GRPO(组相对策略优化)是DeepSeek团队提出的一种创新强化学习算法,专为优化大型语言模型设计。它通过组内相对奖励比较取代传统PPO算法的价值函数估计,显著降低40-50%的内存需求,同时保持优异性能。GRPO已在DeepSeekMath项目中验证,帮助模型在数学推理任务取得突破。其核心思想是对同一问题生成多个回答,基于组内奖励均值和标准差计算相对优势,简化强化学习框架。该算法结合策略梯度更

文章图片
#DeepSeek
    共 261 条
  • 1
  • 2
  • 3
  • 27
  • 请选择