logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【深度学习入门篇①】手动完成线性回归!

🍊。大家好!今天我们将一起踏上一场探索深度学习的奇妙之旅,而我们的起点,就是线性回归这一经典而基础的算法。我将带大家从零开始,手动实现线性回归!

文章图片
#线性回归#算法#回归
神经网络中的归一化

神经网络的学习其实在学习数据的分布,随着网络的深度增加、网络复杂度增加,一般流经网络的数据都是一个 mini batch,每个 mini batch 之间的数据分布变化非常剧烈,这就使得网络参数频繁的进行大的调整以适应流经网络的不同分布的数据,给模型训练带来非常大的不稳定性,使得模型难以收敛。这个过程涉及到最小化一个包含L2正则化项的损失函数,以找到最佳的参数值,使得模型在训练集上的表现最优,同时

文章图片
#神经网络#人工智能#深度学习
神经网络中的优化方法

,梯度为 0,参数无法优化,碰到局部最小值。AdaGrad 通过对不同的参数分量使用不同的学习率,AdaGrad 的学习率总体会逐渐减小,这是因为 AdaGrad算法认为:在起初时,我们距离最优目标仍较远,可以使用较大的学习率,加快训练速度,随着迭代次数的增加,学习率逐渐下降。AdaGrad通过这种方式实现了对每个参数的个性化学习率调整,使得在参数空间较平缓的方向上可以取得更大的进步,而在陡峭的方

文章图片
#神经网络#人工智能#深度学习
梯度下降算法

​在线性回归中,我们使用最小二乘法,能够直接计算损失函数最小值时的参数值,但是,最小二乘法有使用的限制条件,在大多数机器学习的使用场景之下,我们会选择梯度下降的方法来计算损失函数的极小值,首先梯度下降算法的目标仍然是求最小值,但和最小二乘法这种一步到位、通过解方程组直接求得最小值的方式不同,梯度下降是通过一种“迭代求解”的方式来进行最小值的求解,其整体求解过程可以粗略描述为,先随机选取一组参数初始

文章图片
#算法#python#机器学习
神经网络中的优化方法

,梯度为 0,参数无法优化,碰到局部最小值。AdaGrad 通过对不同的参数分量使用不同的学习率,AdaGrad 的学习率总体会逐渐减小,这是因为 AdaGrad算法认为:在起初时,我们距离最优目标仍较远,可以使用较大的学习率,加快训练速度,随着迭代次数的增加,学习率逐渐下降。AdaGrad通过这种方式实现了对每个参数的个性化学习率调整,使得在参数空间较平缓的方向上可以取得更大的进步,而在陡峭的方

文章图片
#神经网络#人工智能#深度学习
DeepResearch产品形态与发展研究报告

DeepResearch是一种AI驱动的智能研究工具,旨在解决复杂、知识密集型的研究任务。多步骤推理:基于高级推理模型(如OpenAI的o3或DeepSeek的R1),能够自主规划研究路径并调整方向。自动化搜索与整合:通过联网搜索,快速收集并分析海量在线数据,包括学术文献、行业报告、新闻资讯等。报告生成:将分散信息整合为结构化、专业化的研究报告,适用于学术研究、行业分析、投资决策等场景。个性化适配

文章图片
#人工智能#nlp#自然语言处理 +3
GroK 3研究报告

当前,最强的大模型是。GroK 3 是目前最强的大模型,基于 Transformer 架构,结合混合模型技术,在长上下文和多模态任务中表现优异。混合模型如 Jamba(GroK 3 的基础)结合了 Transformer 和 SSM 的优势,特别是在长上下文任务中表现出色,适合企业级应用 (本报告将详细探讨 GroK 3 的架构、性能和与其他模型的比较,并分析其在行业中的应用。GroK 3 基于

文章图片
#人工智能#机器学习#深度学习
Flash Attention V3使用

Flash Attention 是一种针对 Transformer 模型中注意力机制的优化实现,旨在提高计算效率和内存利用率。随着大模型的普及,Flash Attention V3 在 H100 GPU 上实现了显著的性能提升,相比于前一版本,V3 通过异步化计算、优化数据传输和引入低精度计算等技术,进一步加速了注意力计算。

文章图片
#人工智能#nlp#自然语言处理 +3
国内开源医疗模型研究报告

例如,华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据,训练并开源了一个新的医疗大模型,能够提供更准确的医疗问诊服务[例如,华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据,训练并开源了一个新的医疗大模型,能够在单轮与多轮问诊场景中提供更准确的诊断和治疗建议[京医千询是京东健康旗下的医疗大模型,是国内医疗行业首个全面开源的垂类大模型。未来,国内开

文章图片
#开源#人工智能#自然语言处理
国内开源医疗模型研究报告

例如,华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据,训练并开源了一个新的医疗大模型,能够提供更准确的医疗问诊服务[例如,华佗GPT通过融合ChatGPT生成的"蒸馏数据"和真实世界医生回复的数据,训练并开源了一个新的医疗大模型,能够在单轮与多轮问诊场景中提供更准确的诊断和治疗建议[京医千询是京东健康旗下的医疗大模型,是国内医疗行业首个全面开源的垂类大模型。未来,国内开

文章图片
#开源#人工智能#自然语言处理
    共 14 条
  • 1
  • 2
  • 请选择