logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

动手学深度学习 - 11.4 Bahdanau 注意力机制

摘要:Bahdanau注意力机制是解决传统Seq2Seq模型固定长度上下文瓶颈的关键创新。该机制通过在每个解码时间步动态计算注意力权重,使模型能够聚焦源序列中最相关的部分。相比固定上下文向量,Bahdanau注意力显著提升了长序列处理能力,特别是在机器翻译任务中BLEU分数的表现。其核心是加法注意力评分函数,通过MLP处理拼接后的query和key,再经softmax归一化。该机制具有良好可解释性

文章图片
#深度学习#人工智能
动手学深度学习 - 现代递归神经网络 - 10.6 编码器-解码器架构(Encoder-Decoder Architecture)

摘要:编码器-解码器架构是处理序列到序列任务的核心框架,通过编码器将变长输入压缩为状态向量,再由解码器自回归生成目标序列。该架构具有高度通用性,广泛应用于机器翻译、语音识别、文本摘要等场景。其核心优势包括信息压缩能力、生成灵活性及模块化设计。随着注意力机制的引入,有效解决了长序列信息丢失问题。在工业实践中,该架构已拓展至多模态应用,如视频字幕生成、跨语言迁移学习和图文生成系统,通过灵活组合不同编码

文章图片
#深度学习#神经网络#人工智能
[特殊字符] 吴恩达机器学习 - 梯度下降

梯度下降是一种迭代式最优化方法,用于在连续可导函数中找到局部最小值(在凸函数中也即全局最小值)。给定代价函数 J(θ)J(\theta)J(θ),参数更新公式如下:其中:θj\theta_jθj​:模型的第 jjj 个参数α\alphaα:学习率(Step Size)∂∂θjJ(θ)\frac{\partial}{\partial \theta_j} J(\theta)∂θj​∂​J(θ):对第

文章图片
#机器学习#python#深度学习
黑马程序员Python高级语法进阶教程-2_进程的介绍

进程(Process)是资源分配的最小单位,是操作系统运行程序的基本结构。多进程是 Python 实现多任务的一种方式,通过多个进程并发执行任务,可以显著提高程序效率。

文章图片
#python
动手学深度学习 - 8.8. 设计卷积网络架构(AnyNet、RegNet 全解析)

虽然 CNN 长期统治视觉领域,但随着大型数据集(如 LAION-400m)和强大算力的出现,类模型逐渐开始在大型图像任务中超越 CNN。然而,CNN 的归纳偏置(locality、translation invariance)依然非常重要,尤其在资源受限或小数据量场景中。因此,未来视觉模型很可能融合 CNN 与 Transformer 的优势,共同推动技术演进。

文章图片
#深度学习#网络#人工智能
新所得库 - Ollama模型拉取路径如何改装到非C盘

于是,我决定深入研究 Ollama 的**“模型路径改装术”**,记录下这趟趟“被迫科学研究”的全过程。在部署本地大模型的过程中,Ollama 是一个非常简洁高效的工具,支持直接。,但我们可以用 Windows 的软链接机制曲线救国。⚠️ 失败:Ollama 根本不识别这个环境变量。无法修改路径,一拉爆盘、系统卡顿 ⛔。不用修改 Ollama 的内部逻辑。Ollama 以为它还在 C 盘。✅ 模型

文章图片
动手学深度学习 - 机器视觉 - 14.9 语义分割与数据集(VOC2012)

..语义分割关注像素级别的图像内容解析;VOC2012 是经典入门数据集;标签使用颜色编码,训练前需转换为索引;图像与标签裁剪应同步处理;可通过 Dataset 封装 + DataLoader 组织训练流程。语义分割是众多应用(自动驾驶、医学、视觉智能剪辑)的核心技术;数据组织、增强、标签映射规范化,是大厂模型可复用的关键;主流工业系统都采用标准数据结构(如 VOC、COCO 格式)作为底层训练格

文章图片
#人工智能
动手学深度学习 - 11.4 Bahdanau 注意力机制

摘要:Bahdanau注意力机制是解决传统Seq2Seq模型固定长度上下文瓶颈的关键创新。该机制通过在每个解码时间步动态计算注意力权重,使模型能够聚焦源序列中最相关的部分。相比固定上下文向量,Bahdanau注意力显著提升了长序列处理能力,特别是在机器翻译任务中BLEU分数的表现。其核心是加法注意力评分函数,通过MLP处理拼接后的query和key,再经softmax归一化。该机制具有良好可解释性

文章图片
#深度学习#人工智能
动手学深度学习 - 8.8. 设计卷积网络架构(AnyNet、RegNet 全解析)

虽然 CNN 长期统治视觉领域,但随着大型数据集(如 LAION-400m)和强大算力的出现,类模型逐渐开始在大型图像任务中超越 CNN。然而,CNN 的归纳偏置(locality、translation invariance)依然非常重要,尤其在资源受限或小数据量场景中。因此,未来视觉模型很可能融合 CNN 与 Transformer 的优势,共同推动技术演进。

文章图片
#深度学习#网络#人工智能
[特殊字符] 吴恩达机器学习 - 代价函数(Cost Function)全解析

在监督学习中,模型的任务是“从输入预测输出”,而我们需要有一个“评价标准”,来衡量模型当前的预测表现到底好不好。衡量模型输出与真实标签之间差距的函数。严谨的说:在所有监督学习问题中,目标是通过已有样本构造一类函数 hθ(x)h_\theta(x)hθ​(x),使其在未见数据上具有良好的泛化能力。显然,需要一个度量指标来判断模型在已知样本上的“表现”,即衡量预测值 hθ(x(i))h_\theta(

文章图片
#机器学习#人工智能
    共 96 条
  • 1
  • 2
  • 3
  • 10
  • 请选择