夏驰和徐策个人主页

@tang7mj

夏驰和徐策

2022-12-26 18:12:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

动手学深度学习 - 11.4 Bahdanau 注意力机制

摘要：Bahdanau注意力机制是解决传统Seq2Seq模型固定长度上下文瓶颈的关键创新。该机制通过在每个解码时间步动态计算注意力权重，使模型能够聚焦源序列中最相关的部分。相比固定上下文向量，Bahdanau注意力显著提升了长序列处理能力，特别是在机器翻译任务中BLEU分数的表现。其核心是加法注意力评分函数，通过MLP处理拼接后的query和key，再经softmax归一化。该机制具有良好可解释性

#深度学习 #人工智能

动手学深度学习 - 现代递归神经网络 - 10.6 编码器-解码器架构（Encoder-Decoder Architecture）

摘要：编码器-解码器架构是处理序列到序列任务的核心框架，通过编码器将变长输入压缩为状态向量，再由解码器自回归生成目标序列。该架构具有高度通用性，广泛应用于机器翻译、语音识别、文本摘要等场景。其核心优势包括信息压缩能力、生成灵活性及模块化设计。随着注意力机制的引入，有效解决了长序列信息丢失问题。在工业实践中，该架构已拓展至多模态应用，如视频字幕生成、跨语言迁移学习和图文生成系统，通过灵活组合不同编码

#深度学习 #神经网络 #人工智能

[特殊字符] 吴恩达机器学习 - 梯度下降

梯度下降是一种迭代式最优化方法，用于在连续可导函数中找到局部最小值（在凸函数中也即全局最小值）。给定代价函数 J(θ)J(\theta)J(θ)，参数更新公式如下：其中：θj\theta_jθj：模型的第 jjj 个参数α\alphaα：学习率（Step Size）∂∂θjJ(θ)\frac{\partial}{\partial \theta_j} J(\theta)∂θj∂J(θ)：对第

#机器学习 #python #深度学习

黑马程序员Python高级语法进阶教程-2_进程的介绍

进程（Process）是资源分配的最小单位，是操作系统运行程序的基本结构。多进程是 Python 实现多任务的一种方式，通过多个进程并发执行任务，可以显著提高程序效率。

#python

动手学深度学习 - 8.8. 设计卷积网络架构（AnyNet、RegNet 全解析）

虽然 CNN 长期统治视觉领域，但随着大型数据集（如 LAION-400m）和强大算力的出现，类模型逐渐开始在大型图像任务中超越 CNN。然而，CNN 的归纳偏置（locality、translation invariance）依然非常重要，尤其在资源受限或小数据量场景中。因此，未来视觉模型很可能融合 CNN 与 Transformer 的优势，共同推动技术演进。

#深度学习 #网络 #人工智能

新所得库 - Ollama模型拉取路径如何改装到非C盘

于是，我决定深入研究 Ollama 的**“模型路径改装术”**，记录下这趟趟“被迫科学研究”的全过程。在部署本地大模型的过程中，Ollama 是一个非常简洁高效的工具，支持直接。，但我们可以用 Windows 的软链接机制曲线救国。⚠️ 失败：Ollama 根本不识别这个环境变量。无法修改路径，一拉爆盘、系统卡顿 ⛔。不用修改 Ollama 的内部逻辑。Ollama 以为它还在 C 盘。✅ 模型

动手学深度学习 - 机器视觉 - 14.9 语义分割与数据集（VOC2012）

..语义分割关注像素级别的图像内容解析；VOC2012 是经典入门数据集；标签使用颜色编码，训练前需转换为索引；图像与标签裁剪应同步处理；可通过 Dataset 封装 + DataLoader 组织训练流程。语义分割是众多应用（自动驾驶、医学、视觉智能剪辑）的核心技术；数据组织、增强、标签映射规范化，是大厂模型可复用的关键；主流工业系统都采用标准数据结构（如 VOC、COCO 格式）作为底层训练格

#人工智能

动手学深度学习 - 11.4 Bahdanau 注意力机制

#深度学习 #人工智能

动手学深度学习 - 8.8. 设计卷积网络架构（AnyNet、RegNet 全解析）

#深度学习 #网络 #人工智能

[特殊字符] 吴恩达机器学习 - 代价函数（Cost Function）全解析

在监督学习中，模型的任务是“从输入预测输出”，而我们需要有一个“评价标准”，来衡量模型当前的预测表现到底好不好。衡量模型输出与真实标签之间差距的函数。严谨的说：在所有监督学习问题中，目标是通过已有样本构造一类函数 hθ(x)h_\theta(x)hθ(x)，使其在未见数据上具有良好的泛化能力。显然，需要一个度量指标来判断模型在已知样本上的“表现”，即衡量预测值 hθ(x(i))h_\theta(

#机器学习 #人工智能

共 96 条

请选择