logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NLP —— LSTM/GRU模型

LSTM和GRU模型对比分析 LSTM(长短时记忆网络)通过遗忘门、输入门、输出门和细胞状态结构,有效解决了RNN处理长序列时的梯度消失问题。其优点包括强大的长序列处理能力和特征捕捉能力,但存在计算复杂度高、参数量大的缺点。GRU(门控循环单元)作为LSTM的简化版本,合并了细胞状态和隐藏状态,保留了重置门和更新门,在保持相近性能的同时提高了计算效率。实际应用中,GRU更适合追求运行效率的场景,而

文章图片
#lstm#自然语言处理#gru +3
NLP —— 注意力机制(Pytorch代码实现)

本文介绍了注意力机制的概念及其在Seq2Seq模型中的应用。Seq2Seq是一种编码器-解码器架构,常用于序列转换任务,其编码器和解码器通常由RNN、LSTM或GRU构成。传统Seq2Seq模型存在两个主要弊端:处理长序列时计算量大且准确率下降;未考虑词间相关性导致翻译效果差。注意力机制通过动态分配权重解决这些问题,使解码器在生成每个词时能关注编码器端最相关的信息。 注意力机制分为三类:软注意力(

文章图片
#自然语言处理#深度学习#lstm +2
NLP —— 英译法实例

本文实现了一个基于注意力机制的Seq2Seq机器翻译模型。主要内容包括:1) 数据预处理,构建英法词汇表;2) 自定义数据集和数据加载器;3) 编码器采用GRU网络处理输入句子;4) 解码器引入注意力机制,通过计算Q、K、V生成专属信息包;5) 训练过程采用教师机制提高模型泛化能力;6) 实现模型预测功能。模型架构包含无注意力机制的编码器和带注意力机制的解码器,通过计算相似性权重实现翻译过程中的动

文章图片
#自然语言处理#人工智能#AI
NLP - Transformer原理解析

本文介绍了Transformer模型的架构原理与发展历程。该模型通过自注意力机制实现并行计算和高效特征提取,已成为GPT、BERT等大模型的基础架构。论文详细解析了Transformer的四大部分:输入处理(词嵌入+位置编码)、编码器(多头注意力+前馈网络)、解码器(掩码注意力+交叉注意力)和输出层(线性+Softmax)。模型采用残差连接和层归一化稳定训练,通过多层堆叠增强特征提取能力。开发过程

文章图片
#自然语言处理#transformer#人工智能
NLP —— Transformer 底层源码剖析(输入部分)

本文详细解析了Transformer模型中词嵌入层(InputEmbedding)和位置编码(PositionalEncoding)的实现原理与代码细节。词嵌入层将输入词转换为向量表示,并通过乘以√d_model来放大数值,提高训练稳定性。位置编码采用三角函数计算,为词向量添加位置信息,解决一词多义问题。文章展示了位置编码的数学原理、向量化实现方法,并通过可视化展示了不同维度位置编码的变化规律。代

文章图片
#自然语言处理#transformer#人工智能
NLP —— Transformer底层代码剖析(通用部分)

本文介绍了Transformer模型中的通用模块实现,主要包括:1)层归一化(LayerNorm)模块,通过标准化处理数据使其符合正态分布;2)子层连接(SubLayerConnection)模块,整合残差连接和层归一化;3)前馈网络(FeedForward)模块,通过线性变换和ReLU激活强化信息;4)注意力计算函数,实现三种注意力机制的计算;5)多头注意力(MultiHeadAttention

文章图片
#自然语言处理#transformer#人工智能
NLP —— Transformers库使用

"""因为用的是bert模型,维度768维度,输入是 768处理的是二分类问题,所以输出维度是2定义线性层。""""""先试用Bert模型进行特征提取【可选】 冻结或者不冻结 torch.no_grad如果效果不好,就不冻结1- 推荐使用torch.no_grad(),冻结Bert的参数训练。可以不加,那么回对Bert的110M个参数都会进行训练,比较耗时2- bert_model()里面的参数要

文章图片
#自然语言处理#人工智能#迁移学习
mac部署openclaw+ollama(本地模型)

本文介绍了如何在本地环境安装配置OpenClaw与Ollama的详细步骤。首先需要安装Docker Desktop和OpenClaw,并配置Node.js 20版本。然后启动Ollama服务并拉取qwen2.5:7b模型,为OpenClaw配置本地provider。通过设置默认模型、启动网关和测试agent,最终可在浏览器中通过Control UI与本地模型进行对话。整个过程包含多个终端操作步骤,

文章图片
#macos#node.js
机器学习 —— 聚类算法

聚类算法是一类无监督学习方法,在讲数据划分为若干组(簇),使得同一簇内的样本相似度搞,而不同簇间的样本差异大。根据样本之间的相识性,讲样本划分到不同的类别中,不同的相似度计算方法,会得到不同的聚类结果。聚类算法的目的是在没有先验知识的情况下,自动发现数据集中的内在结构和模式。计算产生新的质心点后,所有的样本再算距离新质心点的距离,重新分簇。每个样本和不同的质心点计算距离,离它最近的那个,就是属于那

文章图片
#机器学习#算法#聚类 +1
Openclaw -> Hermes —— 初体验

本篇写 hermes 相关。主要日常 openclaw 基本已经能满足个人需求,近期很多朋友来询问。抽空安装体验下 爱马仕(Hermes),本篇写的比较基础,后续用多 会持续更新。

文章图片
#AI
    共 30 条
  • 1
  • 2
  • 3
  • 请选择