kishu_iOS&AI 个人主页

@i_k_o_x_s

kishu_iOS&AI

2026-03-03 05:43:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

NLP —— LSTM/GRU模型

LSTM和GRU模型对比分析 LSTM（长短时记忆网络）通过遗忘门、输入门、输出门和细胞状态结构，有效解决了RNN处理长序列时的梯度消失问题。其优点包括强大的长序列处理能力和特征捕捉能力，但存在计算复杂度高、参数量大的缺点。GRU（门控循环单元）作为LSTM的简化版本，合并了细胞状态和隐藏状态，保留了重置门和更新门，在保持相近性能的同时提高了计算效率。实际应用中，GRU更适合追求运行效率的场景，而

#lstm #自然语言处理 #gru +3

NLP —— 注意力机制(Pytorch代码实现)

本文介绍了注意力机制的概念及其在Seq2Seq模型中的应用。Seq2Seq是一种编码器-解码器架构，常用于序列转换任务，其编码器和解码器通常由RNN、LSTM或GRU构成。传统Seq2Seq模型存在两个主要弊端：处理长序列时计算量大且准确率下降；未考虑词间相关性导致翻译效果差。注意力机制通过动态分配权重解决这些问题，使解码器在生成每个词时能关注编码器端最相关的信息。注意力机制分为三类：软注意力（

#自然语言处理 #深度学习 #lstm +2

NLP —— 英译法实例

本文实现了一个基于注意力机制的Seq2Seq机器翻译模型。主要内容包括：1) 数据预处理，构建英法词汇表；2) 自定义数据集和数据加载器；3) 编码器采用GRU网络处理输入句子；4) 解码器引入注意力机制，通过计算Q、K、V生成专属信息包；5) 训练过程采用教师机制提高模型泛化能力；6) 实现模型预测功能。模型架构包含无注意力机制的编码器和带注意力机制的解码器，通过计算相似性权重实现翻译过程中的动

#自然语言处理 #人工智能 #AI

NLP - Transformer原理解析

本文介绍了Transformer模型的架构原理与发展历程。该模型通过自注意力机制实现并行计算和高效特征提取，已成为GPT、BERT等大模型的基础架构。论文详细解析了Transformer的四大部分：输入处理（词嵌入+位置编码）、编码器（多头注意力+前馈网络）、解码器（掩码注意力+交叉注意力）和输出层（线性+Softmax）。模型采用残差连接和层归一化稳定训练，通过多层堆叠增强特征提取能力。开发过程

#自然语言处理 #transformer #人工智能

NLP —— Transformer 底层源码剖析（输入部分）

本文详细解析了Transformer模型中词嵌入层(InputEmbedding)和位置编码(PositionalEncoding)的实现原理与代码细节。词嵌入层将输入词转换为向量表示，并通过乘以√d_model来放大数值，提高训练稳定性。位置编码采用三角函数计算，为词向量添加位置信息，解决一词多义问题。文章展示了位置编码的数学原理、向量化实现方法，并通过可视化展示了不同维度位置编码的变化规律。代

#自然语言处理 #transformer #人工智能

NLP —— Transformer底层代码剖析（通用部分）

本文介绍了Transformer模型中的通用模块实现，主要包括：1)层归一化(LayerNorm)模块，通过标准化处理数据使其符合正态分布；2)子层连接(SubLayerConnection)模块，整合残差连接和层归一化；3)前馈网络(FeedForward)模块，通过线性变换和ReLU激活强化信息；4)注意力计算函数，实现三种注意力机制的计算；5)多头注意力(MultiHeadAttention

#自然语言处理 #transformer #人工智能

NLP —— Transformers库使用

"""因为用的是bert模型，维度768维度，输入是 768处理的是二分类问题，所以输出维度是2定义线性层。""""""先试用Bert模型进行特征提取【可选】冻结或者不冻结 torch.no_grad如果效果不好，就不冻结1- 推荐使用torch.no_grad()，冻结Bert的参数训练。可以不加，那么回对Bert的110M个参数都会进行训练，比较耗时2- bert_model()里面的参数要

#自然语言处理 #人工智能 #迁移学习

mac部署openclaw+ollama(本地模型)

本文介绍了如何在本地环境安装配置OpenClaw与Ollama的详细步骤。首先需要安装Docker Desktop和OpenClaw，并配置Node.js 20版本。然后启动Ollama服务并拉取qwen2.5:7b模型，为OpenClaw配置本地provider。通过设置默认模型、启动网关和测试agent，最终可在浏览器中通过Control UI与本地模型进行对话。整个过程包含多个终端操作步骤，

#macos #node.js

机器学习 —— 聚类算法

聚类算法是一类无监督学习方法，在讲数据划分为若干组（簇），使得同一簇内的样本相似度搞，而不同簇间的样本差异大。根据样本之间的相识性，讲样本划分到不同的类别中，不同的相似度计算方法，会得到不同的聚类结果。聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式。计算产生新的质心点后，所有的样本再算距离新质心点的距离，重新分簇。每个样本和不同的质心点计算距离，离它最近的那个，就是属于那

#机器学习 #算法 #聚类 +1

Openclaw -＞ Hermes —— 初体验

本篇写 hermes 相关。主要日常 openclaw 基本已经能满足个人需求，近期很多朋友来询问。抽空安装体验下爱马仕（Hermes），本篇写的比较基础，后续用多会持续更新。

#AI

共 30 条

请选择