logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从零实现 LLaMA 架构:一步步构建轻量级大语言模型

本文从 LLaMA 的核心设计出发,拆解并实现了一个轻量级的 LLaMA-like 模型,覆盖了 RMSNorm、SwiGLU、RoPE、因果自注意力等关键组件。大模型看似复杂,但本质是 “简单组件的有序组合”—— 掌握这些核心设计,就能理解大模型的底层逻辑,为后续的模型训练、优化和部署打下基础。训练模型:用小数据集(如 WikiText)训练模型,观察 Loss 的下降趋势;扩展参数:将调至 4

#语言模型#人工智能
基于 WOA 优化 CNN-LSTM-Transformer 的电力负荷预测

本文提出一种融合 CNN、LSTM 与 Transformer 的混合深度学习模型,并引入鲸鱼优化算法(WOA)CNN:提取负荷序列的局部时空特征;LSTM:捕捉序列的长短期时序依赖;:建模全局时序关联;WOA:优化学习率、CNN 通道数、LSTM 隐藏层维度等关键超参数。短期电力负荷预测属于单变量时间序列预测问题,给定长度为L的历史负荷序列X=[xt−L​,xt−L+1​,...,xt−1​],

文章图片
#cnn#lstm#transformer
LLM 驱动的运筹优化与可解释智能决策系统:从自然语言到商业决策的全链路落地

本文构建的 “LLM + 运筹优化 + XAI” 融合系统,成功解决了传统运筹优化 “建模难、解释难、落地难” 的核心痛点,实现了从自然语言需求到商业决策的全链路自动化。该系统不仅适用于动态定价场景,还可扩展至库存优化、路径规划、产能调度等绝大多数运筹优化场景,为企业智能决策提供了可复用的架构范式。随着大语言模型和可解释 AI 技术的持续演进,这类 “技术 + 业务” 深度融合的系统,将成为企业数

#人工智能#算法
从零实现 LLaMA 架构:一步步构建轻量级大语言模型

本文从 LLaMA 的核心设计出发,拆解并实现了一个轻量级的 LLaMA-like 模型,覆盖了 RMSNorm、SwiGLU、RoPE、因果自注意力等关键组件。大模型看似复杂,但本质是 “简单组件的有序组合”—— 掌握这些核心设计,就能理解大模型的底层逻辑,为后续的模型训练、优化和部署打下基础。训练模型:用小数据集(如 WikiText)训练模型,观察 Loss 的下降趋势;扩展参数:将调至 4

#语言模型#人工智能
基于 Tent-EBWO 优化 XGBoost 的回归预测及可解释性分析

本文提出的Tent-EBWO优化XGBoost回归框架,通过KPCA降维降低计算复杂度,利用Tent混沌映射增强BWO的全局搜索能力,最终实现了高精度的回归预测,并通过多维度可视化完成模型可解释性分析。实验结果表明,该框架在预测精度和稳定性上表现优异,特征可解释性分析也为业务理解提供了有力支撑。

文章图片
#回归#数据挖掘#人工智能
Transformer-SSM 混合模型 vs 传统 SVM:文本分类任务的深度对比实验

一、引言文本分类是自然语言处理(NLP)的核心任务之一,广泛应用于情感分析、垃圾邮件识别、意图识别等场景。传统文本分类方法以为代表,依赖人工设计的特征工程,具有训练速度快、可解释性强的特点;而深度学习方法(如 Transformer)通过自注意力机制自动提取语义特征,在复杂任务上表现更优,但训练成本更高。近年来,状态空间模型(State Space Model, SSM)凭借对长序列的高效建模能力

文章图片
#transformer#支持向量机#分类
Deep-HMM 融合 Transformer:序列分类的动态隐状态建模新范式

在自然语言处理和序列建模领域,Transformer 凭借自注意力机制成为主流架构,但传统 Transformer 在处理时序序列时,往往通过全局平均池化(GAP)等简单方式聚合序列信息,丢失了时序动态特征。而隐马尔可夫模型(HMM)擅长建模时序数据的隐状态转移规律,本文将详解,以及如何将其与 Transformer 融合,构建更强大的序列分类模型,并通过对比实验验证该融合方案的有效性。

文章图片
#transformer#深度学习#人工智能
融合时空特征的动态图神经网络:DGNN-BiLSTM-Attention 详解与实战

DGNN-BiLSTM-Attention 的损失曲线快速下降并趋于平稳,50 轮后 MSE 降至 0.08 以下,说明模型收敛性良好,未出现过拟合(正则化生效)。为验证模型有效性,我们构建模拟数据集(电力负荷场景),并对比纯 LSTM、纯 BiLSTM、DGNN-BiLSTM-Attention 三种模型的性能。GCN 的核心价值是:将每个节点的特征与其邻居节点的特征加权融合,精准捕捉节点间的空

文章图片
#神经网络#人工智能#深度学习
手把手搭建 DeepSeek 多功能 AI 工作站:基于 Python Tkinter 的 GUI 实现

本文通过 Tkinter 搭建了一个轻量级的 DeepSeek 多功能 GUI 工作站,既讲解了 API 的配置与调用,也实现了多场景的 AI 交互。该项目易于扩展,可根据自己的需求添加更多功能,是学习 AI API 调用和 GUI 开发的绝佳实践案例。手把手搭建 DeepSeek 多功能 AI 工作站:基于 Python Tkinter 的 GUI 实现在 AI 工具日益普及的今天,DeepSe

文章图片
#python#开发语言
MixLinear:融合时域与频域的极简时间序列预测模型(附 LSTM/CNN 对比与架构优化)

本文提出MixLinear模型,通过双域融合架构实现轻量化时间序列预测。MixLinear结合时域分段线性变换和频域傅里叶滤波,以线性运算为核心,在参数量仅为LSTM 1/4的情况下取得45.2%的MSE提升。实验表明,MixLinear与LSTM/CNN的混合架构(如MixLinear-CNN-LSTM)性能最优,测试MSE达0.052,较LSTM提升67.9%。可视化分析验证了该模型在收敛速度

文章图片
#lstm#cnn#架构
    共 14 条
  • 1
  • 2
  • 请选择