登录社区云,与社区用户共同成长
邀请您加入社区
## 第二部分:位置编码的革命### 从绝对位置到旋转位置编码(RoPE)原始Transformer用的是固定的正弦/余弦位置编码——每个位置有一个唯一的向量标识。:了解架构限制在哪,下一步改进会在哪从原始注意力到GQA、Flash Attention,从绝对位置编码到RoPE,从Post-Norm到Pre-Norm+RMSNorm——每一步改进都有其工程动机。掌握这些,你对大模型的理解会从"会调
本文面向开发者群体,以通俗化视角系统科普大语言模型(LLM)核心知识,助力技术人员掌握AI时代核心底层逻辑。文章区分了传统模型与大模型的本质差异,阐释LLM基于Transformer神经网络、自监督学习的训练原理,点明其**下一词预测**的核心本质,并讲解RLHF对齐技术对模型输出的优化作用。同时梳理了大模型参数量大、通用性强、涌现能力突出等核心特征,汇总当前主流开源与商用LLM生态。文章全面拆解
如果你刚刚看完上面的项目演示,应该已经有一个直观感受:用户不需要写 SQL,直接用自然语言提问,系统自动返回「分析结论 + 可视化图表」
最重要概念稀疏激活:MoE 的本质——用海量参数换取极低的活跃计算量。Router(门控网络)Experts:MoE 的两大核心组件。:目前最主流的路由策略(尤其是 Top-2)。负载均衡:MoE 训练中最关键的挑战,必须通过辅助损失解决。共享专家(DeepSeek):现代 MoE 的重要创新方向。MoE vs 稠密模型对比参数容量:MoE ≫ 稠密推理计算量:MoE ≈ 小模型训练难度:MoE
《Humanity’s Last Exam(HLE)》是一个高难度评测基准,旨在评估前沿模型在专家级闭卷学术能力上的真实差距。HLE包含2500道题,覆盖100+学科,由近千名专家参与命题,题型包括短答案和多选题,并含多模态题目。其创新点包括专家众包构题、模型预筛难度、兼顾自动评分等。与传统评测(如MMLU)相比,HLE更注重高难度和跨学科综合能力,但也面临题目刁钻化、维护成本高等挑战。该基准通过
在 Transformer 架构中,Decoder(解码器)是最核心也是最复杂的部分。从早期的 Seq2Seq 模型,到后来的 BERT、GPT 系列,再到如今火遍全球的大语言模型(LLM),Decoder 的身影无处不在。很多人知道 Encoder 和 Decoder 有区别,但说不清楚到底哪里不同。今天这篇文章,我将从代码实现的角度,把 Decoder 的每一个细节讲透。│ Decoder 核
本文跟随经典论文梳理了seq2seq问题,以及LLM架构的理论基础。下一章(还没想好写什么)可能会讨论一些偏实践的问题。
这篇文章带你走完了PyTorch → Transformer → LLM训练 → 推理 → 量化 → 部署全流程。先跑通代码,再理解原理;先用LoRA,再玩大模型;先量化,再部署。
很多人将重度使用 Cursor 或 Copilot 等 AI 工具生成代码等同于氛围编程。事实并非如此,只要开发者依然与模型保持着逐行修改与审查的紧密反馈循环,这就无法称之为真正的「氛围」。Andre Karpathy 对此给出了更为精准的定义:「完全沉浸于氛围,拥抱技术发展的指数级增长,并且彻底忘记代码的存在。这种工作模式彻底降低了开发门槛,让缺乏工程背景的人群也能独立开发完整应用。但在过去,这
QuatRoPE 是一种面向 3D 大模型的高效可扩展位置嵌入方法,通过四元数旋转将绝对 3D 坐标转化为注意力层的相对空间关系,结合整体向量编码实现了精准的空间布局表征;IGRE 隔离门控机制则解决了多 RoPE 的干扰问题,保证了方法与现有大模型的兼容性;同时构建的 ASR 基准,丰富了纯 3D 空间推理评估体系。实验结果表明,QuatRoPE+IGRE 在多个 3D VL 主流基准和 ASR
ATM-Bench 的实验结果虽然「惨淡」,但作者团队相信这为未来的长期记忆机制与个性化 AI 助手的研究开辟了新的方向。OpenClaw、Codex、Claude Code 的集体表现不佳告诉我们:工具链再完善、模型再强大,也弥补不了记忆架构上的根本缺陷。当 AI 真正能够像人类一样,在数年的记忆长河中准确检索、关联、推理,我们离真正的「个性化 AI」才会更近一步。
本文介绍了人工智能领域的基础概念和应用技术,包括AI、机器学习、深度学习、神经网络等核心名词,以及自然语言处理、语音处理等应用场景。重点讲解了RAG(检索增强生成)技术的原理和组成,涉及文本向量化、相似度计算、向量数据库和搜索技术(如KNN、ANN)。此外,还介绍了提示工程、思维链方法,以及乘积量化(PQ)等向量压缩技术,为理解AI系统的工作原理提供了基础知识框架。
摘要:本文提出了一种基于WOA鲸鱼优化的Transformer-LSTM混合模型用于时间序列预测。该方法通过鲸鱼优化算法自动调整网络超参数,结合Transformer的全局特征提取能力和LSTM的局部时序建模优势。MATLAB 2024b实现表明,该算法在电池容量预测等任务中显著降低了训练集和测试集的均方误差,有效提升了预测精度和泛化能力。算法核心包含Transformer模块的多头自注意力机制、
Transformer 因其在自然语言处理 (Natural Language Processing, NLP) 任务中的优异表现而被广泛应用,其主要优势在于能够有效建模时间序列数据。这些数据可以是文本,也可以是非文本。本节将介绍如何使用 Transformer 进行时间序列数据建模和预测,将学习时间序列的基本概念,并在此基础上使用一个简单的模型,用以初步了解时间序列数据,并为各种预测任务奠定基础
【摘要】"测试工程师消亡论"引发行业思考,但事实正相反:自动化与AI技术并未取代测试工程师,而是将其角色从执行者升级为质量战略家。文章指出自动化存在维护成本高、测试设计局限和战略思维缺失三大短板,强调人类在风险洞察、业务理解和决策制定上的不可替代性。未来测试工程师需构建技术、业务和思维三维护城河,成为驾驭AI工具、深耕领域知识和制定质量战略的新型人才。智能化浪潮下,测试工程师的
AI Agent赛道持续爆发,Agent工程师成为科技行业最炙手可热的新岗位。但这个岗位到底做什么?和普通程序员有什么区别?普通人如何入行?本文一次性说清楚。
本文详细解析了Transformer在大模型中的两个代表性应用:Bert和GPT。Bert采用双向Transformer编码器,擅长文本理解,通过预训练+微调的方式学习文本表示;GPT则采用单向Transformer解码器,专注于生成任务,通过因果掩码实现文本生成。文章还介绍了BERT的输入结构、预训练过程以及下游任务的微调方法,并强调了预训练的自监督特性和微调的有监督特性。
我从UI设计师一路转型到现在,走了四年弯路。
Transformer is a deep learning architecture based on self-attention mechanism. Originally designed for NLP, it has been widely adopted in computer vision. The core idea is to enable the model to direc
摘要 本文详解Google Research提出的Vision Transformer(ViT)架构,该模型将图像切分为固定大小的patch序列,通过线性投影和位置编码处理后直接输入标准Transformer编码器进行分类。文章重点分析了ViT与CNN在归纳偏置上的本质差异,阐释了ViT依赖大规模预训练的原因,并讨论了patch尺寸与计算效率的关系。作为视觉Transformer的基础模型,ViT
AI时代,Java工程师真的要被淘汰吗?答案当然是不。但我们确实需要学点新东西。Spring AI已经把AI对接做得非常友好了。如果你用过Spring Data JPA、RestTemplate、WebClient,你会发现 Spring AI 的风格完全一致——熟悉的注解,熟悉的Fluent API,熟悉的Spring味儿。今天我就用真实项目代码,手把手教大家如何用 Spring AI 的Cha
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?答案只有一个:人工智能(尤其是大模型方向)当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应
Skills是结构化的本地文件夹,用于封装特定领域流程、知识和工具,使大模型能自动或按需调用。与临时的Prompt不同,Skills将方法沉淀下来,供大模型重复调用。适合高频、输出一致性要求高的任务,通过主说明文件、规则文档、模板、脚本和参考资料等结构组成,Skills按需加载,节省token。建议收藏,持续学习大模型应用知识。
研究假设:模型不受形态偏倚影响,在无蒂病变中能显著提高特异性(减少过度分期),从而为临床提供更可靠的辅助决策工具,尤其适用于易被误判的无蒂病变。综上,该深度学习模型能够独立于肿瘤形态评估肌层浸润状态,尤其可减少对无蒂病变的过度诊断,有望作为临床辅助工具提升MRI评估的准确性。:以肿瘤最大面积切片为中心,取前后各3层共7层切片,用滑动窗口(步长1,循环边界)生成7个三通道堆栈,沿batch维度拼接后
摘要 本文档针对大模型训练中的常见问题提供了详细调试指南,重点解决显存不足(OOM)和分词器匹配问题。主要内容包括: 显存优化策略: 梯度累积与批次减小 混合精度训练(FP16/BF16) 梯度检查点技术 参数高效微调(LoRA/QLoRA) DeepSpeed ZeRO/FSDP优化 CPU Offload方案 分词器问题诊断: 词汇表大小匹配验证 特殊token设置检查 填充方向配置 兼容性测
联合嵌入预测架构 (JEPA) 为在紧凑的潜在空间中学习世界模型提供了一个引人注目的框架,但现有方法仍然脆弱,依赖于复杂的多项损失、指数移动平均、预训练编码器或辅助监督来避免表征崩溃。本文提出了 LeWorldModel (LeWM),这是第一个与目前唯一的端到端替代方案相比,LeWM 将可调损失超参数从六个减少到一个。LeWM 可以在单个 GPU 上训练 1500 万个参数,只需几个小时即可完成
告别 Token 焦虑!讯飞 Coding Plan 升级实测,附 Claude Code + OpenClaw 接入教程
摘要:本项目提出一种基于麻雀搜索算法(SSA)优化变分模态分解(VMD)结合Transformer编码器的光伏功率预测方法。通过SSA自动优化VMD关键参数,实现对非平稳光伏信号的精准分解;利用Transformer的自注意力机制建模多变量时序数据的复杂依赖关系。实验表明,该方法有效提升了预测精度,为光伏系统运行和电网调度提供了可靠支持。项目包含完整MATLAB代码实现,涵盖数据预处理、SSA-V
本文摘要: 《Hugging Face Transformers 实战指南》第七部分提供了两个NLP实战案例:1)使用BERT微调IMDb电影评论情感分析任务,完整展示了数据加载、预处理、模型训练和评估流程;2)基于BERT的命名实体识别任务,采用CoNLL-2003数据集进行序列标注。案例包含详细的代码实现,涵盖数据预处理、模型配置、训练参数设置、评估指标计算等关键环节,并演示了推理应用。文章还
近期在IEEE TMM、AAAI等各大顶会顶刊上,Mamba+多模态特征融合相关的研究呈现出鲜明的新趋势:放弃简单即插即用,朝着混合架构、精细融合、领域深耕这三个方向发展。
本文摘要: Prompt工程是一门系统研究如何设计输入指令以优化大语言模型输出的技术。它通过任务说明、上下文、问题和输出格式四个核心要素构建有效Prompt,替代传统微调方法,显著提升模型性能。文章介绍了Prompt的定义与作用,阐述了分词和向量化处理过程(如BBPE算法),并探讨了Prompt压缩技术(如LLMLingua和FIT-RAG)在平衡性能与效率中的应用。该技术通过精准引导模型推理路径
Transformer模型彻底改变了序列建模依赖RNN与CNN的传统范式。本文基于论文《Attention Is All You Need》,从动机背景、模型架构、注意力机制原理、实验成果及学术影响五个维度进行全面解读,旨在为读者提供一份清晰、完整的论文学习笔记。
Transformer论文精读和从零开始的完整代码复现(PyTorch),超长文预警!将介绍模型架构中的所有组件,并解答可能的困惑
Transformer架构是一种革命性的深度学习模型,其核心创新在于自注意力机制,实现了全局信息交互和高效并行计算。与传统的RNN/LSTM相比,Transformer具有三大优势:1)完全并行处理能力,通过自注意力矩阵一次性计算所有位置关系;2)卓越的长距离依赖捕捉能力,任意两个词可直接交互;3)通过残差连接和层归一化支持深层网络训练。该架构由编码器和解码器组成,包含Token嵌入、位置编码、多
本文提出了一种基于变分模态分解(VMD)、样本熵(SE)和Transformer-BiLSTM组合的多变量时序预测方法。该方法首先利用VMD将非平稳信号分解为相对平稳的模态分量,通过样本熵评估各模态复杂度并筛选关键模态;然后采用Transformer提取全局特征,结合BiLSTM捕捉局部时序模式,在MATLAB R2025b平台上实现了完整的预测框架。实验结果表明,该组合模型能有效处理强噪声、强非
本文提出了一种基于VMD-SE-Transformer-GRU的多变量时序预测方法。该方法通过变分模态分解(VMD)将原始信号分解为多个本征模态函数(IMF),结合样本熵(SE)度量序列复杂度特征,并采用Transformer-GRU混合网络进行建模。实验结果表明,该框架能有效处理多变量时序数据的多尺度波动、非平稳性和长时依赖问题,在电力负荷预测、设备故障诊断等场景中表现出优于传统方法的预测精度和
表格数据(或表格)是机器学习(ML)中最广泛使用的数据格式。然而,机器学习模型通常假设在训练和测试中表结构保持固定。在机器学习建模之前,需要大量数据清理以合并具有不同列的分散表。这种预处理常常会造成大量数据浪费(例如,移除未匹配的列和样本)。如何从多个部分重叠列的表格中学习机器学习模型?随着更多列的出现,如何逐步更新机器学习模型?我们能否在多个不同的表格上利用模型预训练?如何训练一个能够在未见表上
了解大模型训练工程中的配置管理部分,重点介绍了configurator.py和config/文件夹的作用。configurator.py负责参数读取规则,通过命令行参数覆盖默认配置,并进行参数校验和防呆设计。config/文件夹包含不同训练场景的配置模板,如train_shakespeare_char.py用于字符级模型训练,finetune_shakespeare.py用于微调,train_gp
这篇文章介绍了如何通过nanoGPT项目入门大模型训练。从数据预处理开始讲解,详细说明了如何将莎士比亚文本转换为模型可处理的数字格式,包括字符编码、训练集/验证集划分、二进制文件保存等关键步骤。重点剖析了数据预处理的完整流程:从原始文本读取、字符编号映射,到最终生成训练所需的二进制数据文件。用通俗易懂的方式解释了tokenization的核心概念,对比了字符级和词片段级tokenization的区
文章摘要: 参数高效微调(PEFT)技术通过冻结预训练模型的大部分参数、仅优化少量额外参数,大幅降低了大语言模型(LLM)微调的显存需求。以LoRA为代表的PEFT方法利用低秩矩阵分解(如将4096×4096矩阵分解为4096×16和16×4096),使可训练参数量减少128倍,显存占用从48GB降至8GB以下。相比全参数微调,LoRA在保持性能的同时具备三大优势:显存占用低、训练速度快、模型可复
本文介绍了基于KF-Transformer的多变量时间序列预测方法,该方法结合卡尔曼滤波和Transformer编码器进行预测。主要内容包括: 数据生成:模拟生成了包含5个因素驱动的多变量时间序列数据,包括线性和非线性成分。 数据处理:采用卡尔曼滤波对数据进行预处理,构造序列样本并进行标准化。 模型构建:使用Transformer编码器结构,包含多头自注意力机制和前馈网络。 模型训练:采用Adam
摘要 本文介绍了大型语言模型推理优化的三种关键技术:1)降低精度推理(FP16/BF16)可将显存占用减半并提升速度1.5-2倍;2)bitsandbytes量化技术(8-bit/4-bit)显著减少显存需求,使7B模型能在消费级GPU运行;3)批处理策略通过并行计算提升吞吐量。实验显示4-bit量化仅需4GB显存且质量损失可控(1-3%),是资源受限场景的理想选择。文中提供了完整的PyTorch
文章摘要: 本文深入解析了Transformer模型中的分词器(Tokenizer)核心功能与技术细节。主要内容包括: 分词器工作原理:通过实例演示文本如何被转换为模型可处理的数字序列,包括分词、Token ID转换和添加特殊标记的全流程。 AutoTokenizer的智能匹配:展示如何自动加载不同预训练模型对应的分词器,强调模型与分词器必须配套使用的重要性。 主流分词算法对比: BPE(Byte
transformer
——transformer
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net