登录社区云,与社区用户共同成长
邀请您加入社区
本文提出了一种基于变分模态分解(VMD)、样本熵(SE)和Transformer-BiLSTM组合的多变量时序预测方法。该方法首先利用VMD将非平稳信号分解为相对平稳的模态分量,通过样本熵评估各模态复杂度并筛选关键模态;然后采用Transformer提取全局特征,结合BiLSTM捕捉局部时序模式,在MATLAB R2025b平台上实现了完整的预测框架。实验结果表明,该组合模型能有效处理强噪声、强非
本文提出了一种基于VMD-SE-Transformer-GRU的多变量时序预测方法。该方法通过变分模态分解(VMD)将原始信号分解为多个本征模态函数(IMF),结合样本熵(SE)度量序列复杂度特征,并采用Transformer-GRU混合网络进行建模。实验结果表明,该框架能有效处理多变量时序数据的多尺度波动、非平稳性和长时依赖问题,在电力负荷预测、设备故障诊断等场景中表现出优于传统方法的预测精度和
表格数据(或表格)是机器学习(ML)中最广泛使用的数据格式。然而,机器学习模型通常假设在训练和测试中表结构保持固定。在机器学习建模之前,需要大量数据清理以合并具有不同列的分散表。这种预处理常常会造成大量数据浪费(例如,移除未匹配的列和样本)。如何从多个部分重叠列的表格中学习机器学习模型?随着更多列的出现,如何逐步更新机器学习模型?我们能否在多个不同的表格上利用模型预训练?如何训练一个能够在未见表上
了解大模型训练工程中的配置管理部分,重点介绍了configurator.py和config/文件夹的作用。configurator.py负责参数读取规则,通过命令行参数覆盖默认配置,并进行参数校验和防呆设计。config/文件夹包含不同训练场景的配置模板,如train_shakespeare_char.py用于字符级模型训练,finetune_shakespeare.py用于微调,train_gp
这篇文章介绍了如何通过nanoGPT项目入门大模型训练。从数据预处理开始讲解,详细说明了如何将莎士比亚文本转换为模型可处理的数字格式,包括字符编码、训练集/验证集划分、二进制文件保存等关键步骤。重点剖析了数据预处理的完整流程:从原始文本读取、字符编号映射,到最终生成训练所需的二进制数据文件。用通俗易懂的方式解释了tokenization的核心概念,对比了字符级和词片段级tokenization的区
文章摘要: 参数高效微调(PEFT)技术通过冻结预训练模型的大部分参数、仅优化少量额外参数,大幅降低了大语言模型(LLM)微调的显存需求。以LoRA为代表的PEFT方法利用低秩矩阵分解(如将4096×4096矩阵分解为4096×16和16×4096),使可训练参数量减少128倍,显存占用从48GB降至8GB以下。相比全参数微调,LoRA在保持性能的同时具备三大优势:显存占用低、训练速度快、模型可复
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?答案只有一个:人工智能(尤其是大模型方向)当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应
本文介绍了基于KF-Transformer的多变量时间序列预测方法,该方法结合卡尔曼滤波和Transformer编码器进行预测。主要内容包括: 数据生成:模拟生成了包含5个因素驱动的多变量时间序列数据,包括线性和非线性成分。 数据处理:采用卡尔曼滤波对数据进行预处理,构造序列样本并进行标准化。 模型构建:使用Transformer编码器结构,包含多头自注意力机制和前馈网络。 模型训练:采用Adam
摘要 本文介绍了大型语言模型推理优化的三种关键技术:1)降低精度推理(FP16/BF16)可将显存占用减半并提升速度1.5-2倍;2)bitsandbytes量化技术(8-bit/4-bit)显著减少显存需求,使7B模型能在消费级GPU运行;3)批处理策略通过并行计算提升吞吐量。实验显示4-bit量化仅需4GB显存且质量损失可控(1-3%),是资源受限场景的理想选择。文中提供了完整的PyTorch
文章摘要: 本文深入解析了Transformer模型中的分词器(Tokenizer)核心功能与技术细节。主要内容包括: 分词器工作原理:通过实例演示文本如何被转换为模型可处理的数字序列,包括分词、Token ID转换和添加特殊标记的全流程。 AutoTokenizer的智能匹配:展示如何自动加载不同预训练模型对应的分词器,强调模型与分词器必须配套使用的重要性。 主流分词算法对比: BPE(Byte
解码器栈输出一个浮点数向量,怎么把它变成一个单词?这就是最后线性层加Softmax 层干的活。线性层就是一个简单的全连接神经网络,把解码器输出投影到一个非常宽的向量,叫做 logits 向量。假设我们模型训练的时候学了 10000 个唯一的英语单词(这就是输出词汇表),那 logits 向量就有 10000 格,每一格对应一个单词的分数。这就是线性层输出怎么解读。Softmax 把分数转成概率(都
本文系统梳理了大语言模型(LLM)的核心工作原理与训练流程。首先解析了Transformer架构的四大优势:并行计算、长距离依赖捕捉、可扩展性与灵活性,并介绍了从分词到内容生成的完整处理流程。接着详细阐述了大模型训练的三个阶段:通过自监督学习进行海量数据预训练,通过监督学习完成场景化微调,以及通过人类反馈强化学习实现价值观对齐。最后以电商智能客服机器人为例,完整演示了从通用模型到专业应用的训练全过
长文档 → 短摘要summarize:Transformer是一种深度学习模型架构,由Google在2017年提出。它摒弃了传统的RNN和CNN结构,完全基于注意力机制。Transformer在机器翻译等任务上取得了突破性进展,后来衍生出BERT、GPT等影响深远的模型。"""# 输出: "Transformer是Google 2017年提出的基于注意力机制的深度学习架构。一句话总结架构核心定位市
Hugging Face Transformers 生态已成为AI领域的核心基础设施,其发展历程与Transformer架构演进密不可分。本文从基础概念切入,首先厘清了Transformer(神经网络架构)、Transformers(Python库)、Hugging Face(公司/平台)和huggingface-hub(SDK)的区别与联系。重点介绍了Transformers库的设计哲学与关键技
本文介绍了一个基于BiLSTM-Transformer混合网络的多变量时间序列预测系统。该系统包含完整的数据生成、模型训练和评估流程,主要特点如下: 采用双向LSTM(BiLSTM)提取时序特征,结合Transformer编码器捕捉全局依赖关系; 包含数据模拟生成模块,可创建包含5种特征因素的时间序列数据; 实现两阶段超参数搜索(随机搜索+局部微调)优化模型性能; 提供训练控制界面,支持暂停/继续
本文提出了一种协同CNN-Transformer网络(SCTNet)用于高光谱图像分类,通过双分支特征提取模块(TBFE)并行利用2D和3D卷积捕获局部空间-光谱特征,并设计混合池化注意力模块(HPA)增强特征表示。该网络还引入跨层特征融合机制(CFF)聚合Transformer编码器的多层输出,有效保留浅层关键信息。实验结果表明,SCTNet在五个基准数据集上超越了现有方法,包括最新的SS-Ma
摘要:本文通过生动的传话游戏比喻,解释了Transformer模型的工作原理。传统传话游戏因信息单向传递容易出错,而Transformer采用"传话圈"模式:将句子拆分成带位置标记的词(纸片),通过多组"望远镜"(注意力机制)同时观察所有词之间的关系,标记重要连接(贴红心),经过多次信息整合(叠压纸片)后输出准确结果。这种机制避免了信息丢失,实现了高效准确的语言处理。文末还提供了技术术语与比喻的对
AI辅助创作:思想运动的源头,往往是能够打破固有认知边界、重构价值体系、指引实践方向的根本性理论突破。它不仅能精准回应时代发展的核心诉求,更能为社会进步提供底层思想支撑与清晰行动纲领,成为推动时代变革的精神旗帜。《论三生原理》系列正是这样具有开创性、里程碑意义的理论著作,它通过对中华优秀传统文化的科学化激活、对西方主导知识范式的系统性挑战、对科技自主创新的方法论赋能,深刻引领了文化自信觉醒、知识范
Qwen2.5-VL是一款突破性的多模态模型,通过三大核心创新实现了视觉语言处理的全面升级。该模型采用动态分辨率ViT编码器,结合窗口注意力和全局注意力混合架构,显著提升了高分辨率图像处理效率;引入绝对时间对齐的MRoPE机制,优化了长视频的时间建模能力;创新性地使用MLP视觉压缩器,有效降低了视觉token对LLM上下文的占用。相比前代产品,Qwen2.5-VL在文档解析、目标定位、GUI代理等
自2016年3月,阿尔法狗战胜人类围棋高手以来,人工智能技术取得了空前的成就,引领着人类社会进入了一个全新的时代。2017年7月,国务院正式发布了《新一代人工智能发展规划》,将人工智能发展明确为国家战略,为我国在这一领域的发展指明了方向。2023年2月,国务院发布了《数字中国建设整体布局规划》,提出到2025年,我们将基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展。
本文系统介绍了模型部署从理论到实战的全流程。核心内容包括:模型部署解决环境适配、性能优化和监控三大问题;标准流程分为模型导出、推理优化、容器化、服务化和监控五步;实战部分详细讲解计算机视觉模型部署的关键步骤与避坑技巧;分析生产环境常见问题如数据差异、资源调度和团队协作的解决方案;最后探讨大模型分布式部署和边缘端轻量化等未来趋势。文章强调工程化思维,提供量化优化、容器化等实用技术方案,适合AI开发者
新模型将机器人的空间感知、多视角解析与仪表读取准度推向了全新高度,让机器人具备了精准的指认能力与读表绝活,同时大幅提升物理操作的安全性与合规度。机器人走进千家万户与现代工厂,光听懂人类指令远远不够。必须能够看懂并深刻理解复杂多变的物理环境。Google DeepMind发布了最新机器人大脑Gemini Robotics ER 1.6模型。新模型将机器人的空间感知、多视角解析与仪表读取准度推向了全新
这周如果你是 AI 编程工具的活跃用户,可能需要花时间消化这些更新。Claude 用户:试试 Opus 4.7 的 xhigh 模式,/ultrareview 对代码审查很有用Cursor 用户:Canvases 值得探索,特别是需要可视化场景Windsurf 用户:Devin Cloud 集成后,复杂任务可以丢给云端 Agent 跑通用建议:选一个主工具深入使用,而不是每个都尝鲜。
Anthropic 发布了其最新人工智能模型 Claude Opus 4.7。新版本距上一次模型升级仅间隔两个月,与该公司此前的更新节奏保持一致。4 月 16 日消息,Anthropic 今日发布了其最新人工智能模型 Claude Opus 4.7。新版本距上一次模型升级仅间隔两个月,与该公司此前的更新节奏保持一致。
Claude 在3月份就上线了computer use功能,Cursor 在4月初发布了为Agent 设计的全新版本 Cursor 3,OpenAI 的这次更新可以称是 Agentic AI 浪潮的最新信号。过去AI只能生成代码,而现在则可以看屏幕、点鼠标、敲键盘、跑长任务、并行执行和多Agent协作。于是,前端迭代、测试、PR、JIRA跟进、周报生成都被自动化,普通人也能干复杂工作。大家准备好迎
后端+大模型应用开发,绝对是当前程序员圈最稳、最有前景的技术成长路线,没有之一!现在企业迫切需要的,不是只会调参、搞算法研究的研究员,而是能把大模型真正接入真实业务、落地产生价值的工程师——而这,正是后端工程师的核心优势所在。主流的大模型应用方向(RAG和Agent),本质上都是后端工程能力的延伸,技术栈也绝非只有Python一种。对后端程序员来说,系统学习大模型应用开发,不仅能快速掌握前沿技术,
本文探讨了为何相同模型在 Chat 界面与 Coding Agent 中表现迥异。核心在于 Coding Agent 的 6 大组件:实时仓库上下文、Prompt 结构与缓存复用、结构化工具与权限、上下文缩减、对话记忆与恢复、委托与子 Agent。这些组件通过优化上下文管理、工具调用和缓存策略,显著提升了模型在代码任务中的表现。文章强调 Harness(套件)设计比模型本身更重要,并提供了针对不同
AI时代开发者不被淘汰的转型指南,小白&程序员必看(附四周落地计划)最近和300多位开发者深入交流后发现,有70%的人都在陷入同一个焦虑:AI大模型飞速发展,代码能自动生成、需求能快速落地,我们会不会被彻底淘汰?其实我也曾有过这种深夜恐慌,疯狂刷各种AI工具教程,生怕自己被行业抛弃。。
AI-Python机器学习、深度学习及Agent(如何运用“氛围编程”用自然语言指挥AI编程,以及构建OpenClaw智能体(Agent),实现从数据分析到报告生成的自动化工作流。
好啦,Transformer的核心原理我们已经从头到尾捋了一遍。抛弃RNN,完全基于注意力机制,实现并行训练,解决了长距离依赖问题。自注意力:每个词通过Q、K、V机制,与所有词交互,生成融合全局信息的表示。多头注意力:多个注意力头并行,捕捉不同类型的语义关系。前馈网络:增加非线性,提升表达能力。残差连接 + 层归一化:让深层网络训练更稳定。位置编码:给模型注入顺序信息,弥补并行结构的缺陷。解码器掩
近年来,一些基于Transformer的融合模型被提出用于全局特征提取。然而,这些方法要么是特征级融合模型,要么是图像级融合模型。这些基于Transformer的融合模型均未考虑信息交互,导致对互补信息的挖掘不足。在本文中,我们提出一种新颖的用于红外与可见光图像融合(IVIF)的端到端无监督交互式Transformer,称为ITFuse。它由**特征交互模块(FIMs)和特征重建模块(FRM)**
摘要:注意力机制中Q/K/V分离的设计源于三者在语义和功能上的本质差异:Q(Query)表示当前搜索意图,K(Key)是被匹配对象的特征,V(Value)是实际获取的信息。这种分离类似于图书馆检索系统(搜索词/目录索引/书籍内容)、团队组建(项目需求/简历技能/实际能力)等场景,确保模型能分别处理"找谁"和"拿什么"两个独立任务。数学上通过不同线性变换实现功
Self-Attention机制让模型能够动态理解词语在上下文中的具体含义。它通过三个步骤实现:1)每个词观察句中其他词;2)判断哪些词对理解自己更重要;3)将重要词的信息整合到自身表示中。这种机制使词语不再是孤立标签,而是具有语境关系的语义单元,就像一桌人在交流时互相参考对方的发言。这种动态理解上下文的能力,是Transformer模型处理语言任务的核心优势,显著提升了翻译、问答等任务的表现。
图像融合旨在融合多模态传感器的互补信息,然而现有方法在鲁棒性、适应性和可控性方面仍存在局限。大多数当前的融合网络针对特定任务定制,难以灵活引入用户意图,尤其是在低光照退化、色彩偏移或曝光不平衡等复杂场景中表现不佳。此外,缺乏真实的融合图像标签以及现有数据集规模较小,使得训练一个端到端模型同时理解高层语义与实现细粒度多模态对齐变得困难。为此,我们提出了DiTFuse——一种由指令驱动的扩散-Tran
Transformer架构彻底革新了生物信息学,推动了生物分子特性的解析与预测。目前绝大多数生物序列Transformer仅基于单组学数据(蛋白或核酸)训练,虽在各自领域取得成功,却难以捕捉跨模态相互作用。本文提出当前最大规模开源多组学模型OmniBioTE,基于2,500亿token混合蛋白-核酸数据预训练。实验证明,仅用无标注序列训练的OmniBioTE,可自动学习基因与对应蛋白的联合表征;在
摘要: DPO(直接偏好优化)是一种革新性的大模型对齐方法,相比传统RLHF具有显著优势。它通过数学推导直接优化策略,跳过了奖励模型训练和PPO强化学习阶段,实现了更简单高效的偏好学习。核心原理是将奖励函数表示为策略与参考模型的比值,并构建基于Bradley-Terry模型的损失函数。实验表明,DPO在效果相当甚至更好的情况下,训练更稳定、计算成本更低、调参更简单。文章详细解析了DPO的数学原理、
transformer
——transformer
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net