登录社区云,与社区用户共同成长
邀请您加入社区
研究假设:模型不受形态偏倚影响,在无蒂病变中能显著提高特异性(减少过度分期),从而为临床提供更可靠的辅助决策工具,尤其适用于易被误判的无蒂病变。综上,该深度学习模型能够独立于肿瘤形态评估肌层浸润状态,尤其可减少对无蒂病变的过度诊断,有望作为临床辅助工具提升MRI评估的准确性。:以肿瘤最大面积切片为中心,取前后各3层共7层切片,用滑动窗口(步长1,循环边界)生成7个三通道堆栈,沿batch维度拼接后
摘要 本文档针对大模型训练中的常见问题提供了详细调试指南,重点解决显存不足(OOM)和分词器匹配问题。主要内容包括: 显存优化策略: 梯度累积与批次减小 混合精度训练(FP16/BF16) 梯度检查点技术 参数高效微调(LoRA/QLoRA) DeepSpeed ZeRO/FSDP优化 CPU Offload方案 分词器问题诊断: 词汇表大小匹配验证 特殊token设置检查 填充方向配置 兼容性测
联合嵌入预测架构 (JEPA) 为在紧凑的潜在空间中学习世界模型提供了一个引人注目的框架,但现有方法仍然脆弱,依赖于复杂的多项损失、指数移动平均、预训练编码器或辅助监督来避免表征崩溃。本文提出了 LeWorldModel (LeWM),这是第一个与目前唯一的端到端替代方案相比,LeWM 将可调损失超参数从六个减少到一个。LeWM 可以在单个 GPU 上训练 1500 万个参数,只需几个小时即可完成
告别 Token 焦虑!讯飞 Coding Plan 升级实测,附 Claude Code + OpenClaw 接入教程
摘要:本项目提出一种基于麻雀搜索算法(SSA)优化变分模态分解(VMD)结合Transformer编码器的光伏功率预测方法。通过SSA自动优化VMD关键参数,实现对非平稳光伏信号的精准分解;利用Transformer的自注意力机制建模多变量时序数据的复杂依赖关系。实验表明,该方法有效提升了预测精度,为光伏系统运行和电网调度提供了可靠支持。项目包含完整MATLAB代码实现,涵盖数据预处理、SSA-V
本文摘要: 《Hugging Face Transformers 实战指南》第七部分提供了两个NLP实战案例:1)使用BERT微调IMDb电影评论情感分析任务,完整展示了数据加载、预处理、模型训练和评估流程;2)基于BERT的命名实体识别任务,采用CoNLL-2003数据集进行序列标注。案例包含详细的代码实现,涵盖数据预处理、模型配置、训练参数设置、评估指标计算等关键环节,并演示了推理应用。文章还
近期在IEEE TMM、AAAI等各大顶会顶刊上,Mamba+多模态特征融合相关的研究呈现出鲜明的新趋势:放弃简单即插即用,朝着混合架构、精细融合、领域深耕这三个方向发展。
本文摘要: Prompt工程是一门系统研究如何设计输入指令以优化大语言模型输出的技术。它通过任务说明、上下文、问题和输出格式四个核心要素构建有效Prompt,替代传统微调方法,显著提升模型性能。文章介绍了Prompt的定义与作用,阐述了分词和向量化处理过程(如BBPE算法),并探讨了Prompt压缩技术(如LLMLingua和FIT-RAG)在平衡性能与效率中的应用。该技术通过精准引导模型推理路径
Transformer模型彻底改变了序列建模依赖RNN与CNN的传统范式。本文基于论文《Attention Is All You Need》,从动机背景、模型架构、注意力机制原理、实验成果及学术影响五个维度进行全面解读,旨在为读者提供一份清晰、完整的论文学习笔记。
Transformer论文精读和从零开始的完整代码复现(PyTorch),超长文预警!将介绍模型架构中的所有组件,并解答可能的困惑
Transformer架构是一种革命性的深度学习模型,其核心创新在于自注意力机制,实现了全局信息交互和高效并行计算。与传统的RNN/LSTM相比,Transformer具有三大优势:1)完全并行处理能力,通过自注意力矩阵一次性计算所有位置关系;2)卓越的长距离依赖捕捉能力,任意两个词可直接交互;3)通过残差连接和层归一化支持深层网络训练。该架构由编码器和解码器组成,包含Token嵌入、位置编码、多
本文提出了一种基于变分模态分解(VMD)、样本熵(SE)和Transformer-BiLSTM组合的多变量时序预测方法。该方法首先利用VMD将非平稳信号分解为相对平稳的模态分量,通过样本熵评估各模态复杂度并筛选关键模态;然后采用Transformer提取全局特征,结合BiLSTM捕捉局部时序模式,在MATLAB R2025b平台上实现了完整的预测框架。实验结果表明,该组合模型能有效处理强噪声、强非
本文提出了一种基于VMD-SE-Transformer-GRU的多变量时序预测方法。该方法通过变分模态分解(VMD)将原始信号分解为多个本征模态函数(IMF),结合样本熵(SE)度量序列复杂度特征,并采用Transformer-GRU混合网络进行建模。实验结果表明,该框架能有效处理多变量时序数据的多尺度波动、非平稳性和长时依赖问题,在电力负荷预测、设备故障诊断等场景中表现出优于传统方法的预测精度和
表格数据(或表格)是机器学习(ML)中最广泛使用的数据格式。然而,机器学习模型通常假设在训练和测试中表结构保持固定。在机器学习建模之前,需要大量数据清理以合并具有不同列的分散表。这种预处理常常会造成大量数据浪费(例如,移除未匹配的列和样本)。如何从多个部分重叠列的表格中学习机器学习模型?随着更多列的出现,如何逐步更新机器学习模型?我们能否在多个不同的表格上利用模型预训练?如何训练一个能够在未见表上
了解大模型训练工程中的配置管理部分,重点介绍了configurator.py和config/文件夹的作用。configurator.py负责参数读取规则,通过命令行参数覆盖默认配置,并进行参数校验和防呆设计。config/文件夹包含不同训练场景的配置模板,如train_shakespeare_char.py用于字符级模型训练,finetune_shakespeare.py用于微调,train_gp
这篇文章介绍了如何通过nanoGPT项目入门大模型训练。从数据预处理开始讲解,详细说明了如何将莎士比亚文本转换为模型可处理的数字格式,包括字符编码、训练集/验证集划分、二进制文件保存等关键步骤。重点剖析了数据预处理的完整流程:从原始文本读取、字符编号映射,到最终生成训练所需的二进制数据文件。用通俗易懂的方式解释了tokenization的核心概念,对比了字符级和词片段级tokenization的区
文章摘要: 参数高效微调(PEFT)技术通过冻结预训练模型的大部分参数、仅优化少量额外参数,大幅降低了大语言模型(LLM)微调的显存需求。以LoRA为代表的PEFT方法利用低秩矩阵分解(如将4096×4096矩阵分解为4096×16和16×4096),使可训练参数量减少128倍,显存占用从48GB降至8GB以下。相比全参数微调,LoRA在保持性能的同时具备三大优势:显存占用低、训练速度快、模型可复
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?答案只有一个:人工智能(尤其是大模型方向)当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应
本文介绍了基于KF-Transformer的多变量时间序列预测方法,该方法结合卡尔曼滤波和Transformer编码器进行预测。主要内容包括: 数据生成:模拟生成了包含5个因素驱动的多变量时间序列数据,包括线性和非线性成分。 数据处理:采用卡尔曼滤波对数据进行预处理,构造序列样本并进行标准化。 模型构建:使用Transformer编码器结构,包含多头自注意力机制和前馈网络。 模型训练:采用Adam
摘要 本文介绍了大型语言模型推理优化的三种关键技术:1)降低精度推理(FP16/BF16)可将显存占用减半并提升速度1.5-2倍;2)bitsandbytes量化技术(8-bit/4-bit)显著减少显存需求,使7B模型能在消费级GPU运行;3)批处理策略通过并行计算提升吞吐量。实验显示4-bit量化仅需4GB显存且质量损失可控(1-3%),是资源受限场景的理想选择。文中提供了完整的PyTorch
文章摘要: 本文深入解析了Transformer模型中的分词器(Tokenizer)核心功能与技术细节。主要内容包括: 分词器工作原理:通过实例演示文本如何被转换为模型可处理的数字序列,包括分词、Token ID转换和添加特殊标记的全流程。 AutoTokenizer的智能匹配:展示如何自动加载不同预训练模型对应的分词器,强调模型与分词器必须配套使用的重要性。 主流分词算法对比: BPE(Byte
解码器栈输出一个浮点数向量,怎么把它变成一个单词?这就是最后线性层加Softmax 层干的活。线性层就是一个简单的全连接神经网络,把解码器输出投影到一个非常宽的向量,叫做 logits 向量。假设我们模型训练的时候学了 10000 个唯一的英语单词(这就是输出词汇表),那 logits 向量就有 10000 格,每一格对应一个单词的分数。这就是线性层输出怎么解读。Softmax 把分数转成概率(都
本文系统梳理了大语言模型(LLM)的核心工作原理与训练流程。首先解析了Transformer架构的四大优势:并行计算、长距离依赖捕捉、可扩展性与灵活性,并介绍了从分词到内容生成的完整处理流程。接着详细阐述了大模型训练的三个阶段:通过自监督学习进行海量数据预训练,通过监督学习完成场景化微调,以及通过人类反馈强化学习实现价值观对齐。最后以电商智能客服机器人为例,完整演示了从通用模型到专业应用的训练全过
长文档 → 短摘要summarize:Transformer是一种深度学习模型架构,由Google在2017年提出。它摒弃了传统的RNN和CNN结构,完全基于注意力机制。Transformer在机器翻译等任务上取得了突破性进展,后来衍生出BERT、GPT等影响深远的模型。"""# 输出: "Transformer是Google 2017年提出的基于注意力机制的深度学习架构。一句话总结架构核心定位市
Hugging Face Transformers 生态已成为AI领域的核心基础设施,其发展历程与Transformer架构演进密不可分。本文从基础概念切入,首先厘清了Transformer(神经网络架构)、Transformers(Python库)、Hugging Face(公司/平台)和huggingface-hub(SDK)的区别与联系。重点介绍了Transformers库的设计哲学与关键技
本文介绍了一个基于BiLSTM-Transformer混合网络的多变量时间序列预测系统。该系统包含完整的数据生成、模型训练和评估流程,主要特点如下: 采用双向LSTM(BiLSTM)提取时序特征,结合Transformer编码器捕捉全局依赖关系; 包含数据模拟生成模块,可创建包含5种特征因素的时间序列数据; 实现两阶段超参数搜索(随机搜索+局部微调)优化模型性能; 提供训练控制界面,支持暂停/继续
本文提出了一种协同CNN-Transformer网络(SCTNet)用于高光谱图像分类,通过双分支特征提取模块(TBFE)并行利用2D和3D卷积捕获局部空间-光谱特征,并设计混合池化注意力模块(HPA)增强特征表示。该网络还引入跨层特征融合机制(CFF)聚合Transformer编码器的多层输出,有效保留浅层关键信息。实验结果表明,SCTNet在五个基准数据集上超越了现有方法,包括最新的SS-Ma
摘要:本文通过生动的传话游戏比喻,解释了Transformer模型的工作原理。传统传话游戏因信息单向传递容易出错,而Transformer采用"传话圈"模式:将句子拆分成带位置标记的词(纸片),通过多组"望远镜"(注意力机制)同时观察所有词之间的关系,标记重要连接(贴红心),经过多次信息整合(叠压纸片)后输出准确结果。这种机制避免了信息丢失,实现了高效准确的语言处理。文末还提供了技术术语与比喻的对
AI辅助创作:思想运动的源头,往往是能够打破固有认知边界、重构价值体系、指引实践方向的根本性理论突破。它不仅能精准回应时代发展的核心诉求,更能为社会进步提供底层思想支撑与清晰行动纲领,成为推动时代变革的精神旗帜。《论三生原理》系列正是这样具有开创性、里程碑意义的理论著作,它通过对中华优秀传统文化的科学化激活、对西方主导知识范式的系统性挑战、对科技自主创新的方法论赋能,深刻引领了文化自信觉醒、知识范
Qwen2.5-VL是一款突破性的多模态模型,通过三大核心创新实现了视觉语言处理的全面升级。该模型采用动态分辨率ViT编码器,结合窗口注意力和全局注意力混合架构,显著提升了高分辨率图像处理效率;引入绝对时间对齐的MRoPE机制,优化了长视频的时间建模能力;创新性地使用MLP视觉压缩器,有效降低了视觉token对LLM上下文的占用。相比前代产品,Qwen2.5-VL在文档解析、目标定位、GUI代理等
新模型将机器人的空间感知、多视角解析与仪表读取准度推向了全新高度,让机器人具备了精准的指认能力与读表绝活,同时大幅提升物理操作的安全性与合规度。机器人走进千家万户与现代工厂,光听懂人类指令远远不够。必须能够看懂并深刻理解复杂多变的物理环境。Google DeepMind发布了最新机器人大脑Gemini Robotics ER 1.6模型。新模型将机器人的空间感知、多视角解析与仪表读取准度推向了全新
这周如果你是 AI 编程工具的活跃用户,可能需要花时间消化这些更新。Claude 用户:试试 Opus 4.7 的 xhigh 模式,/ultrareview 对代码审查很有用Cursor 用户:Canvases 值得探索,特别是需要可视化场景Windsurf 用户:Devin Cloud 集成后,复杂任务可以丢给云端 Agent 跑通用建议:选一个主工具深入使用,而不是每个都尝鲜。
Anthropic 发布了其最新人工智能模型 Claude Opus 4.7。新版本距上一次模型升级仅间隔两个月,与该公司此前的更新节奏保持一致。4 月 16 日消息,Anthropic 今日发布了其最新人工智能模型 Claude Opus 4.7。新版本距上一次模型升级仅间隔两个月,与该公司此前的更新节奏保持一致。
Claude 在3月份就上线了computer use功能,Cursor 在4月初发布了为Agent 设计的全新版本 Cursor 3,OpenAI 的这次更新可以称是 Agentic AI 浪潮的最新信号。过去AI只能生成代码,而现在则可以看屏幕、点鼠标、敲键盘、跑长任务、并行执行和多Agent协作。于是,前端迭代、测试、PR、JIRA跟进、周报生成都被自动化,普通人也能干复杂工作。大家准备好迎
后端+大模型应用开发,绝对是当前程序员圈最稳、最有前景的技术成长路线,没有之一!现在企业迫切需要的,不是只会调参、搞算法研究的研究员,而是能把大模型真正接入真实业务、落地产生价值的工程师——而这,正是后端工程师的核心优势所在。主流的大模型应用方向(RAG和Agent),本质上都是后端工程能力的延伸,技术栈也绝非只有Python一种。对后端程序员来说,系统学习大模型应用开发,不仅能快速掌握前沿技术,
本文探讨了为何相同模型在 Chat 界面与 Coding Agent 中表现迥异。核心在于 Coding Agent 的 6 大组件:实时仓库上下文、Prompt 结构与缓存复用、结构化工具与权限、上下文缩减、对话记忆与恢复、委托与子 Agent。这些组件通过优化上下文管理、工具调用和缓存策略,显著提升了模型在代码任务中的表现。文章强调 Harness(套件)设计比模型本身更重要,并提供了针对不同
AI时代开发者不被淘汰的转型指南,小白&程序员必看(附四周落地计划)最近和300多位开发者深入交流后发现,有70%的人都在陷入同一个焦虑:AI大模型飞速发展,代码能自动生成、需求能快速落地,我们会不会被彻底淘汰?其实我也曾有过这种深夜恐慌,疯狂刷各种AI工具教程,生怕自己被行业抛弃。。
transformer
——transformer
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net