登录社区云,与社区用户共同成长
邀请您加入社区
AI 正在深刻改变软件开发的方式。从最初的代码补全,到如今的自主式 AI Agent,开发者与 AI 的协作模式正在快速演进。在这个过程中,一种被称为 vibe coding 的实践模式率先流行——开发者将需求直接抛给 AI,不审查 diff、不理解生成的代码,凭直觉接受输出,以最快的速度得到"能跑"的结果。Vibe coding 在原型验证和个人项目中有其价值,但它的本质是用速度换取了理解和控制
在个性化医疗预测中,准确识别各项医疗特征(如不同的诊断代码)之间的内在联系对于提取病人的健康模式至关重要。这篇论文针对现有深度学习模型在医疗数据稀疏、样本有限的情况下难以自动学习到有效特征关联的问题,创新性地提出了一种利用大语言模型作为知识库来推理特征间定量相关性的思路。研究团队开发了名为 DearLLM 的新型框架,该框架通过计算大语言模型在特定病人背景下的推理困惑度,精确地捕捉并学习医疗特征间
摘要 本文深入解析了文本数据如何转化为模型可处理的数字张量,聚焦三大核心技术环节: 分词策略演进:从单词切分到子词分词(BPE/WordPiece/SentencePiece),解决词汇爆炸和OOV问题 向量化过程:通过Embedding层将离散token映射为连续向量空间 位置编码机制:为Transformer注入序列顺序信息 通过对比GPT使用的BPE、BERT采用的WordPiece及多语言
摘要:本文深入解析Transformer解码器的核心机制,重点对比其与编码器的差异。解码器通过掩码自注意力实现自回归生成,确保当前位置仅依赖已生成内容;交叉注意力层则动态关联编码器输出,实现源-目标对齐。文章详细拆解了因果掩码的实现原理、Teacher Forcing训练策略,并提供PyTorch代码实现解码器层。最后通过机器翻译示例,演示了从<SOS>触发、逐步生成目标序列的自回归过程,揭示了生
这种“左手理解、右手生成”的分工,是处理时序信号最科学的物理形态。每一个初次接触大模型的人,在打开那篇划时代的论文《Attention Is All You Need》时,多半会被那张经典的 Transformer 架构图搞晕:密密麻麻的连线、左右对称的层级、莫名其妙的“Masked”字样。注意: 虽然在逻辑任务上完全去中心化,但在处理日常对话等主观任务时,DeepSeek 依然采用混合奖励机制(
《Dive into LLMs:大模型学习者的实践指南》摘要 GitHub热门项目"Dive into LLMs"由上海交通大学团队开发,是国内首个系统化的大模型实践教程。项目提供从基础微调到高级安全对齐的全流程内容,包含课件、代码脚本和实验手册,解决传统学习中的七大痛点:理论实践脱节、资源分散、门槛高等问题。教程涵盖11个核心模块,包括模型微调、知识编辑、多模态应用等,特别关
摘要:BERT、GPT和T5是三大主流Transformer架构模型。BERT基于编码器结构,通过双向上下文理解和掩码语言模型(MLM)任务,擅长文本理解类任务;GPT采用解码器结构,以自回归方式生成文本,专注文本生成;T5统一使用编码器-解码器架构,将各类NLP任务转化为文本到文本格式。三者预训练目标各异:BERT使用MLM和NSP,GPT采用自回归建模,T5则通过前缀任务实现多任务统一处理。这
当顶尖大语言模型智能体(Agent)在模拟企业环境中挣扎,正确率惨淡到0%时,一个叫RUBICON的新架构,靠一套简单直白的查询语言,把正确率拉到了100%。而且用的还是更小更便宜的模型。AI圈子有个很有意思的现象。一边是科技公司疯狂给大模型装“手和脚”,让它替人操作各种软件;另一边,真正需要AI的企业客户却在摇头。慕尼黑工业大学,达姆施塔特工业大学,麻省理工学院等的一群研究者,在他们最新的论文里
很多 Agent 系统的训练或搭建方式,是先拿一个已经训练好的通用模型,然后在最后阶段教它使用工具。比如给它一些 ReAct 格式的数据,让它学会先思考、再调用工具、再根据工具结果继续回答。这个方法有效,但也容易让工具使用变成一种“表层技能”。所谓表层技能,就是模型看起来会调用工具,也能按格式输出,但它对任务推进的理解还不够深。它可能把搜索当成一个动作模板,而不是把搜索当成解决问题的一部分。遇到简
紧接着曝出“OpenAI 要做手机”的当天,前苹果CEO约翰 · 斯卡利(1983 至 1993 年任苹果 CEO)在接受福克斯商业频道采访时表示:“OpenAI 是苹果多年来面临的最大竞争威胁,这可能标志着苹果在科技行业长达数十年主导地位出现转折。“OpenAI 要做手机”这条消息还未被证实,但从 OpenAI 在芯片、硬件团队上的持续投入来看,它显然已经不满足于只做“一个应用”或“一个模型”。
本文详细介绍了基于Transformer的音乐生成模型实现过程。作者将72首钢琴曲通过EnCodec编码为token序列,采用类似GPT的自回归建模方式预测下一个音频token。模型采用多codebook独立embedding结构,通过加权损失函数(主旋律权重更高)和AdamW优化器进行训练。生成阶段采用temperature采样控制多样性,最终能产生具有基本旋律结构的钢琴曲。文章还分享了OOM、
2026年,AI浪潮席卷全球!从国内头部大厂到中小创业公司,从海外科技巨头到传统行业企业,全行业都在疯狂拥抱AI、布局大模型,AI已成为企业生存与增长的核心关键词。
摘要: RAG(检索增强生成)与Agent(智能体)成为2024年AI领域热门岗位,市场需求激增300%,头部企业开出百万年薪。RAG通过外挂知识库提升模型回答准确性,Agent则赋予AI任务规划与工具调用能力,二者协同推动应用落地。岗位集中于企业服务、AI创业公司及互联网大厂,RAG方向月薪25k-50k,Agent方向30k-60k。核心技术栈包括LangChain、向量数据库及Prompt工
本文介绍Transformer架构的语言模型在做推理时KV cache是如何节省计算次数,供参考
《从测试工具使用者到AI测试架构师的转型之路》 一位八年经验的测试工程师通过构建专属AI测试系统实现职业跃迁。文章分享了如何从执行层转向策略设计层:1)精准识别测试流程四大痛点;2)基于低代码平台和Prompt工程打造具备用例生成、缺陷分析等核心能力的AI伙伴;3)通过结构化提示词将领域知识注入AI系统。实践成果显示用例设计效率提升60%,回归测试时间减少35%。这种"构建者思维&quo
LoRA(低秩自适应)是一种参数高效微调方法,通过在预训练模型旁注入可训练的低秩分解矩阵(B×A),大幅减少训练参数量(通常0.1%-1%)。核心优势包括:显存占用低、训练速度快、存储成本小(仅需保存MB级权重),且效果接近全量微调。其原理基于预训练权重更新具有低秩特性,通过冻结原始权重W,训练随机初始化的A矩阵和全零初始化的B矩阵(r<<d)。LoRA广泛应用于Transformer
DeepSeek V4通过创新的CSA/HCA混合注意力机制实现了大模型效率革命。该架构将传统O(n²)复杂度的注意力计算优化为压缩稀疏(CSA)和重度压缩(HCA)的混合模式,使百万token上下文的处理成本骤降。
Transformer 编码器层实现解析 本文深入解析 Transformer 编码器的核心结构和实现原理,通过图解和代码演示帮助读者理解 BERT 等预训练模型的基础架构。文章首先从宏观角度介绍编码器的"三明治"结构,包括多头注意力、前馈网络和残差连接等关键组件。随后详细剖析各子模块的功能:多头自注意力实现全局信息交互,前馈网络提供非线性变换能力,残差连接解决梯度消失问题,层
残差连接的核心公式:,输入加变换输出,网络只需学习变化量解决梯度消失:反向传播路径上多了一个+1,梯度可以直接跳过中间变换层Transformer 中有两条:一条在 Attention 子层后、一条在 Feed Forward 子层后Pre-LayerNorm 是黄金搭档:把 Norm 移到子层前,让残差路径更干净mHC 是下一代演进:给残差路径加上流形约束,让千亿参数模型的训练更稳定本质是信息保
全面分析transformer位置编码架构
一种新型端到端轴承故障诊断框架IMSE-IGA-CNN-Transformer,通过协同优化信号预处理与深度学习模型,显著提升了诊断性能。创新点包括:1)采用改进多目标香鼬优化算法(IMOCOA)优化SVR参数,有效抑制EMD端点效应;2)利用免疫遗传算法(IGA)自动优化CNN-Transformer超参数;3)构建串行混合网络结构,结合局部特征提取与全局时序建模优势。在CWRU和MFPT数据集
在深度学习的世界里,早期的序列模型(RNN、LSTM)处理信息的方式有点像 “平均用力”:无论输入序列有多长,它们都会把每一个词的信息压缩进一个固定长度的向量中。这就好比让你在 10 秒钟内记住 100 个电话号码——结果就是什么都记不准。注意力机制 的诞生彻底改变了这一局面。它允许模型在处理某个输出时,动态地从输入序列中挑选最相关的信息,忽略不重要的部分...
摘要: 本文通过模块化拆解Transformer架构,从输入到输出梳理了核心流程。首先通过词嵌入和位置编码将文本转为向量,随后编码器通过自注意力和前馈网络双向理解输入,生成上下文感知的表示。解码器则采用掩码自注意力和交叉注意力逐步生成输出,每次仅依赖已生成内容。关键点在于编码器-解码器的协同:编码器压缩输入信息,解码器动态查询并生成目标序列。全文以伪代码和比喻(如“位置身份证”)降低理解门槛,适合
本文摘要: 《从零上手Transformers必备数学与机器学习基础》是一篇面向初学者的技术指南,重点讲解Transformer模型所需的4个核心数学工具和机器学习基础知识。文章采用"专业但接地气"的风格,通过代码示例和通俗比喻帮助读者理解: 数学基础部分涵盖向量/矩阵运算(信息混合工具)、Softmax函数(概率转换器)和激活函数(非线性引入器) 机器学习基础包括神经网络结构
《AI架构革命:从Transformer到光电忆阻器》 传统Transformer架构面临算力困境,其O(n²)计算复杂度和冯·诺依曼架构的"存储墙"严重制约发展。新一代技术正加速突破:1)忆阻器实现存算一体,北京大学团队验证能效提升96倍;2)光电融合技术利用光信号突破电子速度极限;3)Mamba架构抛弃注意力机制,推理速度提升5倍;4)数据流芯片(如英伟达收购的Groq)实
AI工程知识图谱摘要(149字) AI工程知识图谱系统化梳理了7大核心模块:1)基石与里程碑(Transformer等关键突破)→2)大模型架构与训练(三阶段训练/微调方法)→3)Prompt工程(CoT/ReAct等交互范式)→4)Agent架构(记忆/工具/规划系统)→5)上下文工程与RAG(突破上下文限制)→6)技能工具链(MCP协议/开发框架)→7)评估与安全体系。图谱通过50+核心概念和
Transformer革命:从序列依赖到并行计算的突破 本文剖析了Transformer架构如何解决传统RNN/LSTM的核心痛点,并重塑了深度学习的技术格局: RNN/LSTM的根本瓶颈 串行计算:必须按序列顺序逐个处理词元,无法并行化 长距离依赖:梯度消失问题导致模型难以捕捉远距离词元关系 计算效率:序列长度增加时训练时间呈指数增长 Transformer的核心创新 自注意力机制:直接建模任意
SFFNet 遥感分割链路:RGB 遥感图 → Haar 小波分解 (level=1, 低频 256² + 高频 3×256²) → GlobalBranch (低频大核 7×7) + LocalBranch (高频卷积 3×3) → FusionModule (cat→128ch→上采样→seg) → mIoU=0.703 (Vaihingen, 6 类), 比 U-Net 高 6.1 个百分点
用 Flower 框架实现 FedAvg,客户端本地上传梯度、服务器聚合后下发。差分隐私(梯度裁剪 + 高斯噪声)在隐私预算 ε<1.0 时,性能损失控制在 2-3%。建议先在单个客户端的 2D 切片上调试 U-Net,验证训练可收敛,再扩展到完整的 3D 联邦训练。BraTS 数据集的 Dice 目标:ET 0.80+、NCR 0.75+、ED 0.75+。
流式 3D 重建旨在从视频流中恢复 3D 信息,例如相机位姿和点云。我们提出了 LingBot-Map,这是一个基于几何上下文转换器 (geometric context transformer ,GCT) 架构的前馈 3D 基础模型,用于从流数据中重建场景。坐标定位coordinate grounding、密集几何线索dense geometric cues和长程漂移校正问题。
Transformer模型正进入LLMs+时代,从参数堆叠转向架构创新。核心突破包括:MoE架构提升效率与模块化;扩散模型替代自回归实现并行推理;视觉编码器降低文本处理成本;百万级上下文面临信息稀释问题,MIT提出递归LLMs解决方案。未来竞争将聚焦工程化能力,率先突破的团队将掌握市场定价权。(149字)
本文系统阐述了大模型训练的三大核心阶段:预训练、有监督微调(SFT)和人类对齐(RLHF/DPO)。预训练阶段通过海量无标注数据让模型掌握语言统计规律和世界知识;SFT阶段使用高质量指令-回答对教会模型对话能力;RLHF/DPO阶段则通过人类反馈优化模型行为。文章通过生动类比(如"博览群书的孩子")解释各阶段目标,并对比了工业级与学习级模型的差异。最后介绍了nano-LLM项目
当前大模型技术呈现多路线并行发展态势,主要分为三层架构:主干序列建模(自注意力、状态空间模型、线性递推、长卷积等)、记忆与上下文扩展机制(检索增强、压缩记忆等)、规模化实现路径(MoE、潜变量压缩等)。各路线在底层数学上逐渐趋同,竞争焦点转向算子表达能力、系统扩展性与硬件适配性的综合平衡。未来可能形成统一框架,关键指标将聚焦成本效率与泛化能力,而非单一数学形式的最优性。
摘要: SmolVLA是Hugging Face/LeRobot生态下的轻量级Vision-Language-Action(VLA)模型,专注于降低机器人训练与部署成本。其核心特点包括小参数规模、单GPU训练能力、消费级硬件部署适配性,以及LeRobot数据格式兼容性。模型采用SmolVLM2作为视觉-语言-状态编码器,通过Flow Matching Action Expert生成连续动作序列,实
在目标检测领域,YOLO系列算法凭借其卓越的检测精度与实时性能,已经成为工业界与学术界应用最为广泛的算法架构之一。从最初的YOLOv1到如今的YOLOv10,该系列算法经历了多次迭代更新,每一次更新都在精度、速度、模型体积等多个维度带来了重要突破。YOLOv10作为YOLO家族的最新成员,在保持实时性优势的同时,通过引入更高效的特征提取网络、优化的训练策略以及先进的后处理技术,进一步提升了检测精度
在计算机视觉领域,目标检测始终是核心研究方向之一。本文提出了一种创新的目标检测框架——PVTv2-YOLOv10,该框架将金字塔视觉Transformer(Pyramid Vision Transformer V2, PVTv2)与YOLOv10有机统一,构建了全新的特征提取与融合范式。通过引入PVTv2的多尺度注意力机制与空间缩减策略,我们的模型在保持YOLOv10实时检测优势的同时,显著提升了
目标检测作为计算机视觉领域的核心任务之一,在自动驾驶、安防监控、工业质检等场景中具有广泛应用。YOLO系列算法凭借其卓越的检测速度与精度的平衡,成为工业界最受欢迎的实时目标检测框架。YOLOv10作为该系列的最新成员,在模型架构上进行了全面优化,但依旧采用传统CNN风格的骨干网络。Swin Transformer作为Vision Transformer的代表性工作,通过层级化设计与移位窗口注意力机
本地大模型评测:九款主流模型性能对比 本次测试评估了九款本地大模型在逻辑推理、代码生成、响应速度和稳定性方面的表现。Gemma-4-31B-IT-Uncensored以0.975总分位居榜首,在逻辑推理和代码生成方面均表现优异,且稳定性最佳。Qwen3.6-27B以0.9分位列第二,逻辑能力突出但响应速度最慢。SuperGemma4-26B-Uncensored和Qwen3.6-35B-A3B-U
摘要 SmolVLA与LeRobot构成了一套轻量化、工程友好的VLA(Vision-Language-Action)技术方案,聚焦于开源机器人学习生态的闭环实现。核心特点包括: 轻量模型:SmolVLA基于SmolVLM2主干,结合多视角图像、机器人状态和语言指令,通过Flow Matching Transformer输出连续动作块(action chunk),支持单GPU训练和消费级硬件部署。
昇腾CANN训练营推出Transformer算子技术专题,聚焦大模型核心算子优化。OpenTransformer算子仓覆盖MHA、MOE等关键模块,采用生态兼容、高内聚低耦合设计。专家深入解析了MOE架构中的Dispatch/Combine优化、FIA算子在MLA中的应用、GMM低精度支持等核心技术。通过共享内存通信、双分区方案、Amable算法等创新手段,显著提升算子性能。训练营提供0基础到进阶
transformer
——transformer
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net