logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习基础知识-Transformer基础

本文介绍了Transformer模型中的自注意力机制及其实现细节。首先讲解了自注意力层的计算过程,包括Q、K、V的线性变换、多头注意力重要的是要除以√d_k进行缩放,以防止梯度消失。文章还讨论了位置编码的必要性,并详细介绍了RoPE和Alibi两种位置编码方法。RoPE通过旋转实现相对位置编码,而Alibi则通过偏 bare attention分数来引入位置信息。文中提供了自注意力层的Python

文章图片
#深度学习#transformer#人工智能
大模型“炼金术”:强化学习RL

摘要: 强化学习(RL)作为大模型的“幕后军师”,通过试错与奖励机制显著提升模型能力。RL帮助大模型优化推理链(如数学解题)、对话策略(生成自然回复)及复杂决策(自动驾驶)。典型案例包括OpenAI的GPT-4o(多模态推理)、DeepSeek-R1(纯RL训练)等。然而,RL面临训练缓慢、奖励设计偏差及高算力需求等挑战,需通过算法优化(如PPO)和硬件升级(如分布式计算)突破瓶颈。未来,RL将继

文章图片
#人工智能
大模型训练框架(二)FSDP

文章摘要:FSDP大模型训练框架 FSDP(Fully Sharded Data Parallel)是PyTorch 1.11引入的一种分布式训练技术,源自FairScale的FSDP实现。它基于微软Deepspeed的ZERO-3算法,通过对模型参数、梯度和优化器状态进行分片存储,显著减少GPU显存占用,使训练更大模型成为可能。 FSDP的工作机制类似于团队分工:每个GPU只存储部分模型参数,需

文章图片
#transformer#深度学习#人工智能
从零开始学大模型之大模型训练流程实践

本文介绍了使用Hugging Face Transformers框架进行大模型训练的实践流程。主要内容包括: Transformers框架的优势:模块化设计支持主流模型架构,内置分布式训练功能,集成预训练模型资源。 模型初始化方法:通过AutoConfig加载配置,使用AutoModelForCausalLM初始化模型,支持从零训练或加载预训练权重。 数据处理:结合datasets库处理训练数据,

文章图片
#人工智能
AI会做题,但不会干活?问题出在这里

**摘要:**AI虽能回答各种知识性问题,但在执行具体任务时常出错,关键在于缺乏"程序性知识"。技能文件(skill.md)通过YAML头部和操作说明,教会AI按特定流程工作。系统采用渐进式加载避免资源浪费,与MCP、RAG等技术互补,形成类似人类记忆的认知结构。但需警惕技能文件中潜在的恶意脚本风险。该开放标准已被多个AI平台采用,使AI从"会背书"真正转变

文章图片
#人工智能
每天用大模型的你,真的懂Token吗?

前段时间在波兰做 AI 工作坊,我问了在场的开发者一个问题,知道 Token 是什么的请举手。结果让我挺意外,一百多人的会场,只有三分之一的人举手。这些人每天都在用 LLM 写代码、做产品,但对最基础的计费单位竟然一知半解。就好比你天天开车却不知道油表怎么看,迟早要出问题。今天咱们就把 Token 这件事彻底说清楚。

文章图片
#人工智能#职场和发展#深度学习
Qwen3 模型结构解析

Qwen3模型结构相比Qwen2进行了多项改进:在注意力机制中增加了对q和k的RMSNorm标准化处理;MoE机制采用专家网络模块(Qwen3MoeMLP)替换传统MLP层,通过门控机制选择专家;简化了MoeSparseMoeBlock结构,去除共享专家机制,提升计算效率。这些改进使模型更稳定高效,注意力机制更关注token间关系而非绝对幅值,专家网络能更好处理特定任务。

文章图片
#人工智能
阿里云智能多模态大模型岗三面面经

阿里云多模态大模型岗三面面经:三轮面试各有侧重,一面考察CLIP、BLIP等模型原理与代码实现(InfoNCE Loss等);二面聚焦宏观理解,涉及多模态发展脉络、数据清洗等开放性问题;三面以项目深挖和趋势讨论为主。整体注重候选人对技术的深度理解而非表面应用,建议重点掌握经典模型原理、设计动机及代码实现。面试官特别关注"为什么这样设计"的思考过程,项目经历需准备充分。

文章图片
#人工智能#面试#阿里云
所有人都在抢着上AI,但没人告诉你要还债

AI技术债务:速度与纪律的博弈 AI领域的技术债务正在以惊人速度累积。不同于传统软件,AI系统具有概率性和上下文依赖性,使得技术债务更加隐蔽且修复成本更高。主要债务形式包括数据债务、模型债务、提示词债务和组织债务,这些问题源于"先实施后规划"的开发模式。 AI项目的特殊性在于:任何微小改动都可能引发系统性变化,而快速迭代往往以牺牲文档、测试和安全为代价。解决方案是回归基础开发流

文章图片
#人工智能#深度学习#神经网络 +1
    共 259 条
  • 1
  • 2
  • 3
  • 26
  • 请选择