logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型技术报告】Qwen2-VL大模型训练过程理解

阶段可训练参数 (θ_train)冻结参数数据序列 (X) 构成损失计算的有效位置预训练LLM[IMG] 图像特征 [/IMG] 文本描述文本描述的token多任务预训练全模型 (ViT, Adapter, LLM)无[IMG] 图像特征 [/IMG] [指令] 问题 [/指令] [答案] 复杂输出 [/答案]答案中的所有token(文本、坐标等)监督微调LLM, Adapter (或 LoRA)

#人工智能
【大模型课程笔记】斯坦福大学CS336 课程环境配置与讲座生成完整指南

这是一个可执行的讲座系统,通过运行Python脚本来生成交互式课程内容。lecture_01.py (Python代码)↓ 通过 execute.py 追踪执行过程var/traces/lecture_01.json (追踪数据)↓ 通过 trace-viewer 前端可视化浏览器中的交互式讲座✅ 可以看到代码执行的每一步✅ 可以查看变量的实时值✅ 包含图片、链接、代码引用等丰富内容✅ 完全交互式

文章图片
#人工智能
【大模型技术报告】Qwen2-VL的finetune.py解析

支持 LLM(如 Qwen/Qwen-7B)在自定义数据集上的高效微调,兼容 LoRA/QLoRA、DeepSpeed、FSDP 等主流分布式与参数高效微调技术。finetune.py 是本项目的。

#人工智能
【多模态大模型】Qwen2-VL项目代码初步解析

Qwen-VL项目是一个多模态AI模型框架,包含训练、推理和评测全流程功能。核心目录包含微调脚本(finetune.py)、OpenAI兼容API服务(openai_api.py)和多模态Web演示(web_demo_mm.py)。系统支持分布式训练(DeepSpeed)、多模态评测(VQA/图像描述等)以及两种服务接口(Web和API)。数据流向清晰:用户请求通过Web/API入口处理,调用预训

#人工智能
【大模型技术报告】通义千问-VL:一款多功能视觉语言模型,支持理解、定位、文本识别等广泛任务

在本工作中,我们推出Qwen-VL系列大规模视觉语言模型,该模型可同时感知和理解文本与图像信息。我们以Qwen-LM为基底,通过精心设计的(i)视觉接受器、(ii)输入输出接口、(iii)三阶段训练流程及(iv)多语言多模态清洁语料库赋予模型视觉能力。除常规图像描述与问答功能外,我们还通过对齐图像-描述-边框三元组实现了Qwen-VL的视觉定位与文字识别能力。

文章图片
#语言模型#人工智能#自然语言处理
【大模型技术报告】Qwen2 Technical Report

本报告介绍了Qwen2系列——我们最新推出的大语言模型与大型多模态模型。我们发布了涵盖0.5至720亿参数范围的基础模型与指令微调模型完整套件,包含稠密模型与专家混合模型。Qwen2在语言理解、生成、多语言能力、编程、数学及推理等多个基准测试中,超越了包括前代模型Qwen1.5在内的大多数现有开源权重模型,并在与专有模型的对比中展现出竞争优势。

文章图片
#人工智能
【大模型基础架构与技术】如何理解MHA、MQA和GQA

逻辑:1对1映射。每个 Query Head 都有其独占对应的 Key 和 Value Head。维度计算:Query:HHH个头。Key/Value:HHH个头。GHG = HGH。计算瓶颈:在推理(Inference)阶段,每一步解码都需要加载所有的 KV Cache,导致内存带宽开销极大,成为大模型推理的主要瓶颈。MHA 是 GQA 的特例(当GHG=HGH),无需广播,计算最慢,显存占用最

#人工智能
【大模型基础架构与技术】GQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

本文提出分组查询注意力(GQA)方法,通过将查询头分组并共享键值头,在多头注意力(MHA)和多查询注意力(MQA)之间实现平衡。实验表明,仅需原始预训练5%的计算量,即可将MHA模型转换为GQA模型。GQA在保持接近MHA质量的同时,推理速度接近MQA。消融实验验证了平均池化转换方法最优,且5%的上行训练即可获得显著提升。GQA-8分组在较大模型中实现了理想的性能-速度权衡,为提升大语言模型推理效

文章图片
#transformer#深度学习#人工智能
【大模型LLM】【DeepSeek-V2】DeepSeek-V2:A Strong, Economical, and Efficient Mixture-of-Experts Language Mod

我们推出DeepSeek-V2,这是一款强大的专家混合(MoE)语言模型,具有经济高效的训练和推理能力。该模型包含2360亿个参数,其中每个token激活210亿个参数,并支持128K token的上下文长度。DeepSeek-V2采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将键值(KV)缓存显著压缩为潜在向量,确保了高效的推理,而DeepSeekMoE则通过

文章图片
#人工智能
【大模型与智能体】谷歌2024智能体白皮书

本文探讨了生成式AI智能体的概念及其核心架构。智能体通过结合语言模型的推理能力、外部工具和编排层,实现了自主执行复杂任务的能力。其架构包含三大组件:模型作为决策核心,工具连接外部系统,编排层协调信息处理循环。智能体采用ReAct、思维链等推理框架进行动态决策,显著扩展了基础模型的功能边界。文章着重分析了工具在连接智能体与现实世界中的关键作用,特别是扩展组件如何标准化API交互流程。这种架构使智能体

#人工智能
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择