logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM多模态】Qwen-VL模型架构和训练流程

Qwen-VL模型的整体网络架构包括以下三个组件:大型语言模型(Large Language Model):- 作用:作为Qwen-VL模型的基础组件,这个部分采用了一个大型语言模型,其初始权重来自于预训练的Qwen-7B模型。- 来源:Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器(Visual Encoder):- 作用:视觉编码器采用了Vision Tran

文章图片
【LLM-RAG】BGE M3-embedding模型(模型篇|混合检索、多阶段训练)

M3-Embedding联合了3种常用的检索方式,对应三种不同的文本相似度计算方法。可以基于这三种检索方式进行多路召回相关文档,然后基于三种相似度得分平均求和对召回结果做进一步重排。多阶段训练过程:在这里插入图片描述第一阶段:第一阶段的自动编码预训练采用的是RetroMAE,在105种语言的网页跟wiki数据上进行,从而获得一个基底模型第二阶段:在第一个数据源的弱监督数据进行预训练,这阶段的损失损

文章图片
【LLM】chatglm3的agent应用和微调实践

知识库和微调并不是冲突的,它们是两种相辅相成的行业解决方案。开发者可以同时使用两种方案来优化模型。例如:使用微调的技术微调ChatGLM3-6B大模型模拟客服的回答的语气和基础的客服思维。接着,外挂知识库将最新的问答数据外挂给ChatGLM3-6B,不断更新客服回答的内容信息。chatglm3的对话格式中,部分使用 special token 表示,无法从文本形式被 tokenizer 编码以防止

文章图片
#nlp
【LLM】两篇多模态LLM综述MultiModal Large Language Models

note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS)

文章图片
#自然语言处理
【LLM多模态】CogVLM图生文模型架构和训练流程

Cogvlm模型共包含四个基本组件:ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块。- ViT编码器:在 CogVLM-17B 中,采用预训练的 EVA2-CLIP-E。也就是上图将图片进入vit encoder编码。在CogVLM-17B中,移除了ViT编码器的最后一层,因为该层专注于整合[CLS]特征以用于对比学习。- MLP 适配器:MLP 适配器是一个

文章图片
【tips】huggingface下载模型权重的方法

方法1:直接在Huggingface上下载,但是要fanqiang,可以git clone或者在代码中:```pythonfrom huggingface_hub import snapshot_download# snapshot_download(repo_id="decapoda-research/llama-7b-hf")snapshot_download(repo_id="THUDM/c

文章图片
#nlp
【LLM】Advanced rag techniques: an illustrated overview

RAG中的智能体(Agents in RAG)OpenAI 助手基本上整合了开源 LLM 周边工具——聊天记录、知识存储、文档上传界面。最重要的能力还是function call。在 LlamaIndex 中,有一个 OpenAIAgent 类将这种高级逻辑与 ChatEngine 和 QueryEngine 类结合在一起,提供基于知识和上下文感知的聊天,以及在一个对话轮次中调用多个 OpenAI

文章图片
#nlp
【LLM多模态】InternVL模型架构和训练过程

视觉编码器:InternViT-6B动态高分辨率(和很多多模态LLM不一样的地方):我们将图像根据输入图像的纵横比和分辨率划分为1到40块,每块为448×448像素(图像很大则会被切分,每个块被模型独立处理,可以更好地处理图像的细节),从而支持高达4K分辨率的输入(40个小块)。具体的处理方法如下图。使用pixel shuffle将视觉token减少到原来的四分之一(原始为1024个token)。

文章图片
【LLM多模态】Cogview3、DALL-E3、CogVLM、LLava模型

丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,与其他文生图模型相比,丹青模型的差异化优势在于对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成更为准确。VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。之前的多模态模型:通常都是将图像特征直接对齐到文本特征的输入空

文章图片
【LLM多模态】Cogview3模型原理和训练过程

# note- 基础阶段:生成512×512分辨率的图像,优化模型以生成高质量的图像。- 超分辨率阶段:从512×512的输入生成1024×1024分辨率的图像,进一步优化图像的细节和清晰度。- 蒸馏版本:通过减少采样步骤,生成与原始模型相似质量的图像,但推理时间大大减少。@[toc]# 一、Cogview3模型论文:CogView3: Finer and Faster Text-to-Image

文章图片
    共 97 条
  • 1
  • 2
  • 3
  • 10
  • 请选择