logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从零到一 | CV转多模态大模型 | week12 | 整理 MiniLLaVA 工程与文档

本周重点是将前几周的实验代码整理成更接近开源工程的形态,包括清晰的目录结构、明确的入口、可复用的配置和可追踪的日志。主要内容包括:1) 工程目录结构整理为code、configs、utils、outputs四个核心目录;本周重点不是继续堆模型能力,而是把前面几周的实验代码整理成更接近开源工程的形态:目录清楚、入口明确、配置可复用、日志可追踪、文档能让别人快速跑起来。这些配置把模型大小、任务组合、日

#人工智能#深度学习#计算机视觉 +2
从零到一 | CV转多模态大模型 | week13 |多模态数据集大一统——OpenAI Chat风格的三角色(system/user/assistant)消息格式

本文主要介绍了在多模态大语言模型(MLLM)训练中,如何将不同格式的数据(如caption、QA、VQA)统一转换为OpenAI Chat风格的三角色(system/user/assistant)消息格式,并进行训练的过程。

#计算机视觉#深度学习#人工智能 +2
从零到一 | CV转多模态大模型 | week14 | Mini-LLaVA多轮对话稳定性与JSON结构化输出控制

本周在 week13 的 OpenAI Chat 三角色对齐基础上,继续补齐 Mini-LLaVA 的多轮对话工程能力。主要包括四件事:推理侧增加历史轮数截断,训练侧增加轮次级和 token 级截断,针对 JSON 业务输出补充 few-shot prompt 模板,并封装 JSON 提取、校验和失败重试模块。最后通过固定多轮测试脚本,把每轮问题、回答、JSON 校验状态和截断后的 history

#人工智能#机器学习#改行学it +2
从零到一 | CV转多模态大模型 | week13 |多模态数据集大一统——OpenAI Chat风格的三角色(system/user/assistant)消息格式

本文主要介绍了在多模态大语言模型(MLLM)训练中,如何将不同格式的数据(如caption、QA、VQA)统一转换为OpenAI Chat风格的三角色(system/user/assistant)消息格式,并进行训练的过程。

#计算机视觉#深度学习#人工智能 +2
从零到一 | CV转多模态大模型 | week12 | 整理 MiniLLaVA 工程与文档

本周重点是将前几周的实验代码整理成更接近开源工程的形态,包括清晰的目录结构、明确的入口、可复用的配置和可追踪的日志。主要内容包括:1) 工程目录结构整理为code、configs、utils、outputs四个核心目录;本周重点不是继续堆模型能力,而是把前面几周的实验代码整理成更接近开源工程的形态:目录清楚、入口明确、配置可复用、日志可追踪、文档能让别人快速跑起来。这些配置把模型大小、任务组合、日

#人工智能#深度学习#计算机视觉 +2
从零到一 | CV转多模态大模型 | week07 | Minillava Design从零搭建一个MiniLlava

本篇是minillava系列的起始篇,week07开始将从零搭建一个mini的llava模型,本周我们先设计minillava的模型框架,下载必要的微调数据集,串好数据流,验证forward功能。并将参数配置到config.yaml中。

#人工智能#深度学习#计算机视觉
小样本目标检测:few-shot-object-detection训练自己的数据集

few-shot-object-detection代码实验过程一、基础配置1、代码下载https://github.com/wz940216/few-shot-object-detection2、windows10配置安装detectron2https://blog.csdn.net/qq_35030874/article/details/116915874?spm=1001.2014.3001.

#深度学习#python#计算机视觉 +2
从零到一 | CV转多模态大模型 | week03 |多模态概览 + 跑通一个 LLaVA Demo

这些模态编码器为MM-LLMs提供了处理和理解多种类型数据的能力,使得模型能够在多模态任务中有效地整合和利用来自不同源的信息。通过这些编码器,MM-LLMs能够更好地理解和生成与图像、视频、音频和3D数据相关的自然语言描述。这些输入投影器的设计旨在提高模型对多模态输入的理解能力,使得MM-LLMs能够在处理图像、视频、音频等非文本数据时,与文本数据进行有效的交互。通过这些投影器,模型能够将不同模态

文章图片
#计算机视觉#深度学习#人工智能 +1
    共 17 条
  • 1
  • 2
  • 请选择