简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
stable-diffusion 的训练Ui
虽然,当前有很多stable-diffusion-webui 的一键安装包,但是不易于彻底理解该项目主要介绍了,手动安装 stable-diffusion-webui 基础功能的过程,手动安装,了解代码结构、依赖、模型出处。
从`开放域`(open domain)`文本提示`(text prompts)中`生成和编辑图像`是一项具有挑战性的任务,迄今为止(heretofore)一直需要昂贵的和经过专门训练的模型。- 我们演示了一种针对这两种任务的新方法,该方法能够通过使用`多模态编码器` (multimodal encoder) 来指导图像生成,在没有任何训练的情况下,从具有显著语义复杂度的文本提示中生成高视觉质量的图
一张图微调qwen-vl
是一个基于扩散模型的(diffusion-based)`多语言`(multilingual)视觉文字(visual text)`生成和编辑`的模型, 专注于在图像中渲染`准确和连贯`(accurate and coherent)的文本。生成图片同时,在指定位置生成中文、英文、日文等,还可对已有图片进行编辑
基于指令(Instruction-based)的图像编辑通过自然命令提高了图像操作的可控性和灵活性,而无需详细描述或区域掩模。然而,人类的指令有时过于简短,目前的方法无法捕捉和遵循。多模态大语言模型MLLMs))在跨模态理解和视觉感知响应生成方面显示出很好的能力。我们研究了mllm如何促进编辑指令和呈现mllm引导的图像编辑(MGIE)。MGIE学习推导表达指令并提供明确的指导。编辑模型共同捕获这
PP-OCR是PaddleOCR自研的实用的超轻量OCR系统。其中文本检测算法选用DB,文本识别算法选用CRNN,并在检测和识别模块之间添加文本方向分类器,以应对不同方向的文本识别。超轻量PP-OCRv3系列:检测(3.6M)+ 方向分类器(1.4M)+ 识别(12M)= 17.0M
23.06 LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.然后60W+6W的数据以课程学习方式(curriculum learning)持续训练(首先是**生物医学概念对齐**(biomedical concept alignment), 然后是全面的指令微调( instruction-tuning))。
23.10 LLaVA1.5的改进:1. 结构上,将视觉特征提取器从 CLIP-vit-L-14 (224x224图像输入)改为了CLIP-vit-L/336(将真实图像resize到**336x336**再输入编码器)2. 结构上,视觉特征从线性映射(单个神经元),改进为多层告感知机(MLP)3. 数据上,大量提高数据量,特别是视觉微调 158K到了560K。。4. 训练上,LLaVA1.5可以
Kolors=(SDXL Unet + chatGLM3 + CogVLM + 数十亿图像预训练+数百万高质量图片)Kolors,这是一种基于`SDXL`的 U-Net 架构的潜在扩散模型(latent diffusion model),通过中英文模型`chatGLM3` (General Language Model, GLM)和由**多模态** **`CogVLM`** 生成的细粒度文本标题。