曾小蛙个人主页

@imwaters

曾小蛙

2022-08-03 14:41:32 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【stable-diffusion】4090显卡下dreambooth、lora、sd模型微调的GUI环境安装（cuda驱动、pytorch、xformer）

stable-diffusion 的训练Ui

stable-diffusion-webui的基础功能手动安装，了解代码结构、依赖、模型出处

虽然，当前有很多stable-diffusion-webui 的一键安装包，但是不易于彻底理解该项目主要介绍了，手动安装 stable-diffusion-webui 基础功能的过程，手动安装，了解代码结构、依赖、模型出处。

#python

【论文简介】2204.VQGAN-CLIP(已开源)：Open Domain Image Generation and Editing with Natural Language Guidance

从`开放域`（open domain）`文本提示`（text prompts）中`生成和编辑图像`是一项具有挑战性的任务，迄今为止(heretofore)一直需要昂贵的和经过专门训练的模型。- 我们演示了一种针对这两种任务的新方法，该方法能够通过使用`多模态编码器` (multimodal encoder) 来指导图像生成，在没有任何训练的情况下，从具有显著语义复杂度的文本提示中生成高视觉质量的图

#计算机视觉

1张图片+3090显卡微调Qwen-VL视觉语言大模型（仅做演示、效果还需加大数据量）

一张图微调qwen-vl

【论文+在线运行】AnyText：能准确写汉字的AI绘图工具

是一个基于扩散模型的（diffusion-based）`多语言`（multilingual）视觉文字（visual text）`生成和编辑`的模型，专注于在图像中渲染`准确和连贯`(accurate and coherent)的文本。生成图片同时，在指定位置生成中文、英文、日文等，还可对已有图片进行编辑

#人工智能

【多模态MLLMs+图像编辑】MGIE：苹果开源基于指令和大语言模型的图片编辑神器（24.02.03开源）

基于指令（Instruction-based）的图像编辑通过自然命令提高了图像操作的可控性和灵活性，而无需详细描述或区域掩模。然而，人类的指令有时过于简短，目前的方法无法捕捉和遵循。多模态大语言模型MLLMs))在跨模态理解和视觉感知响应生成方面显示出很好的能力。我们研究了mllm如何促进编辑指令和呈现mllm引导的图像编辑(MGIE)。MGIE学习推导表达指令并提供明确的指导。编辑模型共同捕获这

#语言模型 #人工智能

【论文简介】PP-OCRv1-v4中文字符识别论文概述

PP-OCR是PaddleOCR自研的实用的超轻量OCR系统。其中文本检测算法选用DB，文本识别算法选用CRNN，并在检测和识别模块之间添加文本方向分类器，以应对不同方向的文本识别。超轻量PP-OCRv3系列：检测（3.6M）+ 方向分类器（1.4M）+ 识别（12M）= 17.0M

#人工智能

【视觉语言模型+医学】23.06 LLaVA-Med（医学图片视觉助手）: Training a Large Language-and-Vision Assistant for Biomedicine

23.06 LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.然后60W+6W的数据以课程学习方式(curriculum learning)持续训练（首先是**生物医学概念对齐**（biomedical concept alignment）, 然后是全面的指令微调( instruction-tuning)）。

【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning

23.10 LLaVA1.5的改进：1. 结构上，将视觉特征提取器从 CLIP-vit-L-14 (224x224图像输入)改为了CLIP-vit-L/336(将真实图像resize到**336x336**再输入编码器)2. 结构上，视觉特征从线性映射（单个神经元），改进为多层告感知机（MLP）3. 数据上，大量提高数据量，特别是视觉微调 158K到了560K。。4. 训练上，LLaVA1.5可以

#自然语言处理

【论文+中文文生图】Kolors：快手可图绘画模型实测（24.07.06开源）

Kolors=(SDXL Unet + chatGLM3 + CogVLM + 数十亿图像预训练+数百万高质量图片）Kolors，这是一种基于`SDXL`的 U-Net 架构的潜在扩散模型（latent diffusion model），通过中英文模型`chatGLM3` （General Language Model, GLM）和由**多模态** **`CogVLM`** 生成的细粒度文本标题。

#人工智能

共 41 条

请选择