logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

stable-diffusion-webui的基础功能手动安装,了解代码结构、依赖、模型出处

虽然,当前有很多stable-diffusion-webui 的一键安装包,但是不易于彻底理解该项目主要介绍了,手动安装 stable-diffusion-webui 基础功能的过程,手动安装,了解代码结构、依赖、模型出处。

文章图片
#python
【论文简介】2204.VQGAN-CLIP(已开源):Open Domain Image Generation and Editing with Natural Language Guidance

从`开放域`(open domain)`文本提示`(text prompts)中`生成和编辑图像`是一项具有挑战性的任务,迄今为止(heretofore)一直需要昂贵的和经过专门训练的模型。- 我们演示了一种针对这两种任务的新方法,该方法能够通过使用`多模态编码器` (multimodal encoder) 来指导图像生成,在没有任何训练的情况下,从具有显著语义复杂度的文本提示中生成高视觉质量的图

#计算机视觉
【论文+在线运行】AnyText:能准确写汉字的AI绘图工具

是一个基于扩散模型的(diffusion-based)`多语言`(multilingual)视觉文字(visual text)`生成和编辑`的模型, 专注于在图像中渲染`准确和连贯`(accurate and coherent)的文本。生成图片同时,在指定位置生成中文、英文、日文等,还可对已有图片进行编辑

文章图片
#人工智能
【多模态MLLMs+图像编辑】MGIE:苹果开源基于指令和大语言模型的图片编辑神器(24.02.03开源)

基于指令(Instruction-based)的图像编辑通过自然命令提高了图像操作的可控性和灵活性,而无需详细描述或区域掩模。然而,人类的指令有时过于简短,目前的方法无法捕捉和遵循。多模态大语言模型MLLMs))在跨模态理解和视觉感知响应生成方面显示出很好的能力。我们研究了mllm如何促进编辑指令和呈现mllm引导的图像编辑(MGIE)。MGIE学习推导表达指令并提供明确的指导。编辑模型共同捕获这

文章图片
#语言模型#人工智能
【论文简介】PP-OCRv1-v4中文字符识别论文概述

PP-OCR是PaddleOCR自研的实用的超轻量OCR系统。其中文本检测算法选用DB,文本识别算法选用CRNN,并在检测和识别模块之间添加文本方向分类器,以应对不同方向的文本识别。超轻量PP-OCRv3系列:检测(3.6M)+ 方向分类器(1.4M)+ 识别(12M)= 17.0M

文章图片
#人工智能
【视觉语言模型+医学】23.06 LLaVA-Med(医学图片视觉助手): Training a Large Language-and-Vision Assistant for Biomedicine

23.06 LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.然后60W+6W的数据以课程学习方式(curriculum learning)持续训练(首先是**生物医学概念对齐**(biomedical concept alignment), 然后是全面的指令微调( instruction-tuning))。

文章图片
【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning

23.10 LLaVA1.5的改进:1. 结构上,将视觉特征提取器从 CLIP-vit-L-14 (224x224图像输入)改为了CLIP-vit-L/336(将真实图像resize到**336x336**再输入编码器)2. 结构上,视觉特征从线性映射(单个神经元),改进为多层告感知机(MLP)3. 数据上,大量提高数据量,特别是视觉微调 158K到了560K。。4. 训练上,LLaVA1.5可以

文章图片
#自然语言处理
【论文+中文文生图】Kolors:快手可图绘画模型实测(24.07.06开源)

Kolors=(SDXL Unet + chatGLM3 + CogVLM + 数十亿图像预训练+数百万高质量图片)Kolors,这是一种基于`SDXL`的 U-Net 架构的潜在扩散模型(latent diffusion model),通过中英文模型`chatGLM3` (General Language Model, GLM)和由**多模态** **`CogVLM`** 生成的细粒度文本标题。

文章图片
#人工智能
    共 41 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择