在 AIGC(AI Generated Content)领域,文本生成图像(Text-to-Image)的应用越来越广泛。本文将介绍如何基于丹摩算力平台(DAMODEL)和可图 (Kolors) 模型,快速部署并生成高质量的图像。通过本次实践,您将能够体验到 Kolors 模型在中文语义理解与图像生成方面的强大性能。


一、Kolors 简介

Kolors 是由快手 Kolors 团队开发的大规模文本到图像生成模型。作为一款基于潜在扩散(Latent Diffusion)的模型,Kolors 经过大量的文本-图像对训练,具备以下优势:

Kolors 模型优势详细描述
视觉质量生成图像细节精美,效果逼真。
复杂语义理解能够准确理解和表达复杂的语义描述。
中英文支持对中英文字符渲染效果出色,支持用户输入中英文描述并生成对应图像。

要成功部署和使用 Kolors 模型,需满足以下环境要求:

  • Python:3.8 或更新版本
  • PyTorch:1.13.1 或更新版本
  • Transformers:4.26.1 或更新版本
  • CUDA:建议使用 11.7 或更新版本,支持 GPU 加速
  • 硬件环境:建议使用包含 8 卡 NVIDIA RTX 4090 的计算节点

二、Kolors 模型的安装与部署

1. 创建丹摩实例

丹摩(Damo)提供了便捷的环境配置与高性能计算资源支持,非常适合部署大型语言模型和视频生成模型。

首先,我们登录丹摩官网,创建新实例。

在这里插入图片描述

由于 CogVideoX 在 FP-16 精度下的推理至少需 18GB 显存,微调则需要 40GB 显存,我们这里需要选择大于 40GB 显存的实例。

在这里插入图片描述

硬盘选择默认的 100GB 系统盘和 50GB 数据盘。

在这里插入图片描述

镜像选择 PyTorch2.3.0、Ubuntu-22.04,CUDA12.1 镜像。

在这里插入图片描述

创建密钥对。

在这里插入图片描述

选择我们刚刚创建的密钥对。

在这里插入图片描述

配置选择完成后,点击立即创建。创建后如图:

在这里插入图片描述

点击操作里的JupyterLab,进入JupyterLab的页面。平台已预置了调试好的代码库,开箱即用。

在这里插入图片描述


点击Terminal,进入终端页面。

2. 安装 Anaconda

首先安装 Anaconda,方便管理 Python 环境和依赖项。

# 下载 Anaconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

# 安装 Anaconda
bash Miniconda3-latest-Linux-x86_64.sh

# 将 Anaconda 目录加入环境变量
vim ~/.bashrc
export PATH=$PATH:/root/miniconda3/condabin

# 重新加载环境变量
source ~/.bashrc

在这里插入图片描述


安装成功!

在这里插入图片描述

3. Kolors 库下载

首先尝试更新系统的软件源列表:

sudo apt-get update

再安装 git-lfs:

# 安装 Git Large File Storage (LFS)
apt-get install git-lfs

从 GitHub 下载 Kolors 模型库。

在这里插入图片描述

# 克隆 Kolors 库
git clone https://gitee.com/ai-aigc/Kolors
cd Kolors

在这里插入图片描述

4. 创建虚拟环境并安装依赖项

使用 Anaconda 创建 Python 虚拟环境并安装 Kolors 模型所需的依赖库。

# 创建名为 "kolors" 的 Python 虚拟环境
conda create --name kolors python=3.8

# 初始化并激活虚拟环境
conda init bash
source ~/.bashrc
conda activate kolors

# 安装依赖项
pip install -r requirements.txt

# 安装 Kolors 模型
python3 setup.py install

# 下载模型权重文件
git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

在这里插入图片描述

三、生成图片

完成部署后,您可以使用 Kolors 模型生成图像。以下是一个示例命令:

python3 scripts/sample.py "一个在星空下奔跑的女孩"

执行该命令后,生成的图片将保存在 scripts/outputs/sample_test.jpg 路径下。

在这里插入图片描述

四、总结

本文介绍了 Kolors 模型的部署与使用方法,并结合丹摩算力平台提供的计算资源,实现了高效的文本到图像生成任务。Kolors 模型凭借其优秀的视觉效果和强大的中英文语义理解能力,展示了领先的 AIGC 技术实力。在未来的项目实践中,Kolors 可以帮助开发者实现更多创新的应用场景,为用户提供更加丰富多彩的视觉体验。建议在使用 Kolors 模型时,尽量选择高性能的 GPU 环境,并优化输入描述,以获得最佳的生成效果。

Logo

尧米是由西云算力与CSDN联合运营的AI算力和模型开源社区品牌,为基于DaModel智算平台的AI应用企业和泛AI开发者提供技术交流与成果转化平台。

更多推荐