努力犯错个人主页

@nulifancuoAI

努力犯错

2023-12-11 14:26:51 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

InstantID：用一张大头照开启个性化图像生成的新时代

InstantID的出现，不仅是技术上的一大飞跃，也为我们如何看待和利用AI技术提供了新的视角。它的开源性质进一步加强了这一技术的可达性和普及性，预示着个性化图像生成技术的新时代已经到来。随着技术的不断进步和创新，我们可以期待更多令人激动的发展和应用出现在这个领域。

#计算机视觉 #人工智能 #深度学习

潜在一致性模型（LCM）：开启图像生成效率新纪元

LCM 是在 Consistency Models 的基础上引入了 Lantent Space （潜空间），进一步压缩需要处理的数据量，从而实现超快速的图像推理合成。最近，清华大学交叉信息科学研究院推出的LCM（Latent Consistency Models）在这两个方面都取得了显著的突破，尤其是在提升出图效率方面，实现了重要的进展。目前官网只提供了Dreamshaper-V7和LCM-SDX

#人工智能 #计算机视觉 #语言模型

腾讯发布ELLA：为扩散模型注入LLM能力，提升复杂场景的图像生成，准确率超90%

近年来，基于扩散模型的文本到图像生成技术取得了显著进步，能够生成高质量、逼真的图像。然而，大多数扩散模型仍然使用CLIP作为文本编码器，这限制了它们理解复杂提示的能力，例如包含多个物体、详细属性、复杂关系、长文本对齐等等。为了克服这一局限性，腾讯团队推出了一个名为ELLA（Efficient Large Language Model Adapter）的全新方法，它能够将强大的大型语言模型（LLM）

#人工智能 #计算机视觉 #深度学习 +2

Stable Diffusion 3震撼发布，开启图像生成新纪元，20亿参数Medium模型率先开源

Stability AI 作为开源图像生成领域的领军者，不断突破技术边界，6月12日发布了其最新一代文本到图像生成模型——Stable Diffusion 3。这次发布的是 Stable Diffusion 3 的 Medium 模型，拥有 20 亿参数，在图像质量、文本遵循度和排版方面都展现出超越现有模型的强大实力。Stability AI 未来还将开源 40 亿和 80 亿参数的版本，进一步提

#人工智能 #语言模型

多模态SVG生成新标杆：StarVector从图像文本生成高精度SVG的AI模型

总而言之，StarVector 作为一款开源的 AI 模型，在图像到 SVG 和文本到 SVG 的生成方面均展现出最先进的性能。它采用创新的代码生成方法，能够生成高质量、可伸缩的矢量图形。凭借其庞大且多样化的训练数据集，StarVector 展现出了强大的性能。更重要的是，作为一款开源模型，它在 Hugging Face 上的可访问性将极大地促进社区的发展和应用。

#人工智能 #开源 #服务器

Stable Diffusion AnimateDiff-最火文本生成视频插件V3发布

AnimateDiff采用控制模块来影响Stable Diffusion模型，通过大量短视频剪辑的训练，它能够调整图像生成过程，生成一系列与训练视频剪辑相似的图像。简言之，AnimateDiff通过训练大量短视频来优化图像之间的过渡，确保视频帧的流畅性。与传统的SD模型训练方式不同，AnimateDiff通过大量短视频的训练来提高图像之间的连续性，使得生成的每一张图像都能经过AnimateDiff

#语言模型 #自然语言处理 #人工智能

Stability AI发布AI音频模型Stable Audio Open，文本生成47秒高清音效

Stability AI这家以开源图像生成模型 Stable Diffusion 而闻名的公司，在 6 月 6 日宣布开源其最新的 AI 音频模型 Stable Audio Open。这一新模型可以根据简单的文本提示生成最多 47 秒的高质量音频数据，为音乐制作和声音设计领域带来了新的可能性。Huggingface模型下载：AI快站模型免费加速下载：Stable Audio Open 的开源，为

#人工智能 #音视频 #语言模型 +2

英伟达发布 VILA 视觉语言模型，实现多图像推理、增强型上下文学习，性能超越 LLaVA-1.5

近年来，大型语言模型 (LLM) 的发展取得了显著的成果，并逐渐应用于多模态领域，例如视觉语言模型 (VLM)。VLM 旨在将 LLM 的强大能力扩展到视觉领域，使其能够理解和处理图像和文本信息，并完成诸如视觉问答、图像描述生成等任务。然而，现有的 VLM 通常缺乏对视觉语言预训练过程的深入研究，导致模型在多模态任务上的性能和泛化能力受限。

#语言模型 #学习 #人工智能 +4

测试国内能用的Docker镜像源【2025最新持续更新】

测试国内能用的Docker镜像源

#docker #容器 #运维

轻松部署Gemma3-27B，L20服务器+最新版vLLM高效推理

本文详细介绍了如何在L20服务器上使用最新版vLLM部署Gemma3-27B模型。通过本文相信你已经成功搭建起了Gemma的推理引擎，可以尽情探索大模型的奥秘。Gemma3-27B模型凭借其强大的语言理解和生成能力，将在各种实际应用场景中发挥重要作用。

#服务器 #运维

共 142 条

请选择