logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen2-VL全面解读!阿里开源多模态视觉语言模型,多项超越GPT4o与Claude 3.5-Sonnet

Qwen2-VL系列旨在重新定义传统的固定分辨率视觉处理方法,解决了在处理不同分辨率图像时的效率和准确性问题。

文章图片
#开源#语言模型#人工智能
ECCV2024 | 小成本微调CLIP大模型!CLAP开源来袭:零样本和少样本训练有救了!

论文链接:https://arxiv.org/pdf/2311.16445代码链接:https://github.com/YichaoCai1/CLAP亮点直击:本文提出了一种通过对比学习和数据增强,从因果角度微调预训练CLIP类模型的原始特征,以改进其视觉-语言特征的方法。:本文提出了一种针对预训练CLIP类模型的定制化方法。该方法利用一个解耦网络,通过对比学习和图像增强进行训练,从CLIP类模

文章图片
除了SD Web UI 或comfyUI,还有更简单的运行SDXL的方法吗?

想要从你的机器上生成令人惊叹的 AI 图像吗?你可能知道SD WebUI 或者 comfyUI,如果不想安装这些终端软件,又想快速体验,最快的方式是什么?本次以Stable Diffusion XL为例,它是当前最优秀的本地图像生成器之一,一起快速生成图片吧!:你需要一张良好的显卡。至少需要 4G 的 VRAM;如果有 8G 或更多则效果会更好。这里将在Linux系统上使用。如果你使用 WSL,那

文章图片
#人工智能
速度超快的单图像生成3D目标方案,创新的One-2-3-45++来了!

论文链接: https://arxiv.org/pdf/2311.07885github链接: https://sudo-ai-3d.github.io/One2345plus_page/Demo链接: https://www.sudo.ai/3dgen最近在开放世界的3D目标生成方面取得了显著的进展,图像到3D的方法,比文本到3D的同类方法提供更高的细粒度控制。然而,大多数现有模型在同时提供快速

文章图片
#3d
图像生成地表最强!Playground v2.5技术报告解读重磅来袭!超越SD、DALL·E 3和 Midjourney

自从通过ImageNet取得更好的图像建模性能以来,基于扩散的生成模型已经取得了巨大进展,与先前主导的生成对抗网络(GAN)框架相比,性能有所提高。开源模型如SDXL在潜在扩散模型(LDM)的基础上进行了扩展,通过扩大文本到图像的预训练数据集和潜在UNet架构来实现。另一方面,PixArt-alpha探索了扩散Transformer(DiT)作为潜在骨干,表现出更好的训练效率和图像质量。Playg

文章图片
#人工智能
超越α!PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT(华为诺亚)

最近,高质量文本到图像(T2I)模型的出现深刻影响了人工智能生成内容(AIGC)社区。这包括专有模型,如DALL·E 3 、Midjourney ,以及开源模型,如Stable Diffusion 和PixArt-α。然而,开发顶级的T2I模型需要相当大的资源;例如,从头开始训练SD1.5需要约6000个A100 GPU 天,这给资源有限的个人研究人员造成了重大障碍,并阻碍了AIGC社区的创新。随

文章图片
#人工智能
ChatGPT成立一周年:开源大语言模型正在迎头赶上吗?

很多人已经开始慢慢依赖ChatGPT,把它当成了私人助理,很多问题都会咨询它的建议。但也担心这个助理随时可能会消失的无影无踪,尤其是最近遇到网站打不开,以及CEO Sam Altman被解雇、员工抗议董事会,最终以Altman回归结束等这样戏剧性的不可预测的事件。那如何找到替代者?ChatGPT在2022年底发布后,在AI领域产生了巨大的变革,不论是在学术研究还是商业方面都有所体现。通过使用监督微

文章图片
#语言模型#人工智能
到底了