logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenAI大动作:Whisper large-v3重塑语音识别技术

这个模型不仅提高了识别的准确性,还大幅扩展了对不同语言的支持范围。在最近的OpenAI首届开发者大会上,一个引人注目的技术亮点是Whisper large-v3的发布。这款最新的自动语音识别模型不仅在多语言识别方面取得了显著进步,而且还将很快在OpenAI的API中得到支持。OpenAI的Whisper large-v3不仅是一次技术更新,它代表了语音识别领域的一大步。随着这一技术的普及和应用,我

文章图片
#语言模型#人工智能
InstantID:用一张大头照开启个性化图像生成的新时代

InstantID的出现,不仅是技术上的一大飞跃,也为我们如何看待和利用AI技术提供了新的视角。它的开源性质进一步加强了这一技术的可达性和普及性,预示着个性化图像生成技术的新时代已经到来。随着技术的不断进步和创新,我们可以期待更多令人激动的发展和应用出现在这个领域。

文章图片
#计算机视觉#人工智能#深度学习
潜在一致性模型(LCM):开启图像生成效率新纪元

LCM 是在 Consistency Models 的基础上引入了 Lantent Space (潜空间),进一步压缩需要处理的数据量,从而实现超快速的图像推理合成。最近,清华大学交叉信息科学研究院推出的LCM(Latent Consistency Models)在这两个方面都取得了显著的突破,尤其是在提升出图效率方面,实现了重要的进展。目前官网只提供了Dreamshaper-V7和LCM-SDX

文章图片
#人工智能#计算机视觉#语言模型
腾讯发布ELLA:为扩散模型注入LLM能力,提升复杂场景的图像生成,准确率超90%

近年来,基于扩散模型的文本到图像生成技术取得了显著进步,能够生成高质量、逼真的图像。然而,大多数扩散模型仍然使用CLIP作为文本编码器,这限制了它们理解复杂提示的能力,例如包含多个物体、详细属性、复杂关系、长文本对齐等等。为了克服这一局限性,腾讯团队推出了一个名为ELLA(Efficient Large Language Model Adapter)的全新方法,它能够将强大的大型语言模型(LLM)

文章图片
#人工智能#计算机视觉#深度学习 +2
Stable Diffusion 3震撼发布,开启图像生成新纪元,20亿参数Medium模型率先开源

Stability AI 作为开源图像生成领域的领军者,不断突破技术边界,6月12日发布了其最新一代文本到图像生成模型——Stable Diffusion 3。这次发布的是 Stable Diffusion 3 的 Medium 模型,拥有 20 亿参数,在图像质量、文本遵循度和排版方面都展现出超越现有模型的强大实力。Stability AI 未来还将开源 40 亿和 80 亿参数的版本,进一步提

文章图片
#人工智能#语言模型
DeepSeekAI发布多模态大模型DeepSeek-VL:从13亿到70亿参数的多模态精确度,免费商用

随着人工智能技术的不断发展,多模态大模型在理解复杂世界方面的能力日益增强。DeepSeekAI,一家由幻方量化支持的创新型大模型公司,最近发布了其最新的多模态大模型系列——DeepSeek-VL。该系列包含从13亿到70亿参数的模型,旨在提高机器对图像和文本的理解能力,同时支持广泛的商业应用。DeepSeek-VL系列代表了在多模态AI领域的一大突破,提供了两种不同规模的模型,分别是13亿参数和7

文章图片
#人工智能#语言模型#自然语言处理
北大&字节提出VAR新范式,GPT超越扩散、视觉生成Scaling Law

来自北京大学和字节跳动的研究团队,提出了一种名为"Visual AutoRegressive (VAR) Modeling"的全新视觉生成范式。VAR 重新定义了图像的自回归学习过程,从而使得GPT风格的自回归模型首次超越扩散模型,在图像生成质量、速度和可扩展性等多方面都取得了突破性进展。Huggingface模型下载:AI快站模型免费加速下载:VAR核心思想:模仿人类视觉认知VAR的核心思想源于

文章图片
#机器翻译#人工智能#开源 +1
Qwen-Image-Edit-2511-Multiple-Angles LoRA:多角度AI图像生成完全指南

摘要:Qwen-Image-Edit-2511-Multiple-AnglesLoRA是一款革命性的AI图像编辑工具,提供96种相机视角控制,包括8个方位角、4个仰角和3个距离级别。该技术基于3,000多张高质量渲染图训练,支持从单张输入图像生成多角度视图,特别适合电商产品展示和创意内容制作。用户只需通过自然语言提示词即可精确控制虚拟相机位置,无需复杂参数调整。该工具已集成到ComfyUI等平台,

文章图片
#人工智能#计算机视觉
仅凭视频输入,30秒生成物理正确3D布局!群核科技开源空间理解模型SpatialLM

SpatialLM作为一款开源空间智能模型,具备处理多源三维数据并生成结构化场景理解结果的能力,在具身智能等领域具有广阔前景]。其开源特性将促进社区的共同发展,加速空间智能技术的创新和应用。

文章图片
#3d#科技
Stable Diffusion AnimateDiff | 最火文本生成视频插件

简言之,AnimateDiff通过训练大量短视频来优化图像之间的过渡,确保视频帧的流畅性。安装好插件之后,将 AnimateDiff 模型下载放到 stable-diffusion-webui/extensions/sd-webui-animatediff/model/与传统的SD模型训练方式不同,AnimateDiff通过大量短视频的训练来提高图像之间的连续性,使得生成的每一张图像都能经过Ani

文章图片
    共 163 条
  • 1
  • 2
  • 3
  • 17
  • 请选择