logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

港科大联合港中文、字节跳动推出DreamOmni2:不止修图,更能领会意境,让AI绘画大师拿捏氛围感!

它不仅仅是一个简单的图像编辑或生成工具,更是一个能理解多模态指令(也就是文字+图片)的“创意大师”,无论你是想P掉一个路人甲,还是想让整张图充满“赛博朋克”的风格,它都能精准拿捏。在多模态指令编辑任务上,无论是和开源模型比,还是和像GPT-4o这样的闭源商业模型比,DreamOmni2都展现出了更精准的编辑效果和更好的一致性。: 首先,模型通过一种“特征混合”的方法,学会从图片中提取各种概念,无论

#AI作画
从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架

我们发现在非常简单的位置移动或者属性变化上,所有模型的效果都不好,这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。现在的模型都还不支撑故事级别(5 个连续的小情节)的视频生成,其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别,还远远没有到考虑分钟级别的故事叙述。在下面这些常被网友吐槽的场景中,模型往往暴露了缺乏「内在真实度」的短板。作为业内权威的视频生成

#人工智能
ICML 2025 | 加州伯克利和 MIT 提出 Sparse VideoGen,挖掘模型稀疏性,加速视频生成

为此,研究者对这两个模块进行了算子优化,QK-Norm 的吞吐量在所有场景下均优于 PyTorch 的标准实现,平均加速比为 7.4 倍,。该方法通过将张量从帧为主的布局转换为 token 为主(token-major)的布局,使得 Temporal Head 所需的 token 在内存中呈现连续排列,从而优化了内存访问模式。然而,传统的张量布局通常是以帧为主(frame-major)的顺序存储数

#音视频
解锁 AI 开发新高度:AI 工作站与 NVIDIA AI Workbench 全栈解决方案

凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。凭借 48 GB 的 GPU 显存和 1.3 TB/s的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。性能高达上一代的 3 倍,支持 FP4 精度,可缩

#人工智能#机器学习#大数据
从视频生成到世界模型:CVPR 2025 重磅教程来了!

🔗 资源地址:https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model。随着 AIGC 的飞速发展,图像生成已经“卷”入日常,视频生成也不再是最初的“抖动幻影”,而是跃升为能够讲故事、控制动作、进行较长时推理的高质量动态内容。如何将视频生成作为强大的视觉先验,赋能 AI 感知世界、理解交互、推理物理,从而

博后 | 博士 | 硕士 | 访问学生 | 阿联酋大学IEEE Fellow团队招募,人脸和人体的图像和视频生成方向...

关注公众号,获取更多AI领域发展机会阿联酋大学IEEE Fellow团队招收博士后、博士生、硕士生和访问学生导师介绍廖胜才博士是IEEE Fellow和IAPR Fellow,主要从事计算机视觉研究,特别是围绕人脸和人体的检测、识别、分析与图像视频生成。廖博士新近加入了阿联酋大学信息学院,并领导成立了一个全新的计算机视觉实验室,现招收多名2025博士后、博士生、硕士生和访问学生。廖博士曾是密歇根州

#人工智能
多模态文档理解新挑战!字节跳动、华中科技大学联合发布WildDoc基准,揭示真实场景下MLLMs的文档理解鲁棒性短板

WildDoc选取了3个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。通过更多的增强技术来模拟真实世界的条件,如变化的光照、阴影等,让模型在训练中接触到更多样化的场景,从而提高其适应能力。收集更多的真实世界

#人工智能#计算机视觉#深度学习
NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝

不同于以往只关注“显著性”(saliency)的方法,SCOPE创新地引入了“覆盖率”(coverage)的概念,力求在剪枝的同时,最大程度地保留原始图像的语义完整性。仅基于显著性的方法(Top)选出的令牌高度集中,而SCOPE(Bottom)选出的令牌则更均匀地分布在整个场景中,语义显然更完整。此外,研究者还发现,当令牌数量较多时,很多“尾部”令牌的注意力分数会趋于扁平,很难再通过这点微小的差异

#剪枝#人工智能#算法 +2
小红书Hi Lab联合西安交大提出 DeepEyes,探索 O3「Thinking with Images」能力

为引导模型发展高质量的推理能力,我们设计了专注于工具使用的数据选择机制和奖励策略体系,有效增强模型在工具辅助下的问题解决能力。作为多模态推理领域的重要突破,OpenAI 的 o3 模型首次实现将图像直接融入推理过程,突破了传统文字思维链的局限 ,成为多模态推理新的里程碑。—— 模型先对图像进行观察,再通过纯文本推理来解决复杂的多模态问题。因此,小红书联合西安交通大学,采用端到端强化学习,在完全不依

字节跳动提出Mogao模型:开启 AIGC 从“能写会画”到“边写边画”

另外还使用了视频帧和相应字幕的数据,研究人员训练了一个视觉-语言模型,用以为视频中抽帧采样的每一帧生成对应的字幕说明,最终将图像帧和生成的字幕交织在一起,构成训练样本。Mogao通过创新的架构设计和高效的训练策略,成功实现了交错多模态生成,在多模态理解、文本到图像生成和零样本图像编辑等任务中展现了卓越性能。例如,它可以生成一段描述森林的文字,随后生成一张森林的插图,然后继续生成下一段文字,形成一个

#AIGC#人工智能#计算机视觉
    共 456 条
  • 1
  • 2
  • 3
  • 46
  • 请选择