logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2024 | 图像检测类(目标、deepfake、异常)!AIGC扩散模型diffusion解决detection任务...

目标跟踪1、Delving into the Trajectory Long-tail Distribution for Muti-object Tracking多目标跟踪(Multiple Object Tracking,MOT)是计算机视觉领域中一个关键领域,有广泛应用。当前研究主要集中在跟踪算法的开发和后处理技术的改进上。然而,对跟踪数据本身的特性缺乏深入的研究。本研究首次对跟踪数据的分布模

EfficientSAM:小模型也能万物分割!Meta改进SAM,参数仅为原版5%

本文来源 机器之心 编辑:陈萍、蛋酱对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。Meta四月份发布的「分割一切模型(SAM)」效果,它能很好地自动分割图像中的所有内容Segment Anything 的关键特征是基于提示的视觉 Transformer(ViT)模型,该模型是在一个包含来自 1100 万张图像的超过..

CVPR 2024 | 图像超分、图像恢复汇总!用AIGC扩散模型diffusion来解决图像low-level任务的思路...

1、Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder超分辨率(SR)和图像生成是计算机视觉中重要的任务,在现实应用中得到广泛采用。然而,大多数现有方法仅在固定放大倍数下生成图像,并且容易出现过平滑和伪影。此外,在输出图像的多样性和不同尺度下

#计算机视觉#人工智能
CVPR 2024 | 从6篇论文看扩散模型diffusion的改进方向

1、Accelerating Diffusion Sampling with Optimized Time Steps扩散概率模型(DPMs)在高分辨率图像生成方面显示出显著性能,但由于通常需要大量采样步骤,其采样效率仍有待提高。高阶ODE求解在DPMs中的应用的最新进展使得能够以更少的采样步骤生成高质量图像。然而,大多数采样方法仍使用均匀的时间步长,在使用少量步骤时并不是最优的。为解决这个问题,

ICCV 2023 | 8篇论文看扩散模型diffusion用于图像检测任务:动作检测、目标检测、异常检测、deepfake检测...

1、动作检测 DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion基于扩散方法提出一种新的时序动作检测(TAD)算法,简称DiffTAD。以随机时序proposals作为输入,可以在未修剪的长视频中准确生成动作proposals。从生成建模的视角,与先前的判别学习方法不同。首先将真实proposals从正向扩散到随

#目标检测#人工智能#计算机视觉
计算量和参数量总结 | 各种神经网络层和模块

作者:DengBoCong@知乎来源丨https://zhuanlan.zhihu.com/p/342668070版权归作者所有,侵删Github:本文代码放在该项目中:NLP相关Paper笔记和代码复现(https://github.com/DengBoCong/nlp-paper)说明:讲解时会对相关文章资料进行思想、结构、优缺点,内容进行提炼和记录,相关引用会标明出处,引用之处如有侵权,烦请

#神经网络#算法#计算机视觉 +1
CVPR 2022|基于GAN逆映射的高保真图像编辑算法 by 港科大&腾讯AI Lab开源

转载自:极市平台 作者丨Tengfei Wang来源丨港科大、腾讯AI Lab论文:https://arxiv.org/abs/2109.06590代码:https://github.com/Tengfei-Wang/HFGI主页:https://tengfei-wang.github.io/HFGI/视频:https://www.bilibili.com/vide...

#算法#机器学习#人工智能 +2
FontDiffuser:基于扩散模型的字体生成

作者丨杨振华、彭德智 编辑丨极市平台来源丨华南理工大学DLVC实验室、阿里巴巴LOGO论文链接: https://arxiv.org/abs/2312.12142项目链接: https://yeungchenwa.github.io/fontdiffuser-homepage/HuggingFace Demo链接: https://huggingface.co/spaces/yeungche...

#机器学习#计算机视觉#人工智能 +1
拥抱生产力变革!GPT4接入Office,动嘴就能Excel到PPT!

梦晨丰色发自凹非寺量子位|公众号QbitAI一觉醒来,工作的方式被彻底改变。微软把AI神器GPT-4全面接入Office,这下ChatPPT、ChatWord、ChatExcel一家整整齐齐。CEO纳德拉在发布会上直接放话:今天,进入人机交互的新时代,重新发明生产力。新功能名叫Microsoft 365 Copilot(副驾驶),与改变了程序员的代码助手GitHub Copi...

「Open-Sora 1.0」!Colossal-AI 团队复现开源!

本文来源 机器之心编辑部不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同.

暂无文章信息