logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Diffusion-离散扩散-202107-D3PM02:在离散状态空间的结构化去噪扩散模型(Structured Denoising DM in Discrete State-Spaces)

正如第 3.1 节所讨论的,对 QtQ _ { t }Qt​ 有两个约束使其能在 D3PM 中使用: QtQ _ { t }Qt​ 的行必须求和为1 以保持概率质量守恒,且 Qt=Q1Q2…QtQ _ { t } = Q _ { 1 } Q _ { 2 } \ldots Q _ { t }Qt​=Q1​Q2​…Qt​ 的行必须随着 ttt 变大而收敛到一个已知的平稳分布。技术上,也可以使用一个学习

#人工智能
Diffusion-离散扩散-202310-SEDD01:Discrete Diffusion Modeling

尽管扩散模型在许多生成建模任务中取得了突破性表现,但在自然语言等离散数据域上却表现不佳。关键在于,标准扩散模型依赖于成熟的分数匹配理论,但将该理论推广到离散结构的尝试并未取得同样的实证收益。在本工作中,我们通过提出分数熵来弥合这一差距:这是一种新颖的损失函数,它能自然地将分数匹配扩展到离散空间,无缝集成以构建离散扩散模型,并显著提升性能。在实验中,我们在标准语言建模任务上测试了我们的分数熵离散扩散

#人工智能
Diffusion-离散扩散-202107-D3PM01:在离散状态空间的结构化去噪扩散模型(离散扩散模型的总源头论文之一)

去噪扩散概率模型 (DDPMs) [19] 已在连续状态空间的图像和波形生成上展现了令人瞩目的成果。在此,我们介绍离散去噪扩散概率模型(D3PMs),这是一种针对离散数据的扩散类生成模型,它通过超越具有均匀转移概率的损坏过程,推广了Hoogeboom等 [20], 的多项式扩散模型。这包括模仿连续空间中高斯核的转移矩阵、基于嵌入空间中最近邻的转移矩阵,以及引入吸收态的转移矩阵。第三种允许我们在扩散

#人工智能
yolo目标检测中打标工具labelme介绍

在YOLO等目标检测模型中,对图片进行打标的核心目的是为监督学习提供训练数据,通过标注目标物体的边界框和类别标签,使模型能够学习识别和定位目标的规律。打标数据为模型训练提供监督信号,通过对比预测结果与真实标注值,计算定位损失、分类损失和置信度损失,驱动模型参数优化;同时,标注数据也是评估模型性能(如mAP、精度、召回率)的基础,确保模型在多样场景(如多尺度目标、遮挡、复杂背景)中具备泛化能力。此外

#目标检测#目标跟踪
人工智能-强化学习:Imitation Learning(模仿学习)= Learning by Demonstration(示范学习)【每一步action都没有reward】

- Imitation Learning(模仿学习)是从给定的展示中进行学习。机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward。- 在某些任务上,也很难定义 reward。如:自动驾驶,撞死一人,reward为多少,撞到一辆车,reward 为多少,撞到小动物,reward 为多少,撞到 X,reward 又是多少,诸如此类。。。- 另外,某些人类所定义的 reward,可

#人工智能
强化学习-李宏毅-算法02:DQN(Deep Q-Learning Network)【Deep Learning Network + Q-Learning 】

DQN(Deep Q-Learning Network)可谓是深度强化学习(Deep Reinforcement Learning,DRL)的开山之作,是将深度学习与强化学习结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)学习的一种全新的算法。由DeepMind在NIPS 2013上发表1,后又在Nature 2015上提出改进版本2。- D

文章图片
#人工智能
CarDreamer: Open-Source Learning Platform for World Model based Autonomous Driving

模态是否内置用途RGB 图像✅场景与动态建模Ego 状态✅控制与物理一致性Action✅世界转移条件LiDAR🔁几何世界建模🔁长时结构预测语义标签🔁评估 / 辅助监督CarDreamer 的核心价值不在于“模型最大”,而在于:它是目前唯一成熟的、开源的、面向自动驾驶世界模型“训练 + 想象 + 策略学习”的完整系统。🔧如何把 UniWorld / Occupancy world model

#自动驾驶
目标检测(Object Detection)简介

目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。计算机视觉中关于图像识别有四大类任务:(1)分类-Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包

文章图片
#目标检测#人工智能#计算机视觉
跨模态检索研究进展综述【跨模态检索的核心工作在于:①不同模态数据的特征提取、②不同模态数据之间内容的相关性度量】【主流研究方法:基于传统统计分析的技术、基于深度学习的技术】【哈希编码提高检索速度】

随着互联网上多媒体数据的爆炸式增长,单一模态的检索已经无法满足用户需求,跨模态检索应运而生.跨模态检索旨在以一种模态的数据去检索另一种模态的相关数据。跨模态检索的核心任务是:数据特征提取 和 不同模态数据之间内容的相关性度量。文中梳理了跨模态检索领域近期的研究进展,从以下角度归纳论述了跨模态检索领域的研究成果.:传统方法;深度学习方法;手工特征的哈希编码方法;深度学习的哈希编码方法在此基础上,对比

#人工智能#机器学习#算法
目标检测:开放集(open-set)⇔开放世界(open-world)⇔开放词汇(open-vocabulary) Object Detection

开放词汇目标检测是目标检测领域的一个新兴研究方向,旨在让模型能够识别和检测新类别物体。通过视觉-语言的结合,利用多模态学习和零样本学习技术,模型不仅仅局限于训练时已知的类别,还能够从文本和视觉特征中推理出新类别的特征。尽管面临挑战,这一领域的进展为许多实际应用带来了新的可能性。

#目标检测#目标跟踪#人工智能
    共 591 条
  • 1
  • 2
  • 3
  • 60
  • 请选择