
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出了一个强大的affordance检测方案,该方案利用R-FCN为抓手性和dense features识别,加入Dense CRF后处理增强了实操性。在机器人抓取任务中取得显著的性能提升,尤其是在捕捉复杂场景的信息和边界识别。文章对比了多种现有方法,并在鲜明的仿真中突出了affordance检测的拖拽效率。从方法论和实验层面,这些结果表明目标检测不仅在图像任务中重要,在机器人操作系统领域中也
一句话总结本文提出了BERT,它通过一个新颖的“遮蔽语言模型”任务,首次实现了对Transformer模型的深度双向预训练,从而在11项NLP基准任务(如GLUE、SQuAD)上取得了统治性的最佳成绩,并为下游任务提供了一种极其简洁、统一的微调解决方案。贡献列表提出深度双向预训练:不同于GPT(从左到右单向建模)和ELMo(浅层双向拼接),BERT通过遮蔽语言模型(Masked LM, MLM)任
一句话总结:本文提出了一种基于视觉语言模型(Vision Language Model, VLM)的Affordance定位方法——AffordanceLLM,通过从高质量预训练模型中挖掘出的丰富世界知识和3D信息推理,实现了在未知对象和未知动作上的强大泛化能力,特别是在AGD20K数据集上取得了显著的性能突破。贡献列表提出了一种全新的Affordance定位方式:AffordanceLLM不依赖
本篇文章继续学习李宏毅老师2025春季机器学习课程,学习内容是explainable machine learning如何处理输入,以及简单了解explainable machine learning分类中的global explanation。
一句话总结:该论文全面综述了基于深度学习的视觉可用性识别(Visual Affordance Recognition)方法,展示了其在机器人技术、人机交互和其它视觉任务中的应用价值,并强调了MAE模型作为一种可扩展的自监督学习方法,为复杂场景中的可用性识别提供了新思路。贡献列表系统性综述:涵盖了可用性识别的五个主要任务(分类、检测、分割、行为识别与推理),并通过详细的技术分类展示不同方法的优劣和设
本篇文章继续学习尚硅谷深度学习教程,学习内容是。
图像识别是计算机视觉中的核心任务之一,传统的卷积神经网络(CNNs)在这一领域表现出主导地位。然而,近年来,Transformer 架构在自然语言处理(NLP)领域取得了巨大成功,但其在视觉任务中的应用仍面临挑战。本文旨在探讨如何直接应用 Transformer 架构进行图像识别,而不依赖于 CNN 的结构或特性。Vision Transformer (ViT) 是一个突破性的模型,它对图像识别任
一句话总结本文提出了BERT,它通过一个新颖的“遮蔽语言模型”任务,首次实现了对Transformer模型的深度双向预训练,从而在11项NLP基准任务(如GLUE、SQuAD)上取得了统治性的最佳成绩,并为下游任务提供了一种极其简洁、统一的微调解决方案。贡献列表提出深度双向预训练:不同于GPT(从左到右单向建模)和ELMo(浅层双向拼接),BERT通过遮蔽语言模型(Masked LM, MLM)任
本周进行论文阅读学习,以及课程实验学习的论文为Generative Adversarial Networks (GAN)摘要与核心贡献一句话总结:这篇开创性论文提出了一种名为“生成对抗网络”的全新生成模型框架,它通过两个神经网络(生成器与判别器)之间的博弈来学习复杂数据分布,从而避免了以往方法中难以处理的概率密度函数显式建模或近似推断问题。贡献列表:提出了一个全新的生成模型范式:将生成模型问题巧妙
本篇文章继续学习尚硅谷深度学习教程,学习内容是张量索引操作,形状操作,拼接操作,以及自动微分模块的实现和,学习线性回归的机器学习案例。







