logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Alpamayo-R1:打通推理与动作预测,迈向稳健 L4 级自动驾驶

本文是对论文《Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail》的深度解读。在自动驾驶领域,端到端模型在长尾安全关键场景的脆弱性是迈向 L4 级自动驾驶的核心瓶颈。NVIDIA 团队提出的 Alpamayo-R1 模型,通过因果链数据

文章图片
#论文阅读
Alpamayo-R1:打通推理与动作预测,迈向稳健 L4 级自动驾驶

本文是对论文《Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail》的深度解读。在自动驾驶领域,端到端模型在长尾安全关键场景的脆弱性是迈向 L4 级自动驾驶的核心瓶颈。NVIDIA 团队提出的 Alpamayo-R1 模型,通过因果链数据

文章图片
#论文阅读
P2PNet:基于点的密集人群计数与定位

本文是对论文《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》的深度解读。在人群分析领域,单纯计数已难以满足下游任务需求,现有方法存在中间表示冗余、定位不准等问题。腾讯优图实验室团队提出纯点基框架,设计 nAP 评估指标与 P2PNet 模型,通过一对一匹配策略直接预测头部中心点,实现计数

文章图片
#深度学习#论文阅读
Pixtral 12B:兼顾多模态与文本性能的开源新标杆

本文是对论文《Pixtral 12B: A 12-Billion-Parameter Multimodal Language Model with Native Resolution Support》的深度解读。在多模态大模型领域,如何兼顾图像文本理解能力与性能平衡,同时解决评估标准化问题,是核心挑战。Mistral AI 团队推出的 Pixtral 12B,创新性采用 ROPE-2D 视觉编码器

文章图片
#人工智能#开源#论文阅读
FlashLightNet:实时检测与分类静态和闪烁交通灯状态的端到端深度学习框架

本文是对论文《FlashLightNet: An End-to-End Deep Learning Framework for Real-Time Detection and Classification of Static and Flashing Traffic Light States》的深度解读。在自动驾驶导航领域,静态与闪烁交通灯的实时精准识别是关键挑战。密西西比州立大学团队提出的 Fl

文章图片
#自动驾驶#论文阅读
PETR:多视图 3D 目标检测的位置嵌入变换新范式

本文是对论文《PETR: Position Embedding Transformation for Multi-View 3D Object Detection》的深度解读。在自动驾驶多视图 3D 目标检测领域,如何避免复杂 2D-to-3D 投影与特征采样是关键挑战。MEGVII 团队提出的 PETR 框架,创新性地将 3D 坐标编码为位置嵌入注入 2D 特征,生成 3D 位置感知特征,实现端

文章图片
#自动驾驶#论文阅读
LLaMA:开源高效基础语言模型的技术突破与实践

本文是对论文《LLaMA: Open and Efficient Foundation Language Models》的深度解读。在大语言模型研究领域,如何基于公开数据集训练高性能且高效部署的模型,一直是研究者面临的关键挑战。Meta AI 团队发表的这项研究,创新性地提出了 LLaMA 系列开源基础语言模型,通过优化数据构建、架构设计与训练策略,实现了 13B 参数模型超越 GPT-3、65B

文章图片
#人工智能#论文阅读
VADv2:基于概率规划的端到端矢量化自动驾驶

本文是对论文《VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning》的深度解读。在端到端自动驾驶领域,驾驶规划的不确定性与非确定性始终是核心挑战。华中科技大学与地平线机器人团队提出的 VADv2,创新性地将概率建模用于连续规划动作空间,以多视角图像序列为输入,经场景编码与概率规划输出动作分布并采样控车,

文章图片
#自动驾驶#论文阅读
ZeroMatch:基于预训练大视觉模型的零样本 RGB-D 点云配准

本文是对论文《Zero-shot RGB-D Point Cloud Registration with Pre-trained Large Vision Model》的深度解读。在 3D 重建与 SLAM 领域,未知场景下的 RGB-D 点云配准是核心挑战。研究团队提出 ZeroMatch 框架,融合 FPFH 手工几何描述符与 Stable Diffusion 全局特征,创新耦合图像输入与一致

文章图片
#论文阅读
BEVDet:鸟瞰图视角下的高性能多相机 3D 目标检测

本文是对论文《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》的深度解读。在自动驾驶感知领域,3D 目标检测需兼顾精度与效率,且需统一 3D 检测与 BEV 语义分割范式,这是关键挑战。PhiGent Robotics 团队提出的 BEVDet 范式,以 BEV 视角实现多相机 3D 检测,通过模

文章图片
#论文阅读
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择