logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ADGaussian:用于自动驾驶的多模态输入泛化GS方法

《ADGaussian:基于多模态输入的自动驾驶通用高斯泼溅方法》提出了一种创新的街道场景重建框架。该研究通过融合单目图像和稀疏LiDAR深度数据,构建多模态联合优化模型,解决了传统方法泛化性差和多模态融合不足的问题。核心创新包括:1)多模态特征匹配机制,利用Siamese编码器和交叉注意力实现深度-图像特征交互;2)深度引导位置嵌入增强3D空间感知;3)多尺度高斯解码器实现几何与外观解耦预测。在

文章图片
#自动驾驶#人工智能
DriveMM:用于自动驾驶的一体化大型多模态模型——论文阅读

《DriveMM: All-in-One Large Multimodal Model for Autonomous Driving》是由中山大学深圳分校和美团于2024年12月发表的论文,提出了一种全合一的多模态模型DriveMM,旨在解决自动驾驶领域模型泛化能力不足的问题。DriveMM支持多传感器输入(如单/多视角图像、视频、LiDAR),并通过视角感知提示区分数据来源,整合感知、预测、规划

文章图片
#论文阅读#语言模型#自动驾驶 +1
目标检测(Object Detection)研究方向常用数据集简单介绍

目标检测是计算机视觉的核心任务之一,旨在从图像或视频中定位并识别出所有感兴趣的物体,输出其类别和位置(通常以边界框表示)。其研究主要围绕精度与速度的平衡展开,并逐步向多模态、轻量化、开放集等方向扩展。Two-Stage检测算法(如R-CNN系列):首先生成候选区域(Region Proposal),再对候选区域分类和位置修正。这类算法精度高但速度较慢,典型代表包括Fast R-CNN、Faster

#目标检测#人工智能#计算机视觉 +1
使用GPUGEEK算力平台流程 (保姆级教程)

(2)下面以选择RTX-A5000-24G为例,一个在这里算比较低配的配置,看看运行大模型的效果,性价比高,且性能不错,适合新手体验和模型部署。(1)您可通过多种方式请求每个模型的 API,包括 HTTP、Node.js、Python,针对文本对话类的官方 API,支持 OpenAI 格式兼容。(1)点击 算力市场,进入算力资源选择页面,可以看到平台提供的多种算力选项,包括不同型号的 GPU 设备

文章图片
#GPU
Source Insight 的简单介绍

SourceInsight是一款专注于源码阅读和分析的专业工具,尤其适合处理大型C/C++项目。其核心创新在于符号数据库技术,提供极速的源码导航、符号跳转和关系可视化功能。典型应用场景包括嵌入式开发、系统级编程和遗留代码维护。虽然界面较老旧且缺乏现代IDE的智能补全等高级功能,但在代码理解效率方面仍具优势。主要替代方案有VSCode、CLion等。对于需要深度分析复杂代码结构的开发者,Source

#编辑器
GCC的简单介绍

GCC(GNU编译器套件)是GNU项目开发的开源多语言编译器系统,支持C、C++、Fortran等主流编程语言,能针对x86、ARM等多种处理器架构生成高效代码。作为自由软件运动的基石,GCC以GPL许可证发布,是Linux系统和嵌入式开发的标准工具。其核心优势包括强大的代码优化能力、跨平台支持以及标准化合规。虽然面临LLVM/Clang的竞争,但GCC在嵌入式领域和传统优化方面仍保持领先地位,持

#linux
针对C++开发工具推荐及分析(涵盖IDE、编译器、调试工具和辅助工具)

本文系统介绍了C++开发工具链,涵盖IDE(VS、CLion、QtCreator等)、编译器(GCC、Clang、MSVC)、构建系统(CMake、Bazel)、调试测试工具(GDB、GoogleTest)和性能分析工具(Valgrind、VTune)。针对不同项目类型(跨平台应用、高性能计算、嵌入式开发)推荐了最佳工具组合,强调现代C++开发应优先采用CMake构建系统,并提供了云原生开发支持方

#c++#ide#开发语言 +1
AlphaDrive:通过强化学习和推理释放自动驾驶中 VLM 的力量

本文提出AlphaDrive框架,通过结合GRPO强化学习与规划推理技术解决当前端到端自动驾驶模型在长尾场景中的表现不足问题。该框架创新性地采用分组优化的GRPO算法和四大规划导向奖励函数,通过两阶段训练策略(知识蒸馏+RL优化)提升决策鲁棒性。实验表明,仅使用20%数据时,其2B小模型性能超越7B基线模型35.31%,且在多模态规划能力和数据效率上表现突出。研究证实通用大模型技术可有效迁移至垂直

文章图片
#自动驾驶#人工智能#机器学习
VLA视觉语言动作大模型的简单介绍

VLA(Vision-Language-Action)模型是人工智能多模态领域的自然演进成果,旨在通过整合视觉感知、语言理解和动作生成能力,赋予机器更接近人类的交互与决策能力。其发展受到多模态学习、强化学习与机器人控制以及大模型泛化能力的推动。VLA模型的技术架构包括多模态融合编码器、动作解码器和记忆与规划模块,具有跨模态泛化、少样本适应和因果推理能力等优势。应用领域涵盖服务机器人、工业自动化、自

#人工智能#语言模型
李沐动手深度学习(pycharm中运行笔记)——12.权重衰退

权重衰退是一种通过L2正则项控制模型复杂度的技术。文中介绍了两种实现方式:硬性限制(使用均方范数限制参数范围)和柔性限制(通过超参数λ调整正则强度)。代码实现部分展示了从零开始的过程:生成数据集(特征维度200)、初始化参数、定义L2惩罚项和训练逻辑。实验对比了无正则项(λ=0)和使用权重衰退(λ=3)的效果,验证了权重衰退能有效防止参数过大,控制模型容量。该方法在深度学习中也被称为权重衰减,是防

文章图片
#深度学习#pycharm#pytorch
    共 87 条
  • 1
  • 2
  • 3
  • 9
  • 请选择