登录社区云,与社区用户共同成长
邀请您加入社区
《事件关系阴阳博弈动力学》第十二章探讨了人机共生的认知语法系统WOLM。文章指出人类认知与WOLM系统具有结构同构性,都遵循"触发-定向-涌现-行动"的四阶段认知模型。WOLM将人类模糊的直觉判断转化为清晰的态势编码,实现了十八种关系类型和六十四卦完备态势空间的认知决策语法。该系统可应用于机器人、自动驾驶、消费电子等多个领域,作为通用认知决策引擎,为智能设备提供实时识势和安全决
大家好,我是老张,做了三年多目标检测的算法工程师。今天想和大家聊聊一个比较头疼但特别有意思的问题——小目标检测,以及我是怎么在YOLOv10上通过一种“区域感知数据增强”的方法,把模型在小目标上的泛化能力硬生生提上去的。先说说背景吧。上个月接到一个项目,需要在无人机航拍的图像里检测行人、车辆和交通标识。数据集拿到手一看,好家伙,1024×1024的图像里,很多目标的尺寸只有十几个像素点,甚至更小。
传统的交叉熵损失只关注类别边界的正确性,它不关心同类样本在特征空间中的分布是否紧凑,也不关心不同类之间的边界是否足够清晰。对正样本对的贡献进行密度加权:特征空间中密度高的区域(样本拥挤)贡献更小的权重,因为该区域已经学得够好了;alpha越大,模型对困难负样本的关注越强。可视化特征空间的t-SNE图可以发现,基线的裂纹样本散落在划痕样本中,而DACL让所有裂纹样本聚成了一个紧凑的簇。的核心思想是:
ROS通信------基于物联网(单片机)与手机通信,物联网通信使用的是对于MQTT的使用可以查阅博主的物联网MQTT通信------Easy IoT、SIoT左边是博主3D打印一个外壳 套住了,外观没有太精美,中间是博主自己做的APP,功能暂未完善,右边是用别的公司的机械车,所以还没有开源,右边是用别的公司的机械车,如果需要或者有想法可以联系博主!
本文围绕自动驾驶中间件的调度层展开,从操作系统视角分析三种调度模型(一线程一模、线程池、协程)的优劣,阐述选择 marl 协程库的理由——M:N调度、轻量切换(~100ns)、跨平台、零依赖。详解 HyperFlow 的调度架构:每个 Module 运行在 marl Fiber 中,支持定时、事件驱动、混合三种模式,核心运行循环通过 marl::Event 实现挂起/唤醒。深入拆解 NotifyT
OpenDriveVLA 是当前自动驾驶领域最受关注的视觉语言动作(Vision-Language-Action)模型之一,基于 Qwen2.5 系列大模型构建,能够直接从多模态输入(图像、文本指令)输出端到端的驾驶轨迹。本文将带你从零完成 OpenDriveVLA 的环境部署与推理验证,重点解决国内模型下载受限、分布式启动报错等问题。国内下载模型必须配置HF_ENDPOINT=https://h
本文介绍了如何在星图GPU平台上自动化部署Alpamayo-R1-10B自动驾驶专用开源视觉-语言-动作(VLA)镜像,实现自动驾驶决策系统的快速搭建。该镜像支持多模态理解和轨迹预测,适用于复杂交通场景下的自动驾驶研发,显著提升决策的可解释性和适应性。
本文详细介绍了TDA4VM开发环境搭建与SDK配置的全流程,涵盖硬件选型、系统配置、SDK部署、TIDL工具链使用及OpenVX视觉流水线开发等关键环节。针对常见问题提供避坑指南,帮助开发者快速掌握边缘计算和自动驾驶领域的核心技术,提升开发效率。
文章摘要:相机成像模型通过三个关键步骤实现三维世界到二维像素的转换:1)世界坐标系→相机坐标系,通过外参矩阵[R∣T]完成刚体变换;2)相机坐标系→图像坐标系,利用小孔成像原理将三维投影为二维;3)图像坐标系→像素坐标系,通过内参矩阵将物理坐标转换为像素值。整个过程揭示了单目相机无法直接还原三维世界坐标的核心痛点——深度信息丢失,这套转换模型构成了计算机视觉、三维重建和AR技术的数学基础。(149
CVPR 2025 的 GaussianLSS 关注的不是“把 BEV 感知做得更重”,而是一个更本质的问题:深度估计本来就带有不确定性,为什么还要强迫模型把它当成精确值来投影?论文通过显式建模深度分布的均值与方差,把深度不确定性转成 3D Gaussian,再借助 Gaussian Splatting 高效渲染到 BEV 平面。它的意义不只是提升了显式深度路线的表现,更重要的是说明:高效 BEV
这篇论文的价值,不仅在于刷榜了一个新SOTA,更在于它像一面镜子,照出了当前端到端自动驾驶领域的一个“盲区”——我们一直在堆算力、扩模型,却忽视了模型到底有没有真正理解那些最基础的输入信息。左侧的环岛场景和右侧的弯道场景中,传统的Transfuser模型(黄线)和加入了SNG的Transfuser(红线)均出现了不同程度的轨迹偏移,而SNG-VLA(蓝线)则凭借对导航信息的深刻理解,精准贴合了理想
自动驾驶数据闭环中的Clip特征提取,本质是构建多模态数据的索引系统。一个Clip并非单一视频,而是包含摄像头、LiDAR、GPS等多元信息的综合数据包。特征提取流程需先对齐时间窗口,再分别提取语义、运动、环境等特征。关键环节包括:关键帧抽取、天气识别、轨迹编码、点云分析等。工程落地需注意时间同步、模型选型和版本管理,最终形成结构化标签+向量索引的数据资产。这种处理方式将海量路测数据转化为可检索、
本研究提出RAD(Reinforced Autonomous Driving)自动驾驶训练范式,创新性地结合3D高斯溅射技术构建数字孪生世界,并通过强化学习与模仿学习的协同训练突破传统局限。该方法在3DGS数字孪生环境中进行闭环训练,利用强化学习提升安全性,同时以模仿学习正则化保持驾驶行为的人类习惯性。实验表明,RAD相比传统模仿学习方法碰撞率降低3倍,能有效处理复杂危险场景。该范式为端到端自动驾
《MLNF-Mem V2.3:人形机器人的类脑记忆与经验中枢系统》是由文波福于2026年首创的创新型记忆架构。该系统通过多级嵌套漏斗设计模拟人类记忆机制,包含总控漏斗和动态子漏斗双层结构,实现记忆的五层时序晋升和自然遗忘。核心创新包括宏观自收敛行为一致性机制、轻量化终身记忆容量约束(1GB-10GB)、情绪等价信号等三大记忆驱动机制。该系统采用CC BY 4.0协议开源,强调署名保护首创权,为人形
扩散模型在自动驾驶路径规划中的应用正引发技术变革。该模型通过前向加噪和反向去噪过程,能够学习多模态概率分布而非单一最优解,解决了传统方法输出空间受限的问题。其核心优势体现在:1)多模态决策能力,可生成多样化候选轨迹;2)条件引导机制,在生成阶段即融入安全约束;3)出色的零样本泛化能力,通过连续空间插值处理未见场景。最新技术如截断扩散和扩散桥策略已实现实时推理。未来发展方向是与世界模型深度融合,通过
AI自动驾驶感知系统摘要 本项目实现了一个完整的AI自动驾驶感知系统,包含以下核心模块: 模型训练层: 使用ResNet进行交通标志分类和车道线分割 采用YOLOv8实现2D目标检测和3D投影检测 基于BERT微调的车载语音指令理解 模型优化: 通过剪枝、量化和知识蒸馏技术压缩模型 实现从FP32到INT8的量化转换 大模型到小模型的知识迁移 部署方案: ONNX格式跨平台转换 TensorRT
25年12月来自华中科技、地平线和武汉大学的论文“DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving”。端到端自动驾驶中的轨迹规划扩散模型常常面临模式崩溃的问题,导致生成的轨迹趋于保守且同质化。尽管 DiffusionDr
26年4月来自华中科技、小米和澳门大学的论文“UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving”。视觉-语言-动作(VLA)模型近年来在自动驾驶领域崭露头角,有望利用丰富的世界知识提升驾驶系统的认知能力。然而,将此类模型应用于驾驶任务目前面临着空间感知和语义推理之间
本文提出采用Xacro宏语言对机器人模型进行模块化重构优化,解决原生URDF建模存在的参数分散、代码冗余、扩展性差等问题。通过定义全局参数常量、封装驱动轮/万向轮等宏函数、拆分传感器模块化文件,实现参数统一管理、数学公式动态计算和代码复用。优化后的模型支持快速加装摄像头、激光雷达等传感器,通过顶层文件拼装各模块,保持代码简洁清晰。实验验证表明,该方法显著提升机器人建模效率,便于后续功能迭代和二次开
智驾芯片下半场
课堂不再只是工作室里的造型训练,也不只是实验室里的技术演示,而是逐渐转向一种以作品为驱动、以场景为实验室、以公众反馈为研究材料的教学方式:从“做一个作品”转向“建构一个系统”,再转向“组织一次可被观看、可被理解、可被讨论的公共事件”。在陈抱阳看来,未来AI艺术的重要方向,不仅是创造更复杂的系统,更是创造更有公共沟通能力的系统。在这个意义上,陈抱阳的探索所指向的,并非“AI替代艺术”,而是一个更具挑
Momenta首发R7世界模型;光庭信息发布AI原生汽车软件开发平台;斑马东风联合上车智能体;蔚来推进900V架构升级
摘要: AI技术正重塑前端开发,为工程师带来机遇与挑战。面对AI自动化工具,前端工程师需通过强化核心技能(如HTML/CSS/JavaScript、框架原理、性能优化)、主动整合AI工具(如Copilot、AI API调用)提升效率,同时培养设计思维与软技能(UX设计、跨团队协作)以突出人本价值。此外,终身学习(关注趋势、系统化学习、社区参与)是适应技术迭代的关键。未来前端工程师的角色将转向“解决
盘古5.0的STCG技术,正在从三个维度重塑自动驾驶开发范式:表格维度传统模式盘古STCG模式数据成本百万公里路测,人力物力高昂云端大规模并行生成,边际成本趋近于零场景覆盖依赖自然采集,长尾场景稀疏按需生成极端场景,实现"场景自由"标注精度人工标注存在误差与成本瓶颈生成过程自带完美标注(3D框、轨迹、语义分割)更重要的是,由于STCG生成的视频在几何一致性、物理合理性与视觉逼真度上均达到工业标准,
碳交易与需求响应已从政策概念走向可量化、可交互的经济信号。本软件通过"弹性矩阵+碳成本线性化+多场景对照"三大创新,把复杂的跨学科模型封装为"一键运行"的桌面工具,为园区运营商、售电公司、科研院校提供了一把开箱即用的"双碳"量尺。随着碳价持续走高以及需求侧资源进一步觉醒,该框架可无缝扩展至多级市场、多能源品种乃至区域级联合优化,成为新型电力系统下不可或缺的基础设施软件。
Copilot的核心定位是人类开发者的辅助工具,提供片段式的能力输出,人类全程是主导者,所有AI输出都需要人类确认才能生效。它的本质是“增强人类的执行能力”,而不是替代人类执行任务。Autopilot的核心定位是单任务的自动化执行者,能够完成边界清晰的确定性闭环任务,人类仅需要制定目标、验收结果和异常干预,不需要参与执行细节。它的本质是“替代人类完成确定性的重复性任务”。Agentic Workf
26年4月来自上海交大和华为中研的论文“Learning Vision-Language-Action World Models for Autonomous Driving”。视觉-语言-动作(VLA)模型通过将感知、推理和控制整合到一个统一的多模态框架中,在端到端自动驾驶领域取得了显著进展。然而,它们通常缺乏对时间动态和全局世界一致性的显式建模,这限制了它们的预测能力和安全性。相比之下,世界模
26年4月来自荷兰特温特大学、小米电动、英剑桥大学和英巴斯大学的论文“DriveVA: Video Action Models are Zero-Shot Drivers”。泛化能力是自动驾驶的核心挑战之一,因为实际部署需要在未知的场景、传感器域和环境条件下保持稳健的性能。近年来,基于世界模型的规划方法,在场景理解和多模态未来预测方面展现出强大的能力,但它们在不同数据集和传感器配置下的泛化能力仍然
但后来问题越来越复杂以后,我慢慢意识到,这种思路有一个很根本的缺口:它默认转向控制量主要来自“偏了以后”的修正,而没有先去问,已知轨迹本身是不是已经要求这辆车现在就该转弯。所谓从任务推导,不是说要把所有东西都写成特别复杂的解析形式,而是先去想:在理想模型下,为了完成这个任务,系统本来应该具备什么输入结构。看见偏差,构造误差,乘一个增益,调一调效果,这是一条非常短、也非常好上手的路径。也就是现实系统
本文推荐了10个自动驾驶车队调度与仿真的开源工具,涵盖不同层级的调度需求。FleetPy是核心推荐工具,支持多车调度、电动车充电、多车队协同等功能,适合算法开发。LimSim、Flowsim等侧重交通层多车交互调度,而LMMCoDrive等聚焦前沿研究。AirSim、MetaDrive等仿真平台可扩展强化学习调度。资源合集Awesome Traffic Simulation提供技术选型参考。自动驾
本文深入解析了Transformer这一革命性的深度学习模型架构。该模型由Vaswani等人在2017年提出,通过完全摒弃RNN和CNN结构,创新性地采用注意力机制来处理序列数据。文章详细介绍了Transformer的核心组件,包括编码器-解码器结构、多头自注意力机制、位置编码等关键技术,并提供了Python实现代码示例。重点阐述了该模型如何通过并行计算和注意力机制有效解决长距离依赖问题,使其在自
以 Afternoon Driving Dataset 为例,本文覆盖了从数据格式转换到模型训练、评估、Web 界面展示的完整流程。YOLOv8n 在这个三分类小型数据集上的训练可以在 1-2 小时内完成,适合作为自动驾驶感知方向入门实践的起步项目。建议将全链路跑通后换用更大规模的数据集(如 BDD100K、nuScenes)重新训练——类别更多、场景更复杂,YOLOv8 在更大数据上的性能提升才
在AI层,卡尔动力依托基座大模型能力的不断提升,打造TruckDriverFoundation Model,基于包括Robotruck编队、Robotaxi、L2辅助驾驶、云端数据在内的行业最大规模、最多维度类型的数据,以及过亿公里最丰富编队验证场景集,卡尔动力将泛化数据和通用自动驾驶IP,面向卡车自动驾驶任务极致优化,为重型卡车量身定制世界-行动模型(WAM),从而打造具有货运场景通用泛化性、高
华为发布智擎品牌推出运动域全新技术;特斯拉斥30亿美元建芯片厂;千里科技发布全新AI+车L4智驾技术蓝图
本文介绍了如何在星图GPU平台上自动化部署训练PETRV2-BEV模型镜像,实现高效、稳定的BEV(鸟瞰图)感知推理。该镜像专为自动驾驶与智能机器人场景优化,支持C++工业级部署,可直接用于车载系统中的实时目标检测与环境建模。
本文探讨数字书法应用的精度测试方案,针对压力感应平板、VR设备和手机触屏三类载体,提出系统性测试方法。核心测试维度包括坐标定位精度、压力感应还原、运笔速度追踪和多轴姿态识别,面临电磁干扰、数据丢包等技术挑战。实施路径涵盖基准环境搭建、边界场景覆盖和视觉验证方案,采用OpenCV进行效果量化。通过典型缺陷案例分析,建议建立三层校验体系,并动态更新基准库以平衡艺术表现与技术创新。
Wenzhao Zheng1,* Weiliang Chen2,* Yuanhui Huang1 Borui Zhang1 Yueqi Duan2 Jiwen Lu1{ \mathrm { L } } { \mathrm { u } } ^ { 1 }Lu1 Department of Automation, Tsinghua University, China Department of Ele
本文探讨了多模态融合技术在计算机视觉中的应用,特别是从人类视觉皮层的生物机制到YOLOv8的跨模态特征交互设计。通过分析RIFusion模块和动态自适应融合技术,展示了如何借鉴生物神经系统提升目标检测性能,尤其在低光照条件下的自动驾驶场景中实现显著改进。
本文介绍了如何在星图GPU平台上自动化部署Alpamayo-R1-10B自动驾驶专用开源视觉-语言-动作(VLA)模型。该平台简化了部署流程,使中小企业能快速验证高级驾驶辅助系统(ADAS)的决策算法原型,例如在仿真环境中测试车辆通过复杂路口的智能轨迹规划,从而加速研发进程。
自动驾驶
——自动驾驶
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net