收藏！小白程序员必看：特斯拉全新大模型Occupancy Networks，自动驾驶核心揭秘

特斯拉在CVPR 2022上发布了全新的Occupancy Networks神经网络算法，旨在改进其AI模型HydraNets，提升自动驾驶能力。文章分析了特斯拉坚持使用计算机视觉系统的原因及其面临的挑战，如物体检测失败和3D信息缺失等。Occupancy Networks通过将3D世界划分为网格单元，实时显示道路信息，解决了传统计算机视觉系统的缺陷，如无法识别未在数据集中的物体和缺乏3D信息等。

写编程的木木

73人浏览 · 2026-05-09 20:59:45

写编程的木木 · 2026-05-09 20:59:45 发布

2022 年CVPR上，特斯拉宣布将在其自动驾驶车辆中发布一种全新的算法。这个算法被命名为Occupancy Networks，它用来改进特斯拉的AI 模型HydraNets。

——1——

特斯拉自动驾驶为何需要一个新的神经网络模型

自动驾驶汽车行业在技术上分为两类：一种是基于视觉的自动驾驶系统，另外一种是基于LiDAR 的自动驾驶系统。后者使用激光雷达传感器来检测物体，但视觉系统完全基于相机，就类似于人类的眼睛。而这就是特斯拉使用他们的 Tesla Vision 软件系统所做的计算机视觉系统。之所以为什么马斯克一直坚持使用计算机视觉系统，有可能就是马斯克一直坚持的第一原理思维吧，按照人类的的第一原理思维，把自动驾驶看成一个机器人来驾驶汽车，然而人类驾驶汽车也是纯计算机视觉系统。马斯克坚持使用计算机视觉系统，这个就需要时间的考证了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是基于视觉的系统有很多缺陷，并且仍然面临着由于物体检测失败或其他问题导致的大量事故。

问题1：若检测到的物料不是数据集中的对象怎么办，
 毕竟路面上会出现什么东西，没有人会知道
问题2：在基LiDAR的系统中，可以根据检测到的物理粒子确定对象的存在
 但在计算机视觉系统中，必须首先使用神经网络检测对象。
 而神经网络模型不一定会检测出物体的存在，若系统判断失误，必然导致汽车事故。

在新闻报道中，层出不穷地出现自动驾驶汽车出现事故的新闻，前段时间林志颖的特斯拉汽车失控的新闻，也是一度上了热搜，但是无论怎么样，计算机视觉系统在自动驾驶上面还有一定的时间去探索。

——2——

特斯拉自动驾驶Occupancy Networks神经网络模型

在 CVPR 2022 上，特斯拉自动驾驶负责人 Ashok Elluswamy 介绍了一种名为：

Occupancy Networks神经网络模型，并且这些神经网络模型在对象检测方面比通常的对象检测系统要好得多。

虽然计算机视觉很强大，但是依然存在或多或少的问题

1、地平线的深度极其不一致，只有2个或多于2个的像素决定了一个大区域底面的深度。
2、无法看到遮挡物前面的物体与开过去的车辆。
3、计算机视觉系统提供的是 2D影像，但世界是 3D 的，自动驾驶汽车需要3D的影像。
4、对于路面上放置的障碍物，计算机视觉系统里一般设置成固定的矩形。
 而很多物体的形状都不是完整的矩形，其异性部分很难得以体现。
5、不属于数据集的对象，毕竟路面上面出现的物体千奇百怪，数据集很难涵盖到所有的对象。

右边为未在数据库中的物体，以前的模型无法识别

在计算机视觉任务中，以上以及很多问题，目前无法来有效地解决，但是若采用雷达系统，很多问题是可以解决的，但特斯拉团队依然坚持纯计算机视觉来解决以上问题。因此，特斯拉团队设计了Occupancy Networks模型

Occupancy Networks 是特斯拉开发的新算法，基于名为 occupancy grid mapping 的机器人思想；包括将3维世界划分为一个网格单元，然后定义哪个单元被占用，哪个单元是空闲的。Occupancy Network 的想法是获得体积占用率。它使用“占用”而不是检测来实时显示道路信息。可以从下图可以看出，此网络模型可以超过 100 FPS 的速度运行，这就大大提高了其模型的检测速度，基于Occupancy Network网络模型，其特斯拉也在相应的问题上进行了改善

Bird Eye View

第一个改善的问题便是特斯拉一直提到的Bird Eye View（鸟瞰图），在 2020 年特斯拉 AI 日上，Andrej Karpathy 介绍了特斯拉的鸟瞰网络。该网络展示了如何将检测到的物体、可驾驶空间和其他物体放入 2D 鸟瞰视图中。但是很多时候我们需要一个3D的界面来呈现到自动驾驶系统，毕竟我们的世界是3维的。2D图像在道路上或多或少的会出现相应的问题，更别说要应用到自动驾驶项目上来。

对比鸟瞰图，Occupancy Networks网络呈现出来的是一个3D场景，这样系统就可以看到真实物体的3D体积

固定矩形

另外一个问题是，在计算机视觉领域，我们输出的检测模型都是使用一个标准的方方正正的矩形来表示，无论是汽车，人物，信号灯等，当计算机视觉系统检测完成后，总是按照一个矩形框来实时显示画面。但是当汽车顶上有杂物，或者卡车旁边有挂钩等，计算机视觉系统一般会屏蔽掉此部分的特性，但是在道路上面，这样的物体确实存在，若被忽略，肯定会出现车祸等问题。

但是Occupancy Networks网络就解决了以上的问题，他不仅可以检测出对象，也同样检测出了异性对象。而Occupancy Networks网络的解决方案便是把世界分成很多个小方格立方体，来判断小的立方体中是否有对象，或者说是是否有对象被占用

对象检测

CVPR会议上，每年都会有几十篇论文发布，来讲解新的对象检测算法，YOLO，Resnet等等，以及基于已有的算法的改进版本，但是所有的计算机视觉对象检测算法都是在已有的数据中进行训练与检测，若道路上面出现了数据集中未收录的数据样本，想想计算机视觉系统会检测出来什么，或者什么都不会提示，这在自动驾驶系统中是天大的bug。

在特斯拉以前的数据库中，图片展示的物体并没有经过训练，那么特斯拉的自动驾驶系统便不会检测到此物体，若此时特斯拉汽车突然加速，想想这是多么可怕的事情，而通过Occupancy Networks便可以成功的检测出此物体。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

——3——

在 2022 年计算机视觉和模式识别 (CVPR) 上展示的架构

在左侧，可以看到特斯拉的8个摄像头拍摄到的8个画面。首先，8个画面图片会被发送到由Regnet和BiFPN组成的主干网络；

然后，注意力模块采用位置图像编码并使用QKV矩阵来计算注意力机制，当然这里的Q是固定的数据（比如汽车，人物，交通灯，路标等等）。

更多Transformer模型VIT 模型SWIN Transformer模型参考头条号：人工智能研究所

经过注意力机制后，会产生一个占用体积特征，然后模型会将其之前时间的的体积特征（t-1、t-2 等）融合，以获得4D 占用特征网络。

最后，我们获得两个输出：Occupancy Volume, Occupancy Flow。特斯拉在这里实际上做的是预测光流。在计算机视觉中，光流是像素从一帧到另一帧的移动量,在自动驾驶系统中，我们除了要进行对象检测外，还需要时间方面的信息，不仅其他汽车在移动中，自动驾驶汽车也在实时移动中。这对于自动驾驶的预测与规划等任务都有很好的帮助作用。

生成 3D 体积后，使用 NeRF将输出与经过训练的 3D 重建场景进行比较。

NeRF是一个3D重建模型，可以把输入的图片生成一个3D场景

而这一切强大的软件执行，都是在特斯拉特定的电脑上面运行的，不仅感叹特斯拉不仅是一家硬件公司，还是一家软件公司，更是一家造车公司，我们需要加油了。

VX搜索小程序：AI人工智能工具，体验不一样的AI工具

[外链图片转存中…(img-RT6om0uU-1778331509545)]

VX搜索小程序：AI人工智能工具，体验不一样的AI工具

[外链图片转存中…(img-Ke5ovqCf-1778331509545)]

小白/程序员如何系统学习大模型LLM？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

北京朝阳AI社区

更多推荐

# 从 RAG 到 Agent：社保智能客服的进化（下）——多模态与完

本文介绍了社保智能客服Agent在多模态交互与完整业务流程中的实现方案。主要内容包括：两种业务流程设计：字段流（fields）：适用于纯信息收集类业务，如社保转移需收集4个字段步骤流（steps）：适用于需要多模态交互的业务，如养老金认证需身份证OCR和人脸核验关键技术实现：身份证OCR采用PaddleOCR解析，通过正则提取关键信息并自动填充表单人脸核验实现活体检测+1:1比对，与上

北京朝阳AI社区

# 从 RAG 到 Agent：社保智能客服的进化（上）——意图识别与状态机

Agent 不是替代 RAG，是 RAG 的**上层建筑**。它基于 OpenAI 兼容的 Function Calling，**根据用户当前所处的状态，给 LLM 提供不同的工具集**。- **步骤流（steps）**：需要拍照或人脸的业务（如养老金资格认证），先走身份证 OCR，再走人脸核验，最后确认提交。对话历史也在上下文里。状态机的好处是**任何时候用户说"取消"，都能从任意状态跳回 id