工业机器人及工控系统

一、为什么要发展人形机器人？中国劳动力人口数量持续下滑，美、德、日等多国具有同样趋势。根据国家统计局发布的数据显示，2022 年我国人口从年龄构成看，16~59 岁的劳动年龄人口 8.76 亿人，占全国人口的比重为 62.0%；60 岁及以上人口 2.8 亿人，占全国人口的 19.8%，其中 65 岁及以上人口 2.1 亿人，占全国人口的 14.9%。劳动年龄人口在 2011 年前后已经达到

内心的声音

457人浏览 · 2023-07-18 00:38:11

内心的声音 · 2023-07-18 00:38:11 发布

一、为什么要发展人形机器人？

中国劳动力人口数量持续下滑，美、德、日等多国具有同样趋势。根据国家统计局发布的数据显示，2022 年我国人口从年龄构成看，16~59 岁的劳动年龄人口 8.76 亿人，占全国人口的比重为 62.0%；60 岁及以上人口 2.8 亿人，占全国人口的 19.8%，其中 65 岁及以上人口 2.1 亿人，占全国人口的 14.9%。劳动年龄人口在 2011 年前后已经达到峰值 9.4 亿人，之后开始负增长。十多年间，劳动年龄人口减少超过 6000 万。世界银行发布的数据显示，美国的劳动年龄人口自2010 年开始就加速减少，日本、德国和英法意拥有同样的人口结构变化趋势。

中国 65 岁以上人口比例持续增加，全球 2050 年 65 岁以上人口比例将达 16%。根据《中国发展报告 2020：中国人口老龄化的发展趋势和政策》预测，2025 年“十四五”规划完成时，中国 65 岁及以上的老年人将超过 2.1 亿，占总人口数的约 15%；2035 年和 2050 年时，中国65 岁及以上的老年人将达到 3.1 亿和接近 3.8 亿，占总人口比例则分别达到 22.3%和 27.9%。联合国数据显示，2021 年全球 65 岁及以上人口为 7.61 亿，到 2050 年这一数字将增加到 16 亿，80 岁及以上的人口增长速度更快。根据《世界人口展望 2022》的数据显示，2022 年 65 岁以上人口占总人口比例为 10%，到 2050 年将升至 16%。

中国制造业劳动力总量下降，且年轻劳动力占比快速下降。根据国家统计局数据，2015-2020年，制造企业平均用工人数由 8711 万人下滑至 6550 万人，远高于同期营业收入 3%水平的降幅。从年龄结构看，2015 年制造业劳动力 30 岁以下占比 28.2%，30-45 岁占比 45.7%，45 岁以上占比 26.2%，到了 2019 年，制造业劳动力 30 岁以下占比 21.4%，30-45 岁占比 46.1%，45 岁以上占比 32.4%，制造业劳动力年龄老化速度过快。

美国制造业人数下降，比例已降至历史最低水平。根据中央财经大学国际金融研究中心客座研究员张启迪《重新审视美国制造业的“衰落”》，自 1939 年以来美国制造业就业人数持续增长，至 1978 年达到顶峰（1933 万人）。2022 年美国制造业就业人数为 1298 万人，占全部就业的比重仅为 8%，处于历史最低水平。

人力成本持续上升，机器替代人是一大趋势。根据中国政府网，从 2022 年第三季度全国“最缺工”的 100 个职业排行看，其中有 39 个属于生产制造及有关人员，有 19 个属于专业技术人员。从缺工岗位看，主要缺的是劳动密集型行业低技能一线员工和部分专业技术人员。“在劳动年龄人口下降、劳动力供给趋紧、人工成本上升的背景下，用机器替代流水线上的简单重复劳动是一大趋势。”中国人民大学中国就业研究所所长曾湘泉说。根据 Reshoring Institute 报告，全球 13 个国家制造业基层员工薪资中，德、美、英人均年薪超过 3 万美元，中国在人力方面已不再是低成本国家。

中国是全球最大的机器人市场，21 年全球机器人增速创新高。根据国际机器人联合会（IFR）发布的《2022 年全球机器人报告》，2021 年全球工厂新安装 51.7 万台机器人，同比增长 31%，创下历史新高。全球运行中的机器人存量约为 350 万台，亦创下了新的纪录。作为全球第一大工业机器人市场，中国 2021 年安装量增长 51%，新安装 26.82 万台。运行存量突破 100 万台大关，增长 27%。

二、为什么要是“人形”？

原因一：“人形”是最适合人类社会所有场景的形态，无需改变场景来适应机器，一旦技术成熟可直接用于所有社会场景。根据中新网，在 2019 年的特斯拉 AI Day，马斯克曾表示，“Tesla Bot可以执行一些危险、重复、枯燥的任务”。他希望今后人类不想干的事统统交给特斯拉机器人来干，并推测人们可能会发掘出连他都预料不到的用途。根据证券时报，2023 年特斯拉股东大会上马斯克表示，“未来每个人都会拥有一个人形机器人，这个市场将会超过电动车的需求，可能是百亿美元级别的。如果人形机器人和人的比例是 2 比 1 左右，那么人们对机器人的需求量可能是 100 亿乃至 200亿个，会远超电动车的数量。”

根据高工机器人网，马斯克的思路是第一批机器人主要在 B 端应用，服务于危险、无聊、重复的工作或人们不想做的工作；第二批大规模使用的机器人，让机器人在现实世界中导航，无需指令也能做有用的事；第三批是预计不到 10 年后，人们可以在家里使用的机器人。

原因二：恐怖谷理论下，“人形”的好感度上限远高于非人形，一旦产生移情效应将颠覆作为“物”的属性，即便作为“工具人”性能欠缺也具备商业化价值。根据百度百科，“恐怖谷理论” 是 1970 年被日本机器人专家森昌弘提出，森昌弘的假设指出：由于机器人与人类在外表、动作上相似，所以人类亦会对机器人产生正面的情感；而当机器人与人类的相似程度达到一个特定程度的时候，人类对他们的反应便会突然变得极其负面和反感，哪怕机器人与人类只有一点点的差别，都会显得非常显眼刺目，从而整个机器人有非常僵硬恐怖的感觉，犹如面对行尸走肉；当机器人和人类的相似度继续上升，相当于普通人之间的相似度的时候，人类对他们的情感反应会再度回到正面，产生人类与人类之间的移情作用。

图 13：恐怖谷效应示意图

人形机器人具备满足马斯洛前四级需求的可能，移情效应下 ToC 端“人形”将极大提高用户粘性。根据维基百科，马斯洛需求层次理论构建了人类需求的五级模型，从层次结构的底部向上，需求分别为：生理（食物和衣服），安全（工作保障），社交需要（友谊），尊重和自我实现。我们认为人形机器人至少具备满足前四级需求的可能，这是非人形机器人所无法突破的。人类会借助一些物品来满足各层级需求，而非物品本身满足人类需求，但人形机器人具备本身满足其需求的可能性。一旦与人形机器人产生了移情作用，率先进入 ToC 端的意义将不仅仅是产品力和品牌层面的先发优势，还有其特定的“形象”，这将大大提高用户粘性。

图 14：马斯洛需求层次理论

ChatGPT 成熟技术加持下，只“说”不“做”也可满足交流、尊重等需求。根据 AI 技术聚合网，ChatGPT 的原理是基于自回归语言模型，它是一种基于深度学习的自然语言处理技术，可以用来生成自然语言文本。根据世界首位机器人公民、联合国创新大使机器人索菲亚官方账号，英国 Engineered Arts 公司人形机器人 Ameca 在安装了 GPT-3 后，Ameca 变成了一个“专家”，能够与人们聊天说地，也能快速对答各种提问。在接入 GPT-4 后，Ameca 获得了通过表情来表达含义的能力，已具备语言、表情、动作等能力。

图 15：Ameca 人形机器人

原因三：73855 定律下视觉传达信息作用大，“人形”的肢体语言最符合人类认知。我们认为“人形”的肢体语言、神态语言最符合人类思维方式和认知，人类无需适应机器人，便能轻松理解机器人的动作。根据百度百科，美国心理学家 Mehrabian 研究发现，55%的信息通过视觉传达的，如手势、表情、外表、妆扮、肢体语言，38%的信息通过听觉传达，如说话的语调、声音的抑扬顿挫等，而语言本身只能传递出 7%的信息，因此“人形”在实现人机交互中意义重大。例如英国Engineered Arts 公司的人形机器人 Ameca，仅通过看其表情和肢体动作，就能理解其“表达”的意思。

三、什么是具身智能？

根据证券时报报道，英伟达创始人黄仁勋在 ITF World 2023 半导体大会上表示，AI 下一个浪潮将是“具身智能”，其描述的“具身智能”是指能够理解、推理并与物理世界互动的智能系统，包括机器人技术、自动驾驶汽车，甚至是聊天机器人，它们会更聪明，因为它们能了解物理世界。

根据上海交大教授卢策吾在机器之心 AI 科技年会上，发表了主题演讲 ——《具身智能》，具身智能是智能科学的一个基础问题，是指具有身体体验的智能。从认知角度看，人类是第一人称视角的智能，但给机器喂很多数据进行学习，属于第三人称的智能，比如给机器很多盒子，并且标注这就是盒子，然后机器就会知道这种模式是盒子，但机器并不是通过体验知道这是盒子的。

根据《具身智能》，主动猫是具身智能，旁观猫是旁观智能。1963 年的一个实验能一定程度展示两者的区别，一只猫被绑起来，只能看这个世界，与其连接的另一只猫则可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能，实验的最后，主动体验的猫学会了正常行走，但旁观的猫并没能获得行走能力。

具身智能涉及多学科，是系统性工程。上海交通大学卢策吾教授在机器之心 AI 科技年会上发表主题演讲《具身智能》提到 1950 年图灵在他的论文《Computing Machinery and Intelligence》中首次提出了具身智能的概念，概念提出了几十年了直到近几年才比较热门，原因是它涉及到众多的学科，当时很多学科都不是很成熟。硬件、软件还有各种触觉传感器也不够成熟。而到了今天，各个学科都可以聚到一起来做这么一个宏大的系统。在这样的情况下，我们才有可能推动这个方向进一步发展。

图 22：具身智能需要多学科结合

根据《具身智能》，具身智能包括 3 个模块：具身感知、具身想象和具身执行，AI+机器人正是“具身智能”当前的落点。工业机器人主要根据控制系统发出的指令信号控制机器人主体完成任务，主要依赖于机器人的执行层。与工业机器人不同，具身智能机器人若能像人一样与环境交互、感知、决策、完成任务，将不得不提升感知层和认知层的能力。卢策吾教授提出 PIE 方案，认为具身智能包括 3 个模块：具身感知（Perception）、具身想象（Imagination）和具身执行（Execution），有望加速推动具身智能落地。目前看来，AI+机器人或许正是“具身智能”当前的落点。

四、什么是 Robot GPT？

ChatGPT 为人工智能提供了语言载体，人形机器人将提供物质载体，实现人工智能从“想到”“说到”到“做到”的跨越。根据钛媒体，全球首家 5G 云端智能机器人运营商达闼机器人公司即将推出首个机器人制造领域的多模态认知大模型，名为 RobotGPT。其创始人、CEO 黄晓庆表示，如果把谷歌 DeepMind 推出的“阿尔法狗”（AlphaGo）当作人工智能的原子弹的话，ChatGPT 是 AI领域的氢弹，作为“两弹一星”的星，云端智能机器人则是人工智能时代的运载火箭，人工智能的载体，将成为第四次工业革命的最重要标志。

图 25：英国 Engineered Arts 公司人形机器人 Ameca 已接入 GPT-4

ChatGPT 本质是文字接龙，基于 ChatGPT 模型思路可构建 RobotGPT 框架。根据斯坦福大学 2023 年最新论文《RobotGPT: From ChatGPT to Robot Intelligence》，基于和 ChatGPT 类似的工作原理构建了 RobotGPT 的框架。根据 Open AI 官方对 ChatGPT 原理介绍，ChatGPT 是在GPT （Generative PretrainingTransformer）模型的基础上通过改进优化得到的。GPT 是一种大型语言模型，能够生成各种不同的文本类型。GPT 模型思路是让 AI 在通用的、海量的数据上学习文字接龙，即掌握基于前文内容生成后续文本的能力。然后人类引导接龙方向即有监督训练初始模型，对特定问题告诉 AI 人类认可的答案。

Reward 模型进行强化学习，进一步优化 ChatGPT 的输出质量。根据 Open AI 官方对ChatGPT 原理介绍，第二步训练 Reward 模型，人的时间精力有限，但 AI 的精力是无限的，研究人员让 GPT 对特定问题给出多个答案，由人类来对这些答案的好坏做排序，基于这些评价数据，研究人员训练了一个符合人类评价标准的 Reward 模型。第三步基于 reward 模型使用 PPO 强化学习优化 GPT 模型，即 AI 基于评分去调整参数以便在下次问答中获得更高分。

图 30：Chat GPT 训练示意图

RobotGPT 的原理可理解为由 ChatGPT 的文字-文字接龙，变为了文字/语言/各类传感器接收的信号-动作接龙。根据《RobotGPT: From ChatGPT to Robot Intelligence》，人的八大智能包括语言智能、数学逻辑智能、空间智能、人际智能、内省智能、音乐智能、身体运动智能、自然认知智能，机器人实现不同的智能需配备不同传感器、自然语言处理能力和人工智能算法。在设计的RobotGPT 框架图，思路类似于 ChatGPT，同样是通过深度学习和强化学习构建端对端 AI 大模型。

图 31：Robot GPT 训练示意图

目前 ChatGPT 是单模态，RobotGPT 需要多模态模型。根据钛媒体报道，达闼机器人公司 CEO 黄晓庆表示，ChatGPT 的出现，恰恰证明机器人需要一个云端大脑。因为 ChatGPT 是不可能装在一个小小的计算机里的，它必须装在一个云里面，变成个云服务。ChatGPT 目前本身是单模态的，所以它无法支持机器人。而基于多模态的人工智能大模型要能够支持多模态，文字、语言、视觉、运动都要支持，这就是我们在做的 RobotGPT。

图 32：达闼科技机器人

五、表情最像人的 Ameca 是怎么做到的？

Ameca 机器人具备互动、感知等功能，表情丰富度高。根据站长之家报道，Ameca 被Engineered Arts 描述为“世界上最先进的人形机器人”，于 2021 年 12 月亮相，并于去年 8 月获得了逼真的面部表情。Engineered Arts 使用了 ChatGPT-3 进行对话和翻译，使用 DeepL 进行语言识别，并使用 Amazon Polly Neural voices 实现其说话功能。

Ameca 仅面部就有 45 个电机，底层技术是 Mesmer+ Tritium。根据 36 氪报道，Ameca重 49kg，臂展 1.8 米，高 1.87 米，身体共有 52 个模块，支持 51 种关节运动。仅面部就有 45 个电机，其中眼睛就有 8 个电机对其进行控制，眉毛有 4 个电机，嘴巴则有 2 个电机。这样它就能完成相当复杂的面部表情。除此之外，它的眼睛和胸前都内置摄像机，可以通过人脸识别辨认出 2 米内的人类。它还能通过耳朵聆听人的声音，与人互动。做出逼真的表情的关键就是 Ameca 结合了 AI 与AB（Artificial Body）技术，而这底层系统是机器人操作系统 Tritium 和工程艺术系统 Mesmer。

图 35：Ameca 结合 AI+AB 技术

Mesmer 系统构建表情模型，Tritium 系统驱动硬件。根据 36 氪报道，Mesmer 是一个用于建造仿真人形机器人的系统，通过 36 个摄像机对人体进行 360 度的 3D 扫描后，包括人类的骨骼结构、皮肤纹理和表情，为 Ameca 提供大量的真人表情数据，最终通过立体光刻 3D 打印机制作精确模具。Tritium 机器人操作系统被称为“为金属注入生命的魔法”，该系统可以从硬件平台运行硬件组件，因此 Ameca 的手臂、躯干和头才能运动自如，也是实现表情管理的基础，因为它连接了软件，硬件和云端，可以驱动硬件的每一个组成部分。

六、人形机器人商业化前景几何？

具有极强通用性的人形机器人将是机器人界的 iPhone，渗透率达到 10%将进入加速期。根据南方科技大学机械与能源工程系教授、鹏城学者特聘教授张巍 2022 年接受真故研究室采访时表示，整个机器人发展的趋势，本质上是从专机到逐渐通用的过程。只是传信息的话 iPhone 的性价比远不如 BB 机，但当其可以支持多项功能之后，就会快速重塑整个行业。当人形机器人能完成多项任务后，他的商业拐点会出现，最关键的是以后无论加多少 App 它的基本形态都不用变。根据证券之星报道，美国著名分析师 Harry S. Dent, Jr 认为一项新技术或者一个新兴产业，渗透率达到 10%之前被称之为导入期，发展缓慢；超过 10%的阈值后，将步入高速成长期。

图 40：技术革命带来的渗透率变化呈 S 型曲线

类比自动驾驶，通用机器人不需要完全通用才有商业价值，商业化可能未来两三年实现。根据张巍教授采访中表示，通用只是一个终极产品形态，只要不断地在上面加功能。第一个功能不够，它的性价比比不过专机，那就加第二个功能，逐渐地就比两个专机要划算。人形机器人产业化和商业化并不需要足式机器人在实现超能之后才能开始，这个节点可能在未来两三年就可以实现。类比自动驾驶，现在也还没有真正地落地，但是自动驾驶的研究和商业探索已经延展了很多，甚至开始颠覆整个汽车行业。手机是个人通讯娱乐的通用终端，智能汽车是未来人们在结构化道路上的通用终端，人形机器人将会是面向各类非结构化场景时连接数字世界与物理世界的通用终端。

图 41：特斯拉 FSD Beta 在北美的使用人数已达 40 万

美国最低时薪 7.25 美元，特斯拉机器人 2 万美元价格可接受度高。根据第一财经报道，根据美国联邦法律的规定，目前美国境内的最低时薪为每小时 7.25 美元。2021 年美国众议院通过了《提高工资法案》将设定时薪 15 美元的最低标准，自 2021 年 1 月一直在国会等待审议。按最低的7.25 美元计算，特斯拉机器人只要实现替代最基础的岗位，每天工作 8 小时，按法定工作日一年工作 260 天，相当于雇主节省了 1.5 万美元人力成本。根据华尔街见闻，2022 年特斯拉 AI DAY 马斯克表示，预计 Optimus 量产后价格在 2 万美元以内，若按 2 万美元计算，Optimus 仅使用 1.3 年便可覆盖成本。

图 42：2023 年 1 月 1 日起美国共有 23 个州宣布提高最低工资

麦肯锡指出到 2030 年保守估计 4 亿人将被机器人取代。麦肯锡 2017 年发布的《失业与就业：自动化时代的劳动力转型》报告指出，全球最高达 50%的工作是可以被机器人取代的；有六成的工作岗位，其 30%的工作量可以由机器代劳。称到 2030 年，全球将有多达 8 亿人的工作岗位可能被自动化的机器人取代，即使机器人的崛起速度不那么快，保守估计仍有 4 亿人工作被替代。根据高工机器人网，弗若斯特沙利文预测，到 2026 年全球人形机器人市场规模将达到 80 亿美元；高盛预计到 2035 年，在蓝海市场情景下，人形机器人市场能够达到 1540 亿美元的规模。

图 43：2030 年预计全球 4-8 亿人被机器人替代

工业、商业、家用三大场景，人形机器人将率先在工业和商业实现规模化应用。我们认为工厂物料装配相对结构化，在封闭环境下且任务单一。商用领域可实现体验增强、数据收集以及流量转化等功能。而家用场景对人机交互需求和价格敏感性都相对更高。根据人民网报道，2018 年国内优必选的 2150 台克鲁泽（Cruzr）机器人在居然之家上岗。顾客可以询问有关店铺的所有问题，如品牌介绍、最新产品、促销优惠、会员权益等。根据亿欧智库，优必选副总裁胡佳文对亿欧表示， “克鲁泽记得你的偏好，习惯，每一次来消费的情景等。”体验增强、数据收集以及流量转化三类，商业场景中的服务机器人恰好是能将这三种功能同时实现的载体。

“一老一小”市场将成刚需，机器人替换万亿家政市场场景明确。根据艾媒咨询数据显示，2021 年中国出生人口数量为 1062 万人，65 岁及以上人口数量超过两亿， “一老一小”成为家政服务的主要对象。2015 年至 2020 年中国家政服务业市场规模逐年稳步增长，2020 年达到 8782 亿元，同比增长约 26.0%。而 2021 年该数据已增至 1.0149 万亿元。国内人形机器人公司优必选健康事业部高级技术总监张呈昆在接受界面新闻专访时表示，公司目前主攻的两大业务板块是“一老一小”。“一老”指的是针对老年人的智慧康养行业，“一小”则主要指人工智能教育，研发了涵盖学前、小学、初中、高中、高职校的贯通式人工智能教育解决方案。

图 46：优必选瞄准“一老一小”

中国发展人形机器人具备成本、场景和产业链三大优势。根据南方科技大学机械与能源工程系教授、鹏城学者特聘教授张巍 2022 年接受真故研究室采访，我们认为中国人形机器人具备三大优势，第一是成本优势，由于成熟产业链与相对低的人工成本，足式机器人硬件成本上国内有巨大的优势。第二是场景优势，机器人发展的整个产业链以及落地场景都能在中国找到。无论是 ToC 还是 ToB 的场景，国内的丰富度都是国外的几十上百倍。第三是产业链优势，根据人民网报道，“中国拥有世界上规模最大、门类最全、配套最完备的产业链体系，机器人产业已基本形成了从零部件到整机再到集成应用的全产业链体系，这种优势不仅没有国家能够替代，还会伴随着产业更替日益完善。”优必选科技首席技术官熊友军表示。

七、人形机器人量产还有多远？

摩尔定律将线性增长变为指数级，2022 年已达到“棋盘的后一半”。根据科学网，在过去大多数时间里，科技和产品进步是线性的，而第四次工业革命呈现出指数级而非线性的发展速度。人类长期习惯于线性的思维方式，而难以适应“指数级”思维模式。21 年 12 月中国科学技术大学教授、长三角科技战略前沿研究中心主任陈晓剑表示，真正让人类第一次认识到科技是可以呈指数发展的是摩尔定律，它指出计算能力每两年将增加一倍。古印度舍罕王故事中“棋盘的后一半”就是摩尔定律的比喻，指的是越到后面指数增长速度越快。如果从 1958 年半导体的发明开始计算，那么 2022 年我们处在第 32 个格子上——正好到达“棋盘的后一半”，创新的加速和变革的规模将迎来新的拐点和引爆点，正是惊喜出现的好时机。22 年 11 月发布的 Chat GPT，开启了人工智能时代的起点。

图 47：基于深度学习的语言模型中参数数量呈指数级增长

当前人形机器人处于技术成熟度曲线第一阶段，但进步速度将是指数级的。根据百度百科，技术成熟度曲线诞生于硅谷，又叫技术循环曲线、炒作周期，是指新技术、新概念在媒体上曝光度随时间的变化曲线。美国 Gartner 公司将其分为 5 个阶段：科技诞生的促动期、过高期望的峰值、泡沫化的底谷期、稳步爬升的光明期、实质生产的高峰期。

莱特定律下“具身”的制造成本能够迅速下降。根据维科网，莱特定律是制造业的规模效应的体现，意思是产量每扩大一倍，成本就会降低 15%左右。美国的福特 T 型车从 1909 年到 1923年的产量和价格变化曲线就完美诠释了莱特定律。产量从一到十的过程中，生产成本会有三次 15%左右的降低，最终生产成本会降到原来的 60%左右。再加上零配件成本，也会因产量提升而降低，产业集群还可以进一步降低成本。

图 50：莱特定律下量产初期成本指数级下降

国外多家科技公司下注人形机器人赛道，根据中国国家邮政局官网，亚马逊投资物流机器人公司 Agility Robotics，机器人预计 24 年开始交付，25 年全面上市。22 年 4 月物流仓储机器人制造商 Agility Robotics 完成 1.5 亿美元的 B 轮融资，由 DCVC 和“安卓之父”Andy Rubin 创建的Playground Global 领投，亚马逊产业创新基金参投。DCVC 联合管理合伙人 Matt Ocko 表示，劳动力短缺会导致供应链遭到破坏，Agility 解决的是企业劳动力短缺的问题，将人们从重复或不愉快的工作中解放出来。Agility Robotics 研发的机器人 Digit 专门用于在仓库和配送中心执行任务。根据维科网，Agility 计划在 2024 年初向其合作伙伴提供首先双足运送机器人解决方案，并然后在次年全面上市。

图 51：物流机器人 Digit

OpenAI 领投 1X Technologies 公司，机器人已实现拿捏物品、轻松开门、自主导航和避障等功能。根据华尔街见闻，当地时间 3 月 23 日，挪威人形机器人公司 1X Technologies（前称为Halodi Robotics）宣布在 OpenAI 领投，老虎环球和挪威投资者财团跟投的 A2 轮融资中筹集了 2350万美元，1X 计划用这笔资金来加大力度研发双足机器人模型 NEO，以及在挪威和北美量产其首款商用机器人 EVE。根据澎湃科技，1X 近期 Technologies 发布了一段视频，NEO 机器人能够伸出手指拿捏物品、轻松开门、自主导航和避障等。与其他需要减速才能正常运行的机器人不同，1X Technologies 的机器人可以以 1 倍速度运行，即与人类的速度相当。

图 54：NEO 机器人最新技能

AI 人形机器人初创公司完成 A 轮融资，正在推出“世界上第一个商业上可行的通用人形机器人”。根据《科创板日报》报道，AI 人形机器人初创公司 Figure 在 5 月 25 日宣布完成了 7000万美金的 A 轮融资，此前，Figure 称正在推出“世界上第一个商业上可行的通用人形机器人”，名为 “Figure01”。目前 Figure 正在设计一个完全机电化的人形机器人，拥有双手。按照其模型规划，最终的机器人将是全电动的，高 1.6 米，重 60 公斤，有效载荷为 20 公斤，充电后可运行 5 小时。

图 54：Figure 机器人设想图

英伟达发布专为机器人开发打造的平台 Isaac，大幅降低机器人开发难度。根据国脉电子政务网报道，近日英伟达发布了专为机器人开发打造的平台 Isaac，平台包括软件、硬件、一个虚拟世界的机器人模拟器。工业和商用机器人的开发过程相当复杂，时间长，挑战大，成本高。在许多用例和场景中，缺乏结构化的环境也很普遍。NVIDIA Isaac 机器人开发平台采用端到端解决方案，可帮助降低成本、简化开发流程并加速产品上市。

今年以来，国内密集发布人形机器人相关政策。2023 年 1 月，工信部等 17 部门联合印发《“机器人+”应用行动实施方案》，提出到 2025 年，制造业机器人密度较 2020 年实现翻番，服务机器人、特种机器人行业应用深度和广度显著提升。根据北京、山东、深圳人民政府官网，4 月 20日，北京市提出加紧布局人形机器人整机，对标紧跟国际领先机器人产品，按工程化思路布局北京人形机器人整机及相关核心产品。4 月 29 日，山东省提出加快布局人形机器人等多项前沿领域。5月 31 日，深圳市提出开展通用型具身智能机器人的研发和应用，加快组建广东省人形机器人制造业创新中心，发挥粤港澳大湾区制造业优势，开展人形机器人规模化应用。

表 1：今年以来国内人形机器人政策汇总

八、为什么特斯拉 Optimus 有望率先量产？

（*一）特斯拉 Optimus 具备哪些优势？

我们总结了特斯拉人形机器人主要具备以下几个优势：1）外形：根据特斯拉 22 年 AI DAY展示，首先从外形上擎天柱身高 173cm，体重 73kg，符合“人形”。2）价格：根据华尔街见闻，2022年特斯拉 AI DAY 马斯克表示，预计 Optimus 量产后价格在 2 万美元以内。我们认为如果在部分环节完全替代人工，这个价格对于工业和商业场景具备吸引力。3）商业定位准确：特斯拉的擎天柱从最初的定位就符合 PMF（Product / Market Fit）理论，这在成本端和设计理念已经体现。4）生态：特斯拉生态下，冲压机、FSD 自动驾驶系统、Dojo 计算机、D1 芯片，为机器人提供了有利条件。5）已有水平和发展速度：已具备的能力和发展速度优势，从 21 年概念图到 23 年 5 月能够完成复杂任务的完整机器人，仅一年半便完成了迭代。

相比之下，以当前运动性能最优的波士顿动力 Atlas 机器人为例，根据高工机器人网报道，Atlas 售价大约在 200 万美元，如此高昂的价格，注定无法在 C 端大面积铺开，而 B 端用户对于成本与价格的考量往往比 C 端用户更加理性且严格。波士顿动力公司在 Atlas 的整个开发过程中一直明确表示，其人形机器人纯粹用于研发目的。

表 2：主要人形机器人介绍

我们认为，从特斯拉人工智能生态的角度来看待，汽车、机器人和自动驾驶、DOJO 超级计算机可以形成闭环，DOJO 和自动驾驶系统充当“大脑”，汽车和机器人则在物理空间中拓展认知，再反过来训练“大脑”。

根据我们总结，特斯拉生态具备：1）特斯拉制造汽车时引进了全球最大的压铸机，人形机器人有上千个零部件，未来也可能通过一体化的方式加快生产制造。2）纯视觉方案，可直接嫁接FSD 系统。Optimus 采用了跟特斯拉电动车相同的感知与计算单元，其中包括自研的芯片，以及三个自动辅助驾驶摄像头。3）Dojo 计算机训练 AI 模型。dojo 是特斯拉开发的一台超级强大的训练计算机，目标是接收大量图像和视频数据，并在无人监督的情况下自行学习。4）根据有驾网报道，D1是特斯拉自主研发的 AI 训练芯片，相比于业内其他芯片，同成本下性能提升 4 倍，同能耗下性能提高 1.3 倍，占用空间节省 5 倍。目前 dojo 已用上自研 D1 芯片。5）商业模式上可直接延续电动车的 “硬+软”收费模式。

表 3：特斯拉人形机器人具备的生态优势

21 年概念机到 22 年原型机再到 23 年 5 月完整机，Optimus 已经可以“自己造自己”了。根据特斯拉 2022 年 AI DAY 和 2023 年股东大会直播显示，22 年 10 月 Optimus 首次亮相无法自主行走需要人搀扶，23 年股东大会展示视频中 Optimus 已经可以在车间灵活行走、抓取物体，已经拥有环境探索与记忆、电机转矩控制能力、基于人类跟踪运动的 AI 训练以及物体操纵能力，且已打通了 FSD 底层模块，实现了一定程度的算法复用。根据新浪财经报道，2022 年马斯克接受采访时说道,机器人“擎天柱”预计明年底开始交付,目标量是 23 年 10 万台、24 年 50 万台、25 年 100 万台。

2023 年 3 月马斯克表示，特斯拉机器人已经可以“自己造自己”了。

图 59：特斯拉“擎天柱”发展图

最新展示中 Optimus 电机可精准控制不打破鸡蛋，已经可以完成物品分拣的复杂工作。根据特斯拉最新在 23 年股东大会上发布的视频显示，Optimus 完成了一系列复杂任务如电机扭矩控制，力度控制更精确、环境探测与记忆等。例如特斯拉展示了 Optimus 电机转矩控制的能力，能做到精准控制力道不打碎鸡蛋。此外，Optimus 也展示了其基于端到端 AI 学习人类行为的过程，对物体进行分类摆放等，还展示了其从一个容器中拾取物体并将它放入第二个容器中。

（二）特斯拉 Optimus 硬件拆解

机器人四大核心组件：传感系统、控制系统、执行系统、驱动系统。根据优必选研究院，机器人主要由机械部分、控制部分和传感部分组成，其中机械部分是其它部分的重要基础。机械部分按系统分包括驱动系统和机械系统。人形机器人有 4 大核心组件，分别是传感系统（对应五官）、控制系统（对应大脑）、执行机构（对应四肢）和驱动系统（对应关节组织）。

根据 2023 年特斯拉股东大会直播显示，Optimus 视觉方面采用摄像头纯视觉方案，能量方面采用 2.3KWh 电池，可待机 20 小时，支持工作全天。特斯拉最新亮相的机器人身高 173cm 左右，体重 73kg，采用了三个摄像头，两个常规的摄像头分布在左右耳朵的位置，一个鱼眼相机分布在最前方，延续了电动车的纯视觉方案。大脑采用 Tesla SoC 可以进行视觉信息处理，动作决策、以及语音交流。电池部分采用了一块 2.3 kWh 的电池，电池包内带有充放电及电源管理芯片，可持续待机 20 小时，能支持机器人工作一整天。

特斯拉对机器人做了损害控制，保证位于胸腔的电池在机器人跌倒是不会爆炸。还对全身的结构件都做了相应的受力分析，出于成本考虑，为了适应量产没有选用重量轻、性能好的碳纤维复合材料，而是采用铝合金。特斯拉在汽车上有成熟的高压铸造铝合金的经验，在材料端对于机器人将来量产有较大帮助。

整机构型是大型仿人机器人机械部分的关键点之一，它与关节的数量及布置方式紧密相关。根据优必选研究院，人体有 206 块骨头，大的关节有 78 个，有六种类型关节。一般大型仿人机器人关节有 15-70 个，关节类型有三种，旋转（水平方向旋转）、偏移（垂直方向上下移动）、滑动（水平方向线性移动）。

图 68：人体和人形机器人关节类型和分布对比

特斯拉机器人躯干共有 28 个关节，旋转关节和直线关节各 14 个，每个关节对应一个执行器，手部共 12 个执行器。根据 2023 年特斯拉股东大会直播显示，我们对 28 个执行器位置和数量进行预计，28 个执行器分别为肩关节（单侧三自由度旋转关节）6 个，肘关节（单侧直线关节）2个，腕部关节（单侧 2 个直线+1 个旋转）6 个，腰部（二自由度旋转关节）2 个，髋关节（单侧 1个直线+2 个旋转）6 个，膝盖（单侧 1 直线关节）2 个，踝部（单侧二自由度直线关节）4 个。每个旋转关节用到一个谐波减速器，手部单手有 6 个执行器，11 个自由度，拇指方面由两个电机驱动，驱动拇指的空心杯电机均横置在手掌内，其他手指各一个。能拿起约 9 公斤重物体，可以使用工具，实现精准抓取小部件。

图 71：特斯拉“擎天柱”手部介绍

通过仿真模拟，考虑成本和重量两个因素，选出每个关节执行器最优解。根据 2023 年特斯拉股东大会直播显示，在设计关节驱动器时，最重要的事情就是确定驱动器的工作范围。首先对于机器人的工况做了假设，针对这些工况进行了仿真，在仿真中模拟出了机器人在各种情景下关节的输出力矩。之后将输出力矩投影到了关节驱动器的效率图中，采用的是市面上可以买的标准品电机+减速机，之后根据不同的电机和不同减速比减速器组合，最终组合出十几万种结果，红色的曲线就是系统成本和重量的最优曲线，再选出最合适的电机与减速比方案。之后将全身所有关节都做这样的分析，可以得到全身关节的最优组合。

从局部最优进一步到整体最优，28 个躯干关节最终选出 6 款执行器。为了降低生产成本，对执行器数量进行了精简，即从局部的成本与重量最优，到全身的成本与重量最优。最终特斯拉选择出了三款旋转关节，三款直线关节，旋转关节的扭矩为 20、110、180Nm，直线关节的推力为 500、

3900、8000N。

在高速端，旋转关节采用内转子电机+角接触轴承，并配有一个刹车装置，直线关节部分采用了内转子电机和普通的球轴承。在低速端，旋转关节采用了谐波减速机，并配有交叉滚子轴承，直线关节部分采用了行星滚柱丝杆，相比于传统的滚珠丝杆，可以承受更大的负载。在传感器方面，关节在高速端和低速端都配备了位置传感器以及力和力矩传感器。

根据中国新闻网报道，伺服电机、减速机、控制系统、驱动器与机器视觉等重要零部件占据人形机器人成本超过 70%。根据高工机器人网，人形机器人整体的自由度/关节数量通常为 20 个至 50 个，一个自由度对应一台伺服电机，国外电机价格通常为 5000 至 6000 元，甚至上万元，国产电机价格也在 2000 元以上。

图 80：伺服驱动器的基本构成

根据优必选研究院，伺服驱动器工作原理：要实现机器人的精准运动，每个关节需要能产生精确的输出位置和力矩。每个舵机在接收到位置指令后，可以实时响应命令，多个舵机协调运行，就可以产生犹如人类一般灵活的运动。大型伺服驱动器有三种类型，分别为常规伺服驱动器、SEA伺服驱动器、本体伺服驱动器。常规伺服驱动器主要由力矩电机、谐波减速器、电机编码器、输出编码器、驱动板、制动器组成。

表 4：腿足式机器人伺服驱动器方案

以特斯拉关节结构来看，旋转关节和直线关节结构类似，我们总结主要区别有三点：1）减速装置：旋转关节用的是谐波减速器，直线关节为滚柱丝杠。2）低速端传感器：旋转关节用的是角度编码器，直线关节是位置编码器。3）力传感器：旋转关节输出端由于是旋转运动，用的是力矩传感器，直线关节输出端是直线运动，用的是力传感器。

根据对人形机器人研究，我们认为在关节构成中，价值量最高、技术壁垒最高的两个环节是谐波减速器和无框力矩电机。

谐波减速器具备高精度、轻量化、小型化等优势，人形机器人通常采用谐波减速器。根据优必选研究院，减速器是一种动力传达机构，主要起着降低电机转速、提升扭矩的作用。仿人机器人常用减速器有精密行星减速器、谐波减速器、摆线减速器三种，回差是仿人机器人用精密减速器的关键性能指标之一，一般来说回差越小精度越高，谐波减速器满足高精度、小型化、轻量化、大减速比等特性，人形机器人一般采用谐波减速器。

表 5：人形机器人常用的三种减速器

机器人关节电机核心指标是功率密度，无框力矩电机由于体积小、重量轻，可满足高功率密度要求。根据《一种无框力矩电机的制作方法》，无框力矩电机没有外壳，可以提供更大的设备空间，中间是中空形式的，便于走线。在设计中，可以使整个机器体积更小，因此可以提供更大的功率密度比，同尺寸下可以提供更大的扭矩，可人形机器人轻量化和小型化的要求。功率密度=输出功率/质量，对于人形机器人关节来说，由于空间有限，功率密度是非常核心的指标，因此无框力矩电机优势明显。

图 85：无框电机能量密度高、体积小、重量轻

机器人运动时膝关节受力最大，Optimus 使用了仿生四连杆结构，可平滑电机输出力保持效率最高区间。根据 2023 年特斯拉股东大会直播显示，特斯拉对于机器人的各种动作进行了模态分析并将其降入到控制系统中去来降低控制频率节省算力以及能源。膝盖是机器人运动时受力最大的关节，为了降低电机输出的力，膝盖处创新使用了仿生四连杆结构，这种结构相比于二连杆可平滑电机输出力，可以让电机的出力维持在一个恒定值上来让电机在效率最高的区间工作。

九、投资建议

人形机器人关节数量多，根据分析我们认为价值量集中在单价高且用量多的零部件，主要有电机、谐波减速器、力/力矩传感器。以特斯拉机器人为例，根据 2023 年特斯拉股东大会直播显示，我们预计 Optimus 躯干 28 个关节，其中旋转关节和直线关节均为 14 个，手指共 12 个执行器。每个旋转关节需要 1 个谐波减速器，所有躯干关节都需要无框力矩电机，手机每个执行器用一个空心杯电机，躯干和手指每个执行器都要用一个力/力矩电机，因此总共需要 28 个无框力矩电机+14个谐波减速器+40 个力/力矩传感器+12 个空心杯电机。

根据新浪财经报道，2022 年马斯克接受采访时说道,机器人“擎天柱”预计明年底开始交付, 目标量是 23 年 10 万台、24 年 50 万台、25 年 100 万台。根据前瞻产业研究院等数据显示，价值量占比较高的谐波减速器、驱动器+无框力矩电机、力/力矩传感器、空心杯电机、编码器价格大致分别为 1500、3000、600、700、100 元，假设在 10 万、50 万、100 万台情况下，各零部件成本分别为单台成本的 80%、67%、60%，测算结果如表 6 所示。

关注相关领域头部上市公司，重点关注三类：1）在汽车领域与特斯拉有深度合作并布局人形机器人赛道的相关公司；2）人形机器人领域已经和特斯拉达成初步合作的相关公司。3）产品在细分领域处于全球领先的相关公司。

表 6：特斯拉机器人 Optimus 关节各部件拆分及预测

相关标的

1）绿的谐波：国内谐波减速器龙头，根据公司 22 年年报，公司 21 年国内市占率达 24.7%。根据公司公告，公司与三花智控共建了墨西哥工业园。

2）三花智控：特斯拉汽车热管理系统核心供应商，客户和渠道优势明显，根据公司公告，公司与绿的谐波共建墨西哥工业园。

3）拓普集团：特斯拉汽车产业链核心供应商，根据公司 22 年年报，公司已开展机器人执行器研发，包括旋转执行器和直线执行器，样品已获得客户的认可。

4）鸣志电器：专注人形机器人手掌模组及指模控制电机，根据公司 23 年 5 月 12 日业绩说明会表示，公司已获得头部企业合作意向，目前已经向头部客户提交了全套技术方案及样机。

5）江苏雷利：公司在投资者回复表示，控股子公司鼎智科技研发的线性传动组件、空心杯电机、精密齿轮箱等产品处于国内领先地位，可应用于人形机器人。

6）步科股份：公司在投资者回复表示，第三代无框力矩电机产品可以对标国际领先产品，部分型号具备一定优势，已与国内人形机器人企业进行相关产品的共创。

7）昊志机电：公司在投资者互动平台表示，公司谐波减速器、无框力矩电机和编码器等产品可应用于人形机器人。

8）禾川科技：公司在投资者回复中表示，公司在人形机器人的伺服驱动器软件/总线通信技术/集成控制芯片/电机减速机一体集成传动等产品和技术方面有较深的前沿技术储备。

十、风险提示

1、人形机器人发展进度不及预期风险：人形机器人作为一种新兴前沿科技，当前处于发展初期阶段，后续可能有发展不及预期的风险。

2、人形机器人需求不及预期风险：人形机器人作为一种新兴产物，下游各个场景需求的确定性尚未得到验证，存在需求量不及预期的风险。

3、产能不及预期风险：人形机器人大规模放量需要产业链各个环节具备相应产能，可能存在部分环节产能不足的风险。

深圳城市开发者社区

一座年轻的奋斗人之城，一个温馨的开发者之家。在这里，代码改变人生，开发创造未来！

更多推荐

王腾：小米手机用户忠诚度安卓第一；谷歌2023年裁员逾1.2万，遣散费高达21亿美元；库克预告iOS 18重磅更新 | 极客头条

深圳城市开发者社区

雷军、李想、何小鹏谈苹果放弃造车；字节跳动正秘密研发多个AI产品；微软GitHub Copilot企业版正式上线 | 极客头条

深圳城市开发者社区

“删不掉”的 AI 助手！开发者向 JetBrains 发出抗议：公司不让用 AI，代码可能会被泄露...

整理 | 郑丽媛出品 | CSDN（ID：CSDNnews）去年 6 月，JetBrains 宣布所有基于 IntelliJ 的 IDE 和 .NET 工具都将集成一个新功能：AI 助手（AI Assistant）——该功能由 JetBrains AI 服务提供支持，可连接不同的大语言模型（LLM），并表示会将它整合到 IDE 的核心工作流中。到了 12 月，Jetbrains 推出 2023.3