自动驾驶汽车训练与特斯拉的数据引擎讲解

学习如何驾驶的想法可能会让您回到十几岁的青少年时代,那时您的父母坐在副驾驶座上,您坐在方向盘后面。但对于自动驾驶汽车工程师来说,学习驾驶意味着潜心研究海量数据集,创建复杂的神经网络算法,并进行多年的渐进式改进。

在自动驾驶汽车培训中,大型硬件和软件工程师团队利用数据、模拟系统和最先进的人工智能 (AI) 培训基础设施,为自动驾驶汽车上路做准备

作为自动驾驶汽车领域的领导者,特斯拉开发了一种复杂的机器学习基础设施,反复训练他们的全自动驾驶 (FSD) 计算机,克服现实世界的挑战,同时改善特斯拉的训练数据集。

在本文中,我们将探究特斯拉“数据引擎”工作流程的基本原理,以了解特斯拉汽车生成的数据如何在未来追溯性地用于重新训练这些相同的汽车。

特斯拉的数据引擎是什么?

特斯拉的“数据引擎”是实现完全自主性的重要支柱。这种独特的数据工作流使用真实世界的驾驶示例来迭代运行机器学习算法,然后用于训练自动驾驶神经网络。

为此,特斯拉采用一种精巧的方式;每辆车都配有一台 FSD 计算机,可以同时运行两个 FSD 系统。一台 FSD 计算机用于在自动驾驶启用时驾驶车辆,而另一台 FSD 计算机则一直以“影子模式”运行。

影子模式的运行就像真正控制汽车一样。尽管如此,当驾驶员做了一些不同于它本来会做的事情,或者神经网络发出信号说它不知道在当前场景中该做什么时,它就会将该事件记录为不准确。由于特斯拉将这些不准确的数据记录在其内存中,它可以追溯性地收集这些数据。

假设特斯拉在类似情况下检测到足够多的不准确之处。在这种情况下,特斯拉就可以搜索特斯拉车队中其他汽车的类似驾驶情况,即使没有检测到不准确之处。

然后,特斯拉可以收集类似的上下文示例。使用这个新形成的、标记良好的数据集,特斯拉可以重新训练其神经网络,以更好地对这些不准确之处的场景做出反应。神经网络被重新训练后,就可以将新修改的自动驾驶神经网络部署到“影子模式”,并收集新的数据示例以用于进一步的不准确情况。

高水平的特斯拉数据收集

下图中的视觉再现说明了特斯拉数据收集和迭代策略的循环性质。首先,在源头收集数据(特斯拉中的 FSD 计算机)。接下来,车辆识别不准确情况。这种不准确情况进入特斯拉的单元测试,以验证其合法性,并证明不是人类驾驶员不合格驾驶的结果。

如果不准确情况被认为是合理的,特斯拉会要求其车队提供更多不准确之处的示例。这些例子然后被人类正确标记,并用于训练神经网络。然后将网络重新部署到数据源,以收集更多不准确性数据。

汽车行业的竞争

当特斯拉在 2019 年的特斯拉自动驾驶日首次推出其“数据引擎”时,自然让汽车行业的其他公司产生了羡慕之情

在 2020 年接受 Reuters 采访时,奥迪首席执行官表示,“特斯拉在计算和软件架构以及自动驾驶方面领先两年。”从一开始,这个庞大的数据生成、训练材料收集、理解、再训练迭代、部署和重新运行机制的基础设施就设计得非常好。

“数据引擎”的特点是支持数据链每一步的集成,需要数据收集、传输和计算的全新架构。例如,特斯拉汽车可以在功能上支持与特斯拉中央数据库的无线连接,并支持影子模式计算和数据收集,同时运行生产部署的自动驾驶汽车算法。 在发布会上,没有其他汽车制造商拥有特斯拉这样强大而成熟的自动车辆数据收集基础设施。

边缘案例识别和迭代

数据引擎最重要的功能之一是能够检测人类驾驶或生产神经网络与其影子部署神经网络之间的不准确之处。在自动驾驶日的演示中,特斯拉使用了在路上有自行车的情况下检测驾驶不准确之处的例子,说明特斯拉机器学习基础设施的复杂性及其识别这些不准确之处的能力。

在其生产神经网络中,特斯拉认为自行车是需要避开的关键元素,因为自行车上经常有人类骑行。如果一辆特斯拉汽车需要与两个物体中的一个相撞,它会与另一辆汽车而不是自行车相撞,因为汽车可能比自行车更能保护其驾驶员。

然而,特斯拉注意到,在某些情况下,自行车位于道路中间,离其他汽车非常近,这会触发影子神经网络,指示它在与驾驶员的行为进行比较后不知道该怎么办。或者,特斯拉可能已经注意到,当他们的量产自动驾驶神经网络正在运行时,发现一辆自行车“在道路中间”,人类驾驶员可能已经干预并“纠正”了汽车的路线。

特斯拉接到通知后,数据标记技术人员审核了这一不准确情况,发现它发生在汽车有自行车架的情况下,而自行车架上有自行车。

对于人类来说,这一事件可能只是一个新奇的事件,但这一训练数据揭示了自动驾驶汽车中生产神经网络的一个关键挑战。在这种情况下,特斯拉然后要求他们支持 FSD 的车队搜索其他可能在汽车上或汽车附近有自行车的事件。

然后,这些数据示例被发送给数据标记技术人员,他们可以正确识别真正的自行车、安装在汽车后面的自行车、安装在汽车顶部的自行车,或者以上情况都不是。使用新收集和标记的数据集,测试版神经网络可以使用特斯拉的机器学习数据中心进行重新训练,并在车队中重新部署,以影子模式运行并迭代。

借助其数据引擎,特斯拉可以利用从影子模式部署和快速训练迭代中获得的经验创建新的软件版本。特斯拉数据收集基础设施的天才之处在于,它收集真实生活中的数据示例,并使用人类驾驶员来训练其机器学习模型。最终,特斯拉的数据引擎通过快速收集标记良好的、现实生活中的自动驾驶汽车训练数据,并积极使用这些数据进行迭代机器学习试验,来加速神经网络训练。

特斯拉数据收集致胜

自动驾驶汽车领域的其他公司拥有训练其自动驾驶汽车的专有方法,但没有一家公司的运营规模达到特斯拉的水平。随着汽车遍布全球,特斯拉可以收集更多的安全驾驶数据和更多的边缘案例不准确之处,并利用这些来培养他们的神经网络。

许多其他公司都拥有非常强大的训练模拟和数据收集机制,但通常他们的工作范围仅限于一个城市或地区。无论如何,自动驾驶汽车(目前只是半自动驾驶汽车)产生的数据是完全打开自动驾驶汽车大门的必然钥匙。


ArrowPerks-Loyalty-Program-Signup-banner-CN


最新消息

Sorry, your filter selection returned no results.

请仔细阅读我们近期更改的隐私政策。当按下确认键时,您已了解并同意艾睿电子的隐私政策和用户协议。

本网站需使用cookies以改善用户您的体验并进一步改进我们的网站。此处阅读了解关于网站cookies的使用以及如何禁用cookies。网页cookies和追踪功能或許用于市场分析。当您按下同意按钮,您已经了解并同意在您的设备上接受cookies,并给予网站追踪权限。更多关于如何取消网站cookies及追踪的信息,请点击下方“阅读更多”。尽管同意启用cookies追踪与否取决用户意愿,取消网页cookies及追踪可能导致网站运作或显示异常,亦或导致相关推荐广告减少。

我们尊重您的隐私。请在此阅读我们的隐私政策。