作者:Jeremy Cook
“机器人如何能够看得见?”,对于这一问题,简短回答是通过机器视觉或工业视觉系统。但是,细节方面的问题要复杂得多。在本文中,我们将围绕完成现实世界任务的物理机器人,而不是用于过滤互联网上视觉材料的纯软件应用程序来提出问题。
机器视觉系统使用一台数码相机(或多台相机)捕捉图像,逐帧处理这些数据。机器人使用这些解读后的数据,通过机械臂、移动农业系统、自动化安全设置或任何其他应用程序与物理世界进行交互。
计算机视觉在二十世纪后半叶变得非常抢眼,使用一系列硬编码标准来确定关于捕获的视觉数据的简单事实。文本识别就是这样一种基本应用。在工业装配应用中,检查部件 x 的存在与否或孔 y 的尺寸则属于其他应用。如今,通过结合人工智能与机器学习,计算机视觉的应用范围已得到显著扩展。
机器视觉的重要性
虽然基于特定标准的视觉系统仍在使用,但由于基于人工智能的处理,机器视觉现在的能力大大提升。在这种模式下,机器人视觉系统不再被明确编程用于识别正确位置的像素集合(所谓的“斑点”)等条件。相反,机器人视觉系统可以使用坏零件和好零件、条件或场景的数据集来训练,以允许其生成自己的规则。配备该系统后,即可管理一些任务,例如为人类而非动物开门,为看起来干枯的植物浇水,或者在交通灯变为绿灯时移动自动驾驶汽车等。
虽然我们可以使用基于云的计算来训练人工智能模型,但对于实时决策来说,边缘处理通常更可取。在本地处理机器人视觉任务可以减少延迟,并意味着您不依赖云基础架构来处理关键任务。自动驾驶汽车就是一个说明为什么这很重要的绝佳例子,因为半秒钟的机器视觉延迟就可能导致事故。此外,没有人希望在网络资源不可用时就不再开车。
尖端机器人视觉技术:多摄像头、3D、人工智能技术
虽然一个摄像头可以捕捉 2D 视觉信息,但两个摄像头协同工作可以实现深度感知。例如,NXP i.MX 8 系列处理器可以使用两个 1080P 分辨率的摄像头进行立体输入。使用适当的硬件,可通过视频拼接和其他技术集成多个摄像头和摄像头系统。其他传感器类型,如 LIDAR、IMU 和声音,都可以整合在一起,提供机器人周围环境的三维图像。
允许机器人解释所捕获图像的同类技术也允许计算机生成新图像和 3D 模型。将机器人视觉的这两方面结合起来的一个应用是增强现实领域。在这里,对视觉摄像机和其他输入进行解释,并将结果显示出来以供人们使用。

如何开始使用机器视觉
我们现在有了广泛的机器视觉入门选项。从软件的角度来看,OpenCV 是一个很好的起点。它可以免费使用,可以与基于规则的机器视觉以及更新的深度学习模型一起工作。您可以使用计算机和网络摄像头开始,但专业的工业视觉系统设备,如 Jetson Nano Developer Kit 或 Google Coral 系列产品非常适合视觉和机器学习。NVIDIA® Jetson Orin™ NX 16GB 在熟悉的 Jetson 外形尺寸中提供 100 TOPS 的 AI 性能。
NVIDIA 等公司提供一系列可用的软件资产,包括训练数据集。如果您想实施一个人工智能应用,但又不愿意采购所需的人、车或其他物体的图片,这可以为您提供一个良好的开端。随着注意力和视觉转换器等尖端人工智能技术增强其使用方式,数据集有望在未来得到改善。
机器人视觉算法
机器人不断解读一系列图像来进行观察,通过人类编码的算法处理数据,或者通过人工智能生成的规则集进行解读。当然,在哲学层面上,人们可能会反过来问:“机器人如何看待自己?”鉴于我们窥视代码内部的能力(可能像人工智能模型一样错综复杂),这可能是一个比我们如何看待自己更简单的问题!