글: Jeremy Cook
"로봇은 어떻게 보나요?"라는 질문에 간단히 대답하자면, 머신 비전 또는 산업 비전 시스템을 통해 본다고 할 수 있습니다. 자세한 내용은 좀 더 복잡합니다. 이 문서에서는 인터넷에서 시각 자료를 필터링하는 데 사용되는 소프트웨어 전용 애플리케이션이 아니라 실제 작업을 수행하는 물리적 로봇에 대한 이 질문을 생각해 봅니다.
머신 비전 시스템은 디지털 카메라(한 대 또는 여러 대)로 이미지를 캡처하고 이 데이터를 프레임별로 처리합니다. 로봇은 이 해석된 데이터를 사용하여 로봇 팔, 이동식 농업 시스템, 자동 보안 설정 등 다양한 응용 분야를 통해 실제 세계와 상호작용합니다.
컴퓨터 비전은 20세기 후반 들어 주목받는 부문으로 떠올랐으며, 다양한 하드 코딩 기준을 사용하여 캡처된 시각적 데이터에 대한 간단한 사실을 판단하는 방식이었습니다. 이처럼 간단한 응용 분야 중 하나가 텍스트 인식입니다. 산업 조립 응용 분야에서 부품 x의 존재 또는 구멍 y의 크기를 검사하는 작업도 있습니다. 오늘날 컴퓨터 비전 응용 분야는 AI 및 머신 러닝을 포함하면서 대폭 확장되었습니다.
머신 비전의 중요성
특정한 조건에 기반한 비전 시스템이 여전히 사용되고 있기는 하지만 현재 머신 비전은 AI 기반 처리 덕분에 역량이 훨씬 더 강화되었습니다. 이 패러다임에서 로봇 비전 시스템은 더 이상 올바른 위치에서 픽셀 집합(일명 "블롭")과 같은 조건을 인식하는 단독 작업용으로 프로그래밍되는 데 그치지 않습니다. 대신 불량 및 정상 부품, 조건 또는 시나리오로 구성된 데이터 집합으로 로봇 비전 시스템을 훈련시켜 자체 규칙을 생성하도록 할 수 있습니다. 이처럼 준비를 갖춘 로봇 비전 시스템은 동물이 아닌 인간에게만 문의 잠금을 해제해 주거나, 습기가 부족해 보이는 식물에 물을 주거나, 신호등이 녹색일 때 자율 차량을 움직이는 등의 작업을 관리할 수 있습니다.
클라우드 기반 컴퓨팅을 사용해 AI 모델을 훈련시킬 수 있기는 하지만 실시간 의사 결정의 경우에는 에지 처리가 일반적으로 선호됩니다. 로봇 비전 작업을 로컬로 처리하면 지연을 줄일 수 있으며 중요한 작업 시 클라우드 인프라에 의존하지 않아도 됩니다. 이 부분이 중요한 이유를 보여 주는 좋은 예가 바로 자율 차량인데, 단 0.5초만 머신 비전이 지연되어도 사고가 발생할 수 있기 때문입니다. 또한 네트워크 리소스가 사용할 수 없는 상태일 때 주행이 불가능해지는 일이 없습니다.
첨단 로봇 비전 기술: 다중 카메라 3D, AI 기법
카메라가 한 대라면 2D 시각적 정보를 캡처할 수 있지만 카메라가 두 대라면 심도 인식이 가능합니다. 예를 들어 NXP i.MX 8 프로세서 제품군에서는 스테레오 입력에 카메라 두 대를 1080P 해상도로 사용할 수 있습니다. 적절한 하드웨어가 있다면 비디오 스티칭 및 기타 기법을 통해 다중 카메라 및 카메라 시스템을 통합할 수 있습니다. LIDAR, IMU, 소리 등 다른 센서 유형를 통합하여 로봇의 주변 환경을 3D 공간 등으로 파악할 수 있습니다.
캡처한 이미지를 로봇이 해석할 수 있도록 하는 기술은 컴퓨터가 새 이미지 및 3D 모델을 생성할 수 있도록 하는 역할도 합니다. 로봇 비전이라는 동전의 이러한 양면을 결합한 응용 분야가 바로 증강 현실 영역입니다. 시각적 카메라와 기타 입력을 해석한 후 결과를 표시하면 인간이 이를 소비하는 형태입니다.

머신 비전을 시작하는 방법
현재 머신 비전을 시작하는 옵션은 다양합니다. 소프트웨어 관점에서 좋은 시작점을 꼽자면 OpenCV가 있습니다. 무료이며 규칙 기반 머신 비전을 비롯해 신형 딥 러닝 모델과도 함께 사용할 수 있습니다. 컴퓨터 및 웹캡으로 시작할 수도 있지만 Jetson Nano 개발자 키트 또는 Google Coral 제품군과 같은 특수 산업 비전 시스템 장비 역시 비전 및 머신 러닝에 적합합니다. NVIDIA® Jetson Orin™ NX 16GB는 일반적인 Jetson 형상 계수에서 100TOPS의 AI 성능을 자랑합니다.
NVIDIA와 같은 회사는 데이터 집합 훈련을 포함해 다양한 소프트웨어 자산을 보유하고 있습니다. AI 애플리케이션을 구현하고자 하지만 필요한 사람, 자동차 또는 기타 사물의 사진을 소싱하기는 원하지 않는 경우 이러한 소프트웨어 자산을 활용하면 시작하기가 훨씬 수월합니다. 데이터 집합 사용 방식을 향상해 줄 주의 및 비전 변환기 등의 첨단 AI 기법으로 향후에 발전 가능성이 있는 데이터 집합을 모색하십시오.
로봇 비전 알고리즘
로봇은 이미지 스트림을 지속적으로 해석하는 방식으로 보며, 이때 인간 코딩 알고리즘 또는 AI 생성 규칙 집합을 통한 해석으로 해당 데이터를 처리합니다. 물론 철학적인 수준에서 "로봇은 스스로를 어떻게 보나요?"와 같이 질문을 뒤집어 볼 수 있습니다. AI 모델만큼 복잡하게 얽힌 코드를 들여다볼 수 있다는 점에서, 어쩌면 이 질문은 인간이 스스로를 어떻게 보냐는 질문보다 더 직관적일 수 있습니다.