프로젝트

HIFI AI | 2022.03.07

Semi-supervised learning


일반적으로 딥러닝 기반의 A.I 모델을 훈련 시키기 위해서는 많은 양의 데이터와 label이 필요하다. 정형 데이터는 경우에 따라 수집 되는 데이터를 사람이 손수 작업하지 않는 경우도 있지만, 이미지 혹은 영상 데이터를 처리하는 computer vision에서는 대부분의 경우 사람이 손수 labeling 작업을 거쳐야 한다. 의료, health care, 제조 공정 등 특정 도메인에서 labeling 작업은 전문가의 지식이 필요해서 매우 까다롭다는 문제가 있다. 또한, computer vision에는 object detection 혹은 segmentation과 같은 task가 여럿 존재하는데 object detection에는 이미지 마다 도메인 지식을 가지고 labeling 작업을 해야 하고 특히 segmentation은 이미지의 pixel 단위로 labeling 작업이 필요 하기 때문에 매우 어렵고 고비용적이다. 그래서 이에 대한 대안으로 semi-supervised learning이 대안이 될 수 있다. semi-supervised learning은 소수의 labeled-data와 외부 데이터와 같은 대량의 unlabeled-data를 함께 활용하여 좋은 성능의 모델을 구축하는 것이 목표이다. semi-supervised learning에는 class-imbalance 문제, reliability measure 문제, 정확한 pseudo-label 생성에 대한 문제 등 여러가지 해결이 필요한 문제가 있다. 따라서, 이에 대한 연구를 진행하고 있으며 더불어 real world의 문제 혹은 특정 데이터마다 생길 수 있는 문제를 고민하여 연구하고 있다.

비전 딥러닝 모형의 고도화 및 2차원-3차원 데이터 연계를 통한 의류 치수 측정 모형의 개발


본 연구개발의 목표는, Vision AI model과 3D data integration를 통한, 의류 치수 측정 자동화 모형의 개발이다. 구체적으로는, Deep-learning 기반의 Instance segmentation 및 keypoint estimation에 대한 pixel-wise level의 성능 고도화와, 이를 LiDAR 센서로 수집된 3D Point cloud에 접목하는 연계 기술의 개발이라고 할 수 있다. 이를 위해 크게 두 가지 핵심 기술이 적용되었다. 먼저, High-Resolution Network(HRNet) architecture를 접목한 keypoint location model이다. HRNet은 CNN의 개량된 다층(multilayered) 구조를 바탕으로, 시각 데이터 내 주목해야 할 핵심 점의 위치를 추정한다. 이러한 특성에 주목해, 이미지 속 의류에 대한 치수 측정 점을 학습하고 추론하는 모델을 탑재하였다. 다음으로, 이렇게 도출된 이미지 속 점의 위치를, 이미지와 동일한 시점과 각도로부터 기록된 3D Point cloud 데이터에 mapping하는 단계를 구현하였다. 3차원 공간 정보가 반영된 Point cloud와의 융합 과정을 통해, 의류의 대상 치수를 보다 정밀한 실 수치로 도출하는 것이 가능해졌다. 이렇게 구현된 자동화 치수 측정 모형은, Deep-learning 기반의 AI 기술의 고도화 및 적용성 확대 뿐 아니라, 이종(異種) 데이터 간 연계 활용 방안의 제안이라는 점에서 그 의미가 크다고 할 수 있다. 이는 기존 기술에 대한 적용 연구임과 동시에, 시도된 적 없는 2D-3D data integration을 제안한다는 점에서 기초연구로써의 성격을 함께 갖는다. 또한, 다양한 산업군에서 쉽게 구축 가능한 Device와 Method에 초점을 맞춰, 향후 더 많은 응용 사례가 나올 것으로 기대할 수 있다.

3D Point Cloud Data를 이용한 Autuencoder 기반 Face Liveness Recognition 모델 개발


최근 스마트폰 등 다양한 모바일 기기에 생체 정보를 기반으로 한 인증 시스템이 적용되면서 Face Recognition, 지문 등을 이용한 본인 인증 방식이 많이 활용되고 있다. 특히 얼굴의 경우 등록 및 인증과정이 간결하다는 장점으로 인해 가장 널리 사용되고 있다. 그러나 얼굴 데이터는 SNS 등 소셜 네트워크를 통해 인위적 획득이 쉽고, 사진 출력, Mask 제작 등 위변조에 취약하다는 문제점이 있다. 이를 해결하기 위해 Face Recognition 에 대한 연구가 활발히 진행되고 있다.본 연구에서는 Face Liveness Recognition 모델의 성능 향상을 위해 이상탐지에 사용되는 Autuencoder 아이디어를 사용하고 있으며 RGB 외에 3D Point Cloud 데이터(depth)를 포함하는 모델을 개발 및 연구 중에 있다.

LiDAR 센서를 활용한 얼굴 인식 연구 및 개발


얼굴 인식 시스템은 얼굴 사진을 활용한 방법으로 생체 인증에 사용된다. 하지만, 사람의 얼굴 사진은 소셜 미디어(ex; Instagram 등)에서 쉽게 얻을 수 있어 신분 도용에 매우 취약하다. 개인의 3D 정보는 외부에서 쉽게 얻을 수 없기 때문에 이를 활용하는 것은 해당 부분에서 중요한 역할을 할 수 있다. 3D 정보는 Depth Map 또는 Point Cloud 형태의 데이터를 통해 확인 가능하지만, 사람 얼굴의 사진과 동시에 3D 정보를 담을 수 있는 하드웨어의 부재로 데이터를 수집하는 것이 당면한 문제이다. 2020년 Apple이 3D 정보 추출이 가능한 LiDAR 센서를 탑재한 IPhone과 IPad를 출시하여 얼굴의 2D와 3D 정보를 동시에 추출할 수 있는 앱을 직접 개발했고, 이를 활용해 약 100명의 사람에 대한 데이터를 수집했다. 얼굴 인식 방법은 Convolutional Neural Network(CNN)을 활용하는데, CNN 모듈을 활용하기 위해 2D 픽셀 좌표에 3D 정보가 매핑된 데이터를 활용했다. 기존 2D만 이용한 방법론과 3D 정보를 추가한 방법론의 성능 비교 실험에서 3D 정보가 추가된 방법론은 성능면에서 앞섰다. Three-Shot Learning 실험에서 역시 제안하는 방법론은 기존 2D 방법론에 비해 우수한 성능을 보였다. 이는, 적은 양의 데이터에도 정보의 양의 추가로 성능을 보안될 수 있다는 것을 보인다. 얼굴 표정 변화에 따른 특징 유사도 비교 실험에서 제안 방법은 기존 2D 방법론에 비해 높은 유사도를 보였다. 이는, 단순히 분류의 성능이 뛰어난 것을 의미하는 것이 아니라, 제안 방법의 우수한 성능이 얼굴 인식에 필요한 특징 학습에 기반함을 강조한다. 공정 데이터는 수집이 어려우며 레이블링 작업에 높은 비용이 요구된다. 해당 연구는 정보량의 증가가 이미지 분석에 미치는 영향을 분석하여 지속적으로 고비용을 요구하는 레이블링 작업을 센서의 추가 및 센서 데이터의 활용으로 보완할 수 있을 것으로 예상된다.

쓰레기 무단 투기 감지 연구 및 개발


쓰레기 무단 투기는 현실에서 빈번히 일어나며, 이는 보기에도 좋지 않으며 악취 등으로 사회에 문제를 일으킨다. 컴퓨터 비전은 디지털 이미지나 동영상을 분석하여 실시간으로 쓰레기 무단 투기를 판단한다. 컴퓨터 비전 기반의 행동 인식 접근 방식은 좋은 성과를 내고 있으나 몇가지 제한 사항이 존재한다. 주요 제한 사항으로는, 사람의 행동이 카메라와의 거리 등에 따라 다르게 보일 수 있다는 것이다. 이는 딥러닝 역시 인식에 실패하는 원인으로 지목된다. 따라서 컴퓨터 비전 AI를 활용해 제한 사항을 개선하는 쓰레기 무단 투기 실시간 감지 시스템의 필요성이 대두되었다. 사람과 카메라의 거리에 따른 성능 저하를 개선하기 위해서 사람 인식[Yolo v3]과 행동 인식[R(2+1)D]을 순차적으로 진행하는 방법론을 개발하여 거리에 따른 비교를 위해, 3.5m/6m/10m로 거리 별 테스트 데이터 셋을 구성하였고 사람 인식 진행 여부에 따라 성능을 비교하였다. 거리가 증가함에 따라, 제안 방법 역시 성능이 약간 떨어졌으나 쓰레기 투기를 약 87%의 정확성으로 감지할 수 있었다.