[정보] 이미지부터 텍스트, 음성까지 일체형 AI 알고리즘, Data2Vec

2022.01.30 01:20 3,436 Views

인간은 세상을 학습할 때, 다양한 감각을 통해 학습합니다. 그렇다면, 인공지능은 감각 정보를 어떻게 데이터 화할까요?

기존의 알고리즘은 각각의 정보를 컴퓨터가 이해하도록 서로 다른 알고리즘을 통해 데이터 화합니다. 이때, 수많은 데이터에 label을 달아야 하기 때문에 데이터셋을 모으기도 어렵고 활용 방법도 제한적이라는 한계점이 발생합니다.

이러한 한계점을 극복하기 위해 라벨링 된 데이터를 일부만 사용하는 준 지도학습(semi-supervised learning), 혹은 아예 라벨링이 되지 않은 데이터만 사용하는 비 지도학습(un-supervised learning)과 자기 지도학습(self-supervised learning)이 활용되고 있지만 해당 알고리즘 역시 이미지, 텍스트, 음성 중 하나의 모달리티에 대해서만 기능합니다.

그런데 최근 페이스북이었던 메타에서 ‘data2vec’이라는 새로운 알고리즘을 발표했습니다. 세계 최초로 이미지, 텍스트, 음성을 모두 처리할 수 있는 자기 지도학습 인공지능 알고리즘이 등장한 것입니다.

메타 AI에서 발표한 data2vec은 이미지, 텍스트, 음성과 같은 모달리티가 아닌 input 데이터의 고유한 표현 값을 예측하는 방식으로 학습합니다. 이미지 단위나 언어, 음성 대신 신경망 레이어 자체에 집중함으로써 하나의 알고리즘이 완전히 다른 종류의 인풋값을 다룰 수 있게 된 것입니다.

data2vec은 교사 네트워크와 학생 네트워크 두 가지로 구성됩니다. 우선, 교사 네트워크가 이미지, 텍스트, 음성 언어로부터 표현값을 계산합니다. 데이터의 내부 표현을 학습해 새로운 예가 표시될 때 어떤 대상인지 예측하는 것입니다. 이때, 핵심은 학생 네트워크가 교사 네트워크의 내부 표현값을 예측하도록 학습한다는 것입니다.

예를 들어 강아지 이미지를 보여 줬을 때, 이미지 자체가 아닌 교사 네트워크가 인지할 내부 표현값을 예측하는 방식입니다. 실제 이미지나 텍스트가 아닌 표현값을 추측하기 때문에 하나의 알고리즘을 통해 다양한 모달리티를 다룰 수 있게 된 것입니다.

마치 인간처럼 말이죠. data2vec은 인간이 세상을 학습할 때 다양한 감각을 복합적으로 사용하듯, 인간의 방식대로 세상을 이해할 것입니다.

본 게시글은 데이콘 서포터즈 ‘데이크루’ 1기 활동의 일환입니다.

Reference

[1] [https://byline.network/2022/01/21-168/](https://byline.network/2022/01/21-168/)

[2] [http://www.aitimes.com/news/articleView.html?idxno=142722](http://www.aitimes.com/news/articleView.html?idxno=142722)

[3] [https://smilegate.ai/cn/2022/01/23/data2vec/](https://smilegate.ai/cn/2022/01/23/data2vec/)