구글 리서치에서 코드 생성으로 VQA을 해결한 연구가 공개되었다. VQA는 Visual Question Answering의 약자로, 질문과 Image가 주어지면 그에 맞는 해답을 제시하는 문제이다. 마치 TOEIC의 LC파트에서 들려주는 것에 적절한 사진 고르기와 비슷하다고 볼 수 있다. 기존에는 이미지에서 특성을 추출하거나 자연어를 분석하는 모델이 VQA 문제를 해결해왔는데, 이번 CodeVQA 모델은 그 대신에 코드를 사용한다는 점에서 매우 특이했다.
저작권상 이미지를 그대로 가져오지는 못했는데 Modular VQA - Google Research에서 실제 구현 과정을 확인해보길 바란다. 마치 우리가 이미지를 보고 분석하는 과정처럼 질문에 해당하는 코드를 제시하고, 이미지를 input으로 받아서 코드에 따라 진행시키는 방식이었다. 기존 방식에 비해서 코드를 사용하기에 논리적으로 완전하고 과정을 구체적으로 파악할 수 있다는 장점을 가진다.
50개 이하
의 훈련 세트가 주어지는 환경에서 분석하는 few-shot VQA 분야에서 괄목할 만한 성과가 나와서 신기했다. 인간이 제시한 annotated train data 없이 분석하는 zero-shot VQA 모델도 기대해본다.