[도쿄=IT동아 강일용 기자] 구글은 10일 도쿄 미나토구 록본기힐스 모리타워에서 '매직 인 더 머신(Magic in the Machine)' 행사를 개최하고, 구글의 무료 클라우드 서비스 '구글 포토(Google Photos)'에 기계학습이 어떤 형태로 적용되어 있는지 구체적인 사례를 공개했다.
구글 포토는 지난 5월 1600만 화소 이하의 사진, 풀HD 이하의 동영상을 무제한으로 저장할 수 있게 정책을 변경한 후 월 1억 명의 사용자가 접속하는 구글의 대표 서비스로 거듭났다.
구글은 기계학습과 서비스를 접목하기 위해 다방면으로 노력해왔다. 그 성과 가운데 하나가 바로 구글 포토다.
구글포토에 기계학습이 접목된 대표적인 사례는 '자동 그룹화' 기능이다. 사용자가 업로드한 사진 속에서 특정 인물을 찾아내고, 해당 인물이 찍힌 사진만 한 군데 모아서 보여주는 기능이다.
사람만 구분하는 것이 아니다. 사물, 계절, 상황 등을 파악하고 비슷한 피사체가 찍힌 사진이나 비슷한 시기에 직은 사진을 모아서 앨범화해준다.
이처럼 자동으로 사진을 정리해주기 때문에 구글 포토 사용자는 사진을 따로 분류하거나 태그 별로 정리하지 않아도 된다.
기계학습을 활용해 구글 포토에 적용된 이미지 인식 모델을 구글 내부에선 '인셉션'이라고 부른다. 크리스토퍼 놀란 감독의 영화 인셉션에서 따온 이름이다.
먼저 구글은 사람들이 어떻게 세상을 바라 보는지, 뇌가 어떻게 이미지를 인식하는지 등을 판단하는 복수의 '뉴럴 네트워크(신경망)'을 구축했다(참고로 구글은 인셉션을 보고 이 뉴럴 네트워크 구축의 영감을 얻었다고 밝혔다).
구글 포토 속 뉴럴 네트워크는 총 22개의 레이어(단계)를 거쳐 이미지를 인식한다. 레이어 속에는 컬러만 판단하는 레이어, 선만 판단하는 레이어 등 다양한 레이어가 존재한다. 개개의 레이어로 이미지를 분석할 수 없지만, 22개의 레이어에서 분석된 정보를 취합해 이미지를 정교하게 분석하는 것이다.
인셉션의 판단능력은 갓난아이와 다를 바 없다. 사물 간의 유사성은 파악할 수 있다. 하지만 그것이 어떤 특정 사물(또는 인물)이라고 인식하는 것은 불가능하다. 때문에 인셉션은 사진 속 사물이 무엇인지 인식할 수 있도록 교육(기계학습)이 필요하다.
구글은 인셉션이 이미지와 특정 영어(한국어) 단어를 연결할 수 있도록 매핑 기술을 추가했다. 이 기술을 바탕으로 구글 포토는 사용자가 이미지를 정리하지 않아도 자동으로 구분해준다.
현재 구글 포토의 과제는 두 가지다. 인셉션이 매핑을 보다 정확하게 할 수 있도록 데이터를 수집하는 것과 사물, 인물 뿐만 아니라 관념(예를 들어 생일)도 제대로 인식할 수 있게 하는 것이다. 구글은 보다 방대한 데이터를 수집하기 위해 구글 포토 서비스를 무료로 제공한다는 결정을 내렸고, 관념을 인식할 수 있도록 사물과 인물을 취합해 상황을 종합적으로 판단하는 기술을 개발하고 있다.
크리스 페리 구글 포토 프로덕트 매니저는 "구글 포토는 사람의 인생에 비유하자면 고등학교를 졸업하고 성인이 되기 바로 직전에 해당한다. 현재 모든 면에서 뛰어나지만, 이제 완벽을 추구해야 한다. 구글 포토에서 미진한 부분을 얘기하자면 얼굴이 50%밖에 안보이면 사람을 제대로 구분하지 못하는 문제가 있다. 안보이는 부분을 예측하는 기술을 개발함으로써 이러한 한계를 극복할 것"이라고 밝혔다.
이어 "마이크로소프트, 페이스북, 애플 등 구글의 경쟁사도 뛰어난 기계학습 기술을 보유하고 있지만, 단지 기술을 보유하고 있는 것은 아무런 의미가 없다. 기계학습이 사용자가 실제로 사용하고 있는 서비스에 적용돼야 의미가 있다. 이런 점에서 구글과 구글포토가 기계학습 시장을 선도하고 있다"고 강조했다.
글 / IT동아 강일용(zero@itdonga.com)