ⓒphoto 김종연 영상미디어 기자
ⓒphoto 김종연 영상미디어 기자

‘4차 산업혁명’이 화두다. 4차 산업혁명의 핵심은 인공지능(AI)이다. 글로벌 인공지능 선두 기업들은 대부분 미국 기업이다. 국내 인공지능 선두주자는 누굴까.

국내 인공지능 분야 전문가들은 네이버를 한국의 인공지능 선두주자로 꼽는다. 네이버는 번역, 음성인식, 자율주행차 등 다양한 분야의 인공지능기술을 적극적으로 개발하고 있다. 무엇보다 국내 검색엔진 시장의 70%를 점유해 막대한 사용자 데이터를 보유하고 있다는 점은 경쟁사들이 따라잡기 힘든 장점이다. 빅데이터는 인공지능 개발의 핵심 요소다.

인공지능 인재 확보에서도 네이버는 앞서 있다. ICT 기업들은 국내외를 막론하고 인공지능을 전공한 인재를 확보하기 위해 혈안이 돼 있다. 인공지능 전공자라면 학생부터 교수까지 앞다퉈 높은 몸값을 지불하고 모셔가는 판이다. 네이버는 인공지능을 전공한 인재들이 가장 선호하는 국내 기업이다.

네이버는 새해 ‘기술플랫폼’을 기치로 내걸고 다양한 시도를 하고 있다. 그 시작이 네이버랩스 분사다. 네이버는 자사 소속의 연구조직인 네이버랩스를 지난 1월 2일 자회사로 독립시켰다. 연구원들이 개발에 전념하게 하려는 목적이다. 네이버의 한 관계자는 “네이버의 한 해 매출 약 4조원 중 1조원이 R&D 비용으로 다시 투자된다”며 “그만큼 네이버가 기술 개발에 전력투구한다는 뜻”이라고 말했다.

김준석 파파고 프로젝트 리더(수석연구원)를 만난 이유도 여기에 있다. 네이버랩스 소속으로 10년간 네이버랩스 문화를 경험한 그를 통해 네이버가 인공지능 시대에 어떻게 대응하는지를 엿보기 위해서였다. 김 리더는 LG전자에서 8년간 음성인식 기술을 개발하다 2007년 네이버에 입사해 줄곧 네이버랩스에서 근무했다. 새해 네이버랩스가 분사하면서 현재는 네이버 소속이다. 파파고팀이 네이버에 남았기 때문이다. 인공신경망 기반 번역 앱인 ‘파파고’ 개발을 총괄하고 있다. 지난 1월 17일 경기 성남시 분당구 네이버 본사 2층 회의실에서 김 리더를 만났다.

파파고는 단순한 번역 앱 이상

“인공신경망 기반 기계번역의 핵심은 두 가지입니다. 첫째는 얼마나 뛰어난 인공지능 기술을 가지고 있냐. 둘째는 얼마나 많은 데이터를 확보하고 있냐.”

파파고는 지난해 8월 8일 출시된 네이버의 실시간 번역 앱이다. 인공신경망 번역(NMT·Neural Machine Translation)이 적용됐다. 인공신경망 번역은 머신러닝(기계학습)이 적용된 번역 방식이다. 특정 단어가 어떤 단어와 쌍을 이룬다는 규칙을 알려주고 데이터를 제공하면 기계가 스스로 배운다. 기존 기계번역의 정확도를 2배 이상 높였다는 평을 받는다. 파파고는 현재까지 200만건 넘게 다운로드됐으며, 구글 플레이스토어와 아이폰 앱스토어에서 인기 앱 수위권을 다툰다. 글로벌 최대 검색엔진 구글 역시 지난해 9월 자사 번역기에 인공신경망 번역 방식을 도입했다.

파파고가 현재 지원하는 언어는 한·영·중·일어 등 4개 언어다. 김 리더는 “대만어·태국어 등 동남아 4개 언어와 프랑스어·스페인어 등 유럽 2개 언어를 추가해 올해 중으로 총 10개 언어를 지원할 예정”이라고 말했다. 김 리더가 총괄하는 팀은 지난해 초 파파고 개발을 시작해 약 8개월 만에 서비스를 시작했다. 음성인식·기계학습 등 핵심 요소기술이 그전부터 확보돼 있었고, 양질의 데이터를 확보하고 있어 개발 시간을 단축하는 데 도움이 됐다. 파파고의 교재가 되는 데이터는 다양하다. 네이버에 등록된 각종 어학사전이 주교재가 되고, 여러 영화의 자막, 번역 로그 등이 보충 교재가 된다. 네이버 지식인에 등록된 예문들도 교재로 이용된다. 특히 웹툰과 영화 등을 많이 이용해 일상언어 번역에 강하다.

파파고는 단순한 번역 앱 이상의 의미가 있다. 인간 활동의 정수(精髓)인 언어와 관련돼 있기 때문이다. 네이버는 파파고를 유료화할 계획이 없다. 눈앞의 소득을 위해 투자하는 기술이 아니라는 뜻이다. 파파고로 대표되는 인공신경망 기반 번역은 미래 네이버 인공지능 기술의 기반이 되는 핵심 기술이다. 글로벌 강자들이 번역 서비스에 심혈을 기울이는 이유도 여기에 있다. 네이버 홍보팀 김정우 부장은 “‘인공지능 관련 기술은 왜 준비하냐’를 묻는 게 아니라 ‘왜 준비하지 않냐’를 묻는 게 옳다”고 말했다. 다가오는 흐름에 올라타지 않는 자는 도태될 수밖에 없다는 뜻이다.

네이버는 이미 자사의 다른 서비스에 파파고의 기능을 입히고 있다. 대표적인 것이 네이버의 모바일 메신저 ‘라인’이다. 라인에는 ‘다국어 번역봇’이 있다. 한국어를 쓰는 사용자와 영어를 쓰는 사용자가 서로의 언어를 한 마디도 할 줄 몰라도, 번역봇을 두 사람이 있는 대화방에 초대하면 서로의 말을 실시간으로 알아들을 수 있다. 파파고와 마찬가지로 인공신경망 번역 방식이 도입됐다. 한·영·중·일어 4개 국어 서비스가 지원된다.

인공신경망 방식 번역은 네이버 뉴스에도 적용됐다. 현재는 연예뉴스에 부분적으로 적용돼 있지만 앞으로 시사, 스포츠 등 다른 분야에도 확대 적용될 예정이다. 뉴스 댓글에도 인공신경망 기반 번역 서비스가 적용될 예정이다. 김 리더에게 “댓글에 있는 욕도 번역하냐”고 묻자 “인공지능은 있는 그대로를 번역해야 하지 않을까”라는 답이 돌아왔다.

최강 구글 따라잡을 수 있을까

김 리더가 평가한 기계번역의 글로벌 4대 강자에 대한 분석이 흥미롭다. 그는 글로벌 4개사로 미국의 구글과 마이크로소프트(MS), 중국의 바이두, 일본의 고덴샤(高電社)를 꼽았다. 번역 앱은 언뜻 단순해 보일 수 있지만 소규모 스타트업이 뛰어들 수 없는 분야다. 막대한 데이터가 필요하기 때문에 데이터베이스를 구축하는 데만 엄청난 시간과 자원이 필요하다.

국내에선 네이버가 이 분야에서 강점이 있지만, 세계로 눈을 돌리면 경쟁사들은 더욱 막대한 데이터를 보유하고 있다. 세계 최대 검색엔진 구글, 중국 최대 검색엔진 바이두 등이 네이버의 경쟁사다. “글로벌사들의 기계번역 시스템을 비교평가해 달라”는 질문에 그는 “기업들이 원천기술은 공개하지만 디테일 수준은 공개하지 않아 누가 압도적으로 뛰어나다 할 수는 없는 상황”이라며 이유를 이렇게 설명했다.

“각 사가 신경 쓰는 언어쌍이 달라요. 바이두는 중국어 기반 번역에 강점이 있어요. 반면 구글은 새로운 기술이 나오면 영어 관련 번역에 우선 적용하죠.”

현재 인공지능 기반 번역에서는 구글이 가장 앞서 있다는 것이 김 리더의 설명이다. 지난해 11월 구글 인공지능 연구팀이 발표한 ‘제로샷 번역(Zero-shot translation)’ 때문이다. 제로샷 번역은 학습데이터가 없는 언어도 인공지능이 스스로 학습할 수 있는 기술이다. 일반적으로 인공지능이 영어, 일본어, 한국어 간 3개 국어 번역을 하려면 우선 인공지능에 영어에서 한국어 번역을 학습시키고 반대로 한국어에서 영어로 번역하는 걸 학습시켜야 한다. 영·일, 한·일 간 번역도 마찬가지로 학습시켜야 한다.

반면 제로샷 번역은 한국어와 일본어, 일본어와 영어를 번역할 수 있도록 학습시키면 인공지능이 스스로 한국어와 영어를 번역해낸다. 김 리더는 이를 “패러다임의 전환”이라고 평가했다. 실제로 이 기법을 통해 번역을 해보면 3개 언어를 모두 학습시킨 인공지능에 비해 정확도는 떨어지지만 나름대로 사리에 맞는 수준의 번역이 나온다고 한다. 구글만의 독창적인 기술이다. 글로벌 업체들 사이에서 네이버가 어떤 성과를 얻어낼 수 있을지 관심이 집중되고 있다.

키워드

#인터뷰
배용진 기자
저작권자 © 주간조선 무단전재 및 재배포 금지