본문 바로가기

IT

한글로 전세계 웹 검색 - 구글 피터 노빅 박사


- 언어장벽 제거돼 지구촌 의사소통에 획기적 혁명 올것
- 기계적 음성 인식 기술 이용 비디오 검색도 곧 실현

구글은 세계에서 가장 주목을 받은 기업 중의 하나다. 구글의 새로운 서비스는 항상 많은 사람들의 관심을 받는다. 촉망받던 미국 항공우주국인(NASA)의 한 연구원이 2001년에 돌연 구글 리서치팀에 책임자로 합류했다. 그후 구글은 작은 검색창 하나로 세상을 지배했다. 구글의 검색팀을 이끌며 많은 프로젝트를 조율하고 관리하는 R&D분야의 수장 피터 노빅 박사가 그 주인공이다.

사용자 삽입 이미지
샌프란시스코 마운틴 뷰에 있는 구글본사(플렉스) 전경.

그는 전세계 모든 인터넷 사용자가 자유롭게 자신의 언어로 전세계의 웹을 검색하는 ‘차세대 번역 프로젝트’를 진행하고 있다. 또한 텍스트뿐 아니라 동영상에 나오는 음성도 자동으로 번역할 수 있는 ‘기계적 음성인식’ 기술을 개발하고 있다. 그를 국내 언론 최초로 인터뷰했다.

◆ 한국어로 전세계 인터넷 검색= 아무리 가치 있는 정보라도 해당 언어를 모르면 무의미하다. ‘차세대 번역 프로젝트’는 유사 이래 지속돼온 언어의 장벽을 무너뜨리려는 야심찬 계획이다. 한국어 웹 정보는 전세계 웹 정보량의 수%에 불과하다. 한국어만 알고 있는 사람은 전체 정보의 90% 이상을 놓치고 있다는 이야기다. 언어의 장벽이 무너지면 상대적으로 한국 사용자가 더 큰 혜택을 볼 수 있다.

그는 ‘기계적 음성인식 기술’을 이용한 비디오 번역도 준비 중이다. 비디오에 나오는 모든 음성을 문자로 변환해 검색한다. 음성은 희미하게 나오거나 다른 소음과 섞일 수 있다. 그래서 음성 인식 뿐 아니라 유용한 정보만 거르는 필터링 기술이 필요하다. 지금까지의 동영상 검색이 태그에 의존한 단어 검색이었다. 그는 “앞으로 비디오 검색도 ‘10월 한달간 구글에 관련된 뉴스를 찾아달라’는 식으로 구체적인 명령을 내릴 수 있다”고 말한다.

◆ 음성인식을 넘어 동시통역도 가능= 노빅 박사는 “구글은 사람들이 삶을 효율적으로 관리하는데 도움을 준다”며 구글이 10년 후에도 사람들의 삶에 관심을 가지고 새로운 정보를 찾도록 도울 것이라고 말했다. 그는 “음성인식 기술을 통해 당신이 말하는 것이 텍스트로 번역되고 다시 음성으로 나에게 전달될 수 있다”며 “현재는 웹상의 텍스트 번역이나 음성인식에 대해 연구하고 있지만 실시간 통역도 논리적으로는 비슷하다”고 말했다. 사람이 아닌 기계에 의해 실시간 번역 서비스가 가능하다는 것이다.

이것이 현실화된다면 인류의 의사소통에 획기적인 혁명이 될 수도 있다. 더 이상 동시 통역자가 필요 없어지며 누구나 시간과 공간의 제약을 받지 않고 방송과 인터넷을 통해 실시간으로 전세계의 정보를 접할 수 있다. 그가 연구하는 자동음성인식 기술이 완성된다면 인터뷰 동안 기자와 박사 사이에 존재했던 언어 장벽 역시 완전히 해소될 것이다.

사용자 삽입 이미지

◆ 10년후 검색의 미래 =“10년 후라면 지금보다 더 많은 사람들이 인터넷에 의존하고 더 많은 텍스트, 이미지, 비디오를 구하려고 할 것이다.” 그는 10년 후의 미래를 예측하는 것이 쉽지 않은 일이라고 단서를 달았지만 현재 구글의 모습은 크게 달라지지 않을 것이라고 했다.

대신 지금과 달리 대부분의 사용자가 PC 대신 모바일 등 다양한 플랫폼을 이용할 것이다. 실제 구글에서는 올해 4월부터 세계 최초로 모바일 검색인 ‘GOO411 서비스를 선보이고 있다. 사용자가 휴대폰에 ‘LA윌셔가 피자집’ 이라고 말하면 자동으로 인근의 피자가게의 리스트를 검색해 음성으로 알려준다. 이때 안내에 따라 번호를 누르기만 하면 주소 등의 정보와 함께 피자 주문 내용이 가게에 전달되는 서비스다. 이 모든 것은 무료다. 지금까지는 위치정보나 간단한 주문등 특수한 목적으로만 이용가능하지만 기계적 음성인식 기술이 발전하면 컴퓨터로 검색하듯 전화로 구글과 대화하며 원하는 자료를 검색하는 것이 가능해진다.


다음은 샌프란시스코 마운틴 뷰에 있는 구글플렉스에서 이뤄진 인터뷰의 일문 일답.

-올해 당신의 주요 업무는 무엇인가.

“100명이 넘는 구글 검색팀을 이끌고 있다. ‘기계 번역’ ‘음성인식’ ‘일반적인 언어이해’ ‘컴퓨터 비전’ 관련 서비스를 연구 중이다.”

-차세대 자동 번역이나 기계적 음성인식 서비스는 언제쯤 상용화되나.

“정 확히 언제가 될지는 모른다. 이 프로젝트는 끝없이 계속 발전시켜야 하기 때문이다. 우리는 세계 모든 언어에 우리 고유의 기술을 적용하고 있다. ‘교차 언어 검색(Cross Language Search)’ 이라고 하는데, 한 페이지에 어떤 검색어를 입력하면 다른 언어로 된 페이지가 자동으로 호출된다. 과거에는 몇 개의 언어만 가능했지만 지금 모든 언어에 적용할 수 있도록 범위를 넓히고 있다.”

-서로 다른 언어들은 차이점이 많다. 어려움은 없나.

“우리는 ‘통계적 접근’을 통해 여러 언어로 된 웹 문서를 연구하고 있다. 통계적 접근이란 구글 검색의 기본 방법이다. 구글에서 검색어를 입력하면 로봇이 수집한 전세계 웹 페이지의 단어와 기호를 분석해 결과를 보여준다. 또 이 단어가 다른 문서에서 어떻게 쓰이는지를 통계적으로 조사해 조금 더 정확한 뜻을 알아내고 다음 검색에 더 나은 결과를 보여주게 된다. 연구 초반에는 각각의 언어 전문가들의 조언을 많이 받았다. 이후에는 각 언어의 음절 분석을 통해서 많은 어려움들을 해결하고 있다.”

-휴대폰에서 음성으로 검색을 할 수 있는 ‘GOO411’를 서비스 중이다. 이 프로젝트의 미래는.

“현 재는 범용이 아니라 길과 특정한 업소를 찾는 부분적인 서비스만 이뤄지고 있다. 이 프로젝트는 ‘자동 음성인식’ 기능과 긴밀하게 연관되어 있다. GOO411의 목적은 우선 사용자가 컴퓨터로 검색하듯 핸드폰을 통해 구글과 대화하는 ‘경험’을 하는 것이다. 이것은 자판을 두드리는 일보다 훨씬 편하고 유용하다. 사상 최초로 통역자 없이 실행되는 ‘광범위 주소 검색’ 시스템이기 때문이다. 이를 통해 프로젝트의 운영 방법과 음성인식의 문제점을 극복해 나가고 있다. 또 하나는 사용자들이 말하는 많은 예를 제공받을 수 있다. 많은 사람들이 서로 다른 방법으로 개성 있게 말한다. 여러 언어를 이해하고 시스템 모델을 개발하려면 다양한 데이터가 필요하다.”

-음성인식 프로젝트가 더 진행되면 지금 인터뷰 내용도 통역자 없이 바로 번역될 수 있나.

“물론이다. 음성인식 기술을 통해 컴퓨터나 단말기에 입력되고 그것이 번역기술에 의해 텍스트로 나에게 전달 될 수 있다. 현재까지는 웹 상의 텍스트나 동영상, 음성에 대해 연구하고 있지만 실시간 통역도 논리적으로는 비슷하다. ”

-10년 후 인터넷 검색은 어떻게 바뀔 것인가.

“모 든 산업이 마찬가지겠지만 10년 후를 예측하는 것은 쉽지 않은 일이다. 하지만 지금보다 더 많은 사람들이 인터넷에 의존하게 될 것이고 더 많은 텍스트, 이미지, 비디오를 구하려고 할 것이다. 이를 위해 지금의 휴대폰처럼 사람들은 정보를 언제 어디서나 찾을 수 있는 기계를 들고 다닐 것이다. 모든 정보에 언제나 접근 가능할 것이다.”

-구글의 미래는.

“구 글은 현재 검색, 광고, 어플리케이션, 주변 인프라 구축 같은 4개 영역을 주요 사업으로 하고 있으며, 10년 후 이 틀에서 크게 변하지 않을 것이다. 구글은 사람들의 삶을 관리하는데 도움을 줄 것이다. 그 삶은 점점 더 온라인에 가까울 것이고, 더 많은 친구들과 사람들과 상호작용이 있을 것이고, 사람들이 그것을 찾아가고, 새로운 정보를 찾도록 도울 것이다. ”

-인터넷 기업은 주기가 짧다. 비록 현재 구글이 인터넷 업계에서 1위지만 앞으로 전망도 낙관할 수 있나.

“지 금까지 구글이 잘 해왔다. 우리는 좋은 모델을 가지고 있다. 우리는 ‘엔지니어’와 ‘혁신’에 의해 움직인다. 빠르게 변하는 이 시대에 맞춰 빠르게 움직이고 있다. 매일매일 업데이트하고, 새로운 소프트웨어를 제공한다. 또한 새로운 것에 눈을 돌리고 있으며 그것을 바로 적용시키려고 노력한다. 다른 사람들도 인터넷 비즈니스의 새 물결에 손쉽게 동참할 수 있다. 문제는 규모다. 우리는 큰 규모를 가지고 있다. 다른 기업보다 발 빠르게 만들고 전세계 수억명의 사용자에게 공급하는 것이 가능하다. 그것은 작은 회사에게는 힘든 일이다.

사용자 삽입 이미지

-한국에서는 네이버 보다 검색결과가 좋지 않다는 반응이다. 실제 검색시장 점유율도 낮다.

“우리는 한국과 네이버에 대해 많이 연구하고 있다. 네이버가 최선을 다하고 있지만, 놓치고 있는 부분도 많다. 아마 순수한 검색력 면에서는 우리가 한 수 위라고 생각한다. 네이버의 장점은 축적된 지식과 정보가 많다는 것이다. 네이버가 성공한 것은 한국의 웹에 이용 가능한 소스가 많지 않았기 때문이다. 현재는 한국도 많이 달라져 웹페이지가 많아지고 환경도 성장했다. 또 만약 구글의 차세대 번역이 잘 된다면 한국어로도 영어 검색이 가능해 진다. 그러면 네이버보다 더 좋은 검색결과를 보여줄 수 있다.”

◇피터 노빅= 구글 리서치팀에는 소프트 엔지니어, 수학자 및 컴퓨터과학자들이 모여있으며, 이들 대부분은 유수 대학교에서 박사과정을 모두 마친 사람들이다. 특히 이 리서치팀을 이끄는 피터 노빅 박사는 미국 항공우주국(NASA)에서 근무하다 2001년에 구글 리서치팀에 책임자로 합류했다. 전세계 인터넷 사용자들의 커뮤니케이션 장애물인 언어장벽을 해결하기 위해 인공지능 분야를 연구해왔으며 이 분야에서는 탁월한 전문성을 인정받고 있다.