[커버스토리] "더 빨리 더 정확히" 검색엔진은 괴롭다

쏟아지는 정보량과 이용자 요구에 허우적...구글은 기존 기술의 한께를 뛰어넘을 것인가?
지난 93년 월드와이드웹의 탄생 이후 불과 5~6년 사이에 인터넷은 우리 생활에 없어서는 안될 중요한 요소가 됐다.
인간생활에 꼭 필요한 의, 식, 주에 이제는 인터넷이라는 사이버 세상을 하나 더 첨가해야 할 듯하다.
인터넷의 힘은 실로 어마어마하다.
컴퓨터를 켜고 인터넷에 발을 들이는 순간, 우리는 정보의 바다 속으로 빨려든다.
인터넷을 ‘서핑’한다는 말은 현재로선 너무나 적절한 표현인 듯 싶다.

그런데 문제가 생겼다.
인터넷은 너무나 빠르게 성장했고, 너무나 많은 정보들이 쌓였다.
사람들은 필요한 정보를 어디에서 어떻게 찾아야 하는지 몰라 방황하기 시작했다.
세계적으로 하루에도 수천, 수만개의 사이트가 새롭게 만들어지는 상황에서 출항조차 엄두를 내지 못하는 사람들이 우후죽순처럼 불어났다.
엄청난 양에 밀려난 디렉토리 검색 이제 문제는 인터넷이 아니라 바로 당신이다.
당신은 정보의 바다 인터넷을 얼마만큼 항해할 능력을 갖고 있는가? 어떤 배를 타고, 어느 바다에서, 원하는 정보를 필요한 만큼 건져올려서 제시간 안에 모니터 앞으로 돌아올 수 있는가? 이런 물음에 직면한 당신을 돕기 위해 등장한 것이 바로 인터넷 검색 사이트들이다.
인터넷에 산적해 있는 정보는 과연 얼마나 될까? 미국 NEC리서치연구소의 스티브 로렌스 박사와 리 자일즈 박사가 인터넷에 연결된 컴퓨터 숫자를 기준으로 계산한 바에 따르면, 현재 인터넷 웹페이지 숫자는 8억개 정도에 이른다.
이걸 컴퓨터 데이터 용량으로 계산하면 15테라바이트(1테라바이트는 1000기가바이트)나 된다.
고밀도 플로피디스크 750만장에 해당하는 용량이다.
이 많은 자료들 속에서 정보를 분류하고, 찾아주는 서비스를 처음으로 시작한 검색 사이트가 미국의 야후나 익사이트, 인포시크 등이다.
빠르게는 93년 말 또는 94년 초에 서비스를 시작했고, 95년에는 라이코스가 이 대열에 합류했다.
국내에서는 96년 5월 심마니가 한글과컴퓨터의 자연어 처리팀에서 개발한 한글정보검색시스템을 가지고 서비스를 시작했다.
심마니는 처음엔 그다지 눈길을 끌지 못했다.
98년께 인터넷이 대중화된 뒤에야 두각을 나타내기 시작했다.
심마니의 우유미 서핑팀장은 “인터넷 사용이 확산되고, 개인 홈페이지를 만드는 네티즌들이 늘어나면서 등록된 정보의 양도 많아졌기 때문”이라고 설명한다.
그 즈음 야후코리아(97년 9월)가 본격적으로 국내 시장에 뛰어들었지만, 심마니의 힘을 당장 누르지는 못했다.
당시 검색 사이트들은 어떤 원리로 정보를 찾아주었을까? 야후는 처음 서비스할 당시 디렉토리별로 정보에 접근하는 방식을 썼다.
인터넷에 존재하는 문서들의 주소를 주제별, 계층별로 정리해놓고, 대분류→중분류→소분류를 따라 마우스를 클릭만 하면 자신이 원하는 자료가 있는 문서의 주소를 알 수 있도록 해주는 식이다.
디렉토리는 사람이 일일이 수집하고 관리한다.
현재 국내에서 서비스하는 검색 사이트들은 디렉토리 검색과 관련해 보통 14개로 대분류를 하고 있으며, 디렉토리별로 정보검색사(서퍼)들을 두고 있다.
야후의 마케팅팀 김병석 대리는 “홈페이지 작성자가 검색도구 관리자에게 자신의 홈페이지 등록을 신청하면, 관리자는 그 홈페이지에 대한 일종의 평가를 내린 다음 검색도구의 분류항목에 등록할지를 결정한다”고 말했다 이런 디렉토리별 검색엔진은 찾고자 하는 정보의 키워드를 모르더라도 몇가지 분류만 알고 있으면 쉽게 정보에 접근할 수 있다는 장점이 있다.
또 사람이 직접 분류하기 때문에 비교적 정확하다는 평가를 받는다.
하지만 여러 단계를 거치는 동안 중간에 길을 잘못 접어들게 되면 자신이 찾고자 하는 내용과 더 멀어질 수 있다는 단점도 있다.
디렉토리별 검색은 얼마 안가 네티즌들의 저항에 부닥쳤다.
98년부터 홈페이지 수와 정보량이 기하급수적으로 늘어났고, 그와 더불어 원하는 정보를 빨리 정확하게 찾으려고 하는 네티즌들의 욕구도 늘어났다.
네티즌들은 몇단계를 거쳐 디렉토리를 분류하고, 또 뒤지는 것에 답답해했다.
단어 하나로 원하는 정보를 단박에 찾아내주길 원했던 것이다.
키워드를 치면 웹문서를 직접 검색해주는 서비스가 이런 욕구를 타고 등장했다.
키워드 검색이라는 새로운 기술을 선보인 심마니의 성공은 여기에 힘입은 바 크다.
이후 속속 등장한 검색 서비스들도 인덱스 방식의 검색도구를 대거 채택했다.
98년 서비스를 시작한 알타비스타는 이를 주요 무기로 삼았다.
라이코스코리아와 99년 뒤늦게 서비스를 시작한 네이버도 디렉토리 검색과 함께 웹문서 검색을 장점으로 내세웠다.
뿐만 아니라 이들은 96년부터 99년까지 4년 동안 등록된 홈페이지 수보다 99년 이후 6개월 동안 훨씬 더 늘어난 홈페이지들을 감당해낼 대용량 서버를 구축했다.
회원들을 확보하기 위해 웹메일 서비스나 동호회 구축 등의 부가적인 서비스도 강화하기 시작했다.
이미지 전략을 위한 광고에도 큰 돈을 쏟아부었다.
이들의 공세에 심마니가 흔들리기 시작했다.
선발주자의 이점을 채 누리기도 전에 강력한 도전자들이 몰려온 것이다.
폭발적으로 늘어난 정보량을 감당할 서버를 구축하기도 전에, 네티즌들이 떠나기 시작했다.
다른 사이트로 옮겨가는 네티즌들을 잡기 위한 차별화 전략도 뚜렷한 성과를 거두지 못했다.
그럼 이렇게 갑자기 많아진 웹문서 검색은 어떻게 가능한 것일까? 인덱스 방식으로 검색 서비스를 제공하는 검색도구들은 보통 수천개의 문서들을 데이터베이스화해서 갖고 있다.
데이터는 보통 ‘로봇’이라고 부르는 일종의 프로그램을 일정한 간격으로 작동시켜 수집한다.
이 로봇은 인터넷을 무작위로 돌아다니다가 웹문서나 홈페이지를 방문할 경우 자신이 갖고 있지 않은 정보가 있으면, 그 정보를 인덱스로 보내어 등록한다.
방문한 문서에 대한 정보를 이미 갖고 있다면, 갱신된 내용만 등록하고, 나머지는 무시하고 지나간다.
검색엔진은 이렇게 로봇이 수집한 정보 가운데 사용자가 요구하는 것을 키워드에 따라 ‘and’나 ‘or’ 따위의 연산작용을 거쳐 뽑아주는 것이다.
하지만 이 역시 또다른 문제점을 드러냈다.
네티즌들이 찾고자 하는 단어를 입력하면, 이를 포함한 문서들이 수십만개나 뜨는 것이었다.
문제는 문서의 양이 아니라 네티즌들이 진짜 ‘원하는’ 정보였다.
검색 서비스 업체 관계자들은 “수십만건의 문서 가운데 원하는 것을 상위 10위 안에 올리는 것이 중요하다”고 입을 모은다.
따라서 질문과 문서 사이의 유사도 또는 정확도를 계산하는 방식이 중요해진다.
색인어를 추출해내는 기술이나 유사도를 계산하는 방법의 차이가 기술의 핵심이 된 것이다.
자연어 검색 ‘중복검색’의 한계 못 벗어 엠파스가 들고나온 자연어 검색이나 문장으로 찾는 검색이 새로운 해결책으로 등장했다.
기술 자체는 획기적이라고 할 수 없지만, 질문과의 유사도를 측정해내는 방법에서는 진일보한 서비스라는 평가를 받고 있다.
업계의 한 관계자는 “기술적으로 크게 진보한 것은 아니지만, 모두들 할 수 있는 기능을 앞서 생각해 도입하고, 그것이 이용자들이 필요로 하는 기술이었다는 점에서 충분히 평가받을 만하다”고 말했다.
엠파스가 자연어 검색을 들고나왔을 때, “네티즌들은 물론, 검색 서비스 업체에서도 상당히 긴장했다”고 한 관계자는 전한다.
엠파스가 내세우는 자연어란 보통 일반적으로 쓰는 말을 가리킨다.
찾고자 하는 정보를 문장으로 치면 검색어와 연관된 문서를 보여주는 것이다.
기존 키워드 검색 서비스들은 단어와 단어 사이에 ‘and’나 ‘or’ 같은 연산자를 넣어 사용자가 원하는 정보를 찾아줬다.
그러나 엠파스는 사용자들이 굳이 이러한 연산기호를 치지 않아도 된다.
네티즌들은 문장으로 쳐도 비교적 근사한 답변을 얻을 수 있다는 점에서 엠파스에 환호했다.
다른 검색 서비스들도 잇따라 자연어 또는 인공지능형 언어를 서비스에 추가하기 시작했다.
그러나 그런 자연어 검색에도 변화무쌍한 네티즌들은 “중복된 사이트가 너무 많다”며 또 불만을 토로하고 있다.
유사도가 높은 반면 유사도 측정에서 비슷하게 나온 동일한 사이트들이 걸러짐없이 결과로 나타나기 때문이다.
현재의 검색 사이트들은 대부분 기본적인 디렉토리 검색이나 웹문서 검색기능을 갖추고 있고, 일부는 자연어 검색기능을 갖추고 있다.
그러나 자연어 검색도 아직은 초기단계다.
특히 기술적으로는 단어들의 연산이 기본기능이라는 점에서 초창기 엔진기능과 크게 다르지 않다는 평가를 받고 있다.
그런데 최근 ‘구글’이라는 검색엔진이 미국에서 돌풍을 일으켜 주목되고 있 다.
구글은 설명하자면 이런 것이다.
‘수많은 웹문서들 가운데 많은 사람들이 방문한 페이지는 그만큼 참고할 만한 가치가 있다.
따라서 페이지 랭크가 높은 순서대로 결과를 보여주면 사용자의 욕구에 근접할 수 있다.
’ 구글은 기존 검색방식과는 다른 알고리즘으로 차세대 검색엔진 자리에 도전하고 있다.
구글 등장으로 검색 정확도 높아져 구글은 이미 한글 검색 서비스를 시작했다.
전문가들은 “검색의 정확도 면에서 높은 점수를 받고 있다”고 평한다.
그만큼 국내 검색 사이트 시장에 긴장감이 감돈다.
업계에서는 구글의 한글 검색 서비스 인수를 포함한 제휴협상이 진행중일 것이라는 진단도 나오고 있다.
구글의 등장으로 정보의 바다가 출렁이고 있는 셈이다.
그렇다고 구글이 네티즌들의 욕구를 완벽하게 채워주는 것은 아니다.
검색엔진이 발전하고 자료의 양이 아무리 많아져도 네티즌들의 호기심을 뛰어넘기는 불가능할 것이기 때문이다.
검색 사이트 관계자들은 “앞으로 어마어마하게 방대해질 인터넷 정보를 지금의 속도로 서비스한다는 것만도 벅찬 일이다.
따라서 적은 정보라도 사용자들이 요구하는 것을 정확하게 골라주는 일이 검색 사이트의 숙제가 될 것이다”고 입을 모은다.
그것만이 인터넷이라는 바다를 항해하는 검색엔진이 살아남을 길이라는 것이다.

“자연어 검색과 구글 방식을 결합해야 한다. ” 숭실대학교 정보과학대학 이준호교수 검색 서비스의 근본적인 문제는 뭔가. 우선 사용자의 질문이 부정확하다는 것이다. 수만가지의 자료들 가운데 하나의 키워드만을 치면 그 결과가 수십만건에 이르는 것은 너무도 당연한 것이다. 검색기술의 핵심은 질문과 문서 사이의 유사도를 계산하는 것인데, 이를 위해선 정확한 질문을 던지는 것이 일차적으로 필요하다. 정확한 질문을 던져도 검색이 잘 안되는 경우가 많다. 현재 검색엔진 자체의 개발과 함께 사용자들이 질문을 정확히 할 수 있도록 도와주는 기능들이 많이 보완되고 있다. 미국의 애스크닷컴 www.ask.com은 사용자의 질문을 받으면, 시스템이 다시 그와 관련된 여러가지 질문을 던진다. 사용자가 그 중에 하나를 선택하게 함으로써 원하는 정보에 근접할 수 있도록 도와주는 것이다. 이런 기능들이 앞으로 검색 사이트에 추가될 것으로 보인다. 구글이라는 검색엔진을 어떻게 평가하는가? 기존의 전통적인 검색방식과는 알고리즘이 다른 새로운 방식으로 볼 수 있다. 구글은 사람들이 가장 많이 방문하는 페이지들의 순서를 매겨 검색결과를 보여준다. 사람들이 잘 이용한다는 것은 그만큼 정보가 일반적이며 유용한 정보를 담고 있다는 뜻이기 때문이다. 이 검색결과는 비교적 정확도가 높은 편이라고 평가되고 있다. 앞으로의 검색엔진은 그러한 방향으로 갈 것으로 본다. 구글에도 단점이 있는가. 자연어 검색이 안되고, 유사문서 검색이 없다는 것이 단점이다. 자연어 검색기능과 페이지 랭크 방식을 같이 활용할 수 있는 알고리즘이 개발되면 훨씬 더 좋은 결과가 나오리라 생각한다. 이는 향후 검색엔진 개발의 중요한 흐름이 될 것이다. 국내 검색 서비스들이 가장 시급히 해야 하는 과제가 있다면. 인터넷의 정보는 빠른 속도로 늘어나고 있다. 그 많은 정보들을 적어도 지금과 같은 속도로 서비스하기 위해선 무엇보다 대용량 데이터를 다룰 수 있는 기술을 습득해야 한다. 분산, 병렬 정보검색기술을 습득하는 것도 시급하다. 이를 위해 국내 투자자들이나 정부에서 기술개발쪽에 적극적인 지원을 해야 한다고 본다.

한정희