UPDATED. 2024-04-23 16:14 (화)
[비즈니스] 음성인식 기술 ‘대중 속으로’
[비즈니스] 음성인식 기술 ‘대중 속으로’
  • 유춘희 기자
  • 승인 2001.10.17 00:00
  • 댓글 0
이 기사를 공유합니다

일반 소비자용 제품 개발 한창… 잡음 처리·자연어 처리 등 과제로 남아 대문 앞에 서서 주머니 속 열쇠를 찾거나 초인종을 누르지 마라. '이 집 주인이다'라는 말 한마디면 문이 자동으로 열린다.
갑자기 쌀쌀해진 날씨로 거실이 썰렁한가? 보일러 제어기에 대고 '방안 온도를 높여라'고 말하면 최적의 조건으로 실내 기온을 올려줄 것이다.
컴퓨터를 켠 뒤 마이크에 대고 '닷21을 보고 싶다'고 말해보라. 웹 브라우저는 'DOT21' 최근호를 띄워 올릴 것이고, 보고 싶은 제목을 말하면 사람 목소리로 콘텐츠를 읽어준다.
공상과학 영화에서 본 듯한 이야기지만, 이미 우리 일상생활 속에 어느 정도 실현된 이야기이기도 하다.
음성인식 보안장치, 음성인식 가전제품 제어기, 음성인식 브라우저, 음성합성 소프트웨어가 그것을 가능하게 한다.
음성인식 기술은 컴퓨터 키보드와 마우스를 없애는 데 머물지 않고 음성 명령으로 움직이는 기계, 사람처럼 정보를 들려주는 기계 시대를 열고 있다.
그런데 최근 말 한마디로 PC를 작동시키고 문서까지 만들어주는 한글 받아쓰기 소프트웨어와 대화자의 한글 음성을 인식한 후 일본어로 곧바로 바꿔주는 통역 기계가 등장해 음성인식 기술의 일상 생활화에 더 바짝 다가섰다.
음성기술 전문업체인 보이스텍과 번역 소프트웨어 개발업체인 창신소프트는 지난 10월9일 한글날을 맞아 한글 딕테이션 프로그램과 한국어-일본어 자동 통역·번역기를 발표했다.
이에 따라 키보드로 문서작성이 어려운 시각장애인이나 노년층 등이 정보를 입력하는 데 겪는 불편을 덜게 됐고, 외국어를 몰라도 휴대형 기계 통역사를 들고 다니며 비즈니스를 해결할 수 있게 됐다.
한글 받아쓰기 SW·자동 통역기 개발 한글 음성인식 소프트웨어가 개발된 것은 오래 전 일이지만, 일반 사용자가 쓸 수 있도록 패키징한 것은 이번이 처음이다.
지금까지 음성인식 기술은 장난감에 넣어 노는 재미를 높이거나, 음성 지원 인터넷 브라우저를 음성포털 사이트, 콜센터의 전화 자동안내 등 주로 기업용 솔루션으로 개발됐다.
음성인식 기술이 최종 사용자가 직접 쓸 수 있을 만큼 가까워졌다는 점에서 받아쓰기 소프트웨어와 자동 통역기 개발은 큰 의미가 있다.
보이스텍www.voicetech.co.kr 이 개발한 세계 최초의 한글 딕테이션(dictation) 제품 ‘바이보이스’(ByVoice)는 음성을 글로 바꿔준다.
딕테이션이란 사람이 발음한 음성신호를 미리 정의된 문자나 문장 기호로 자동으로 바꿔주는 기술이다.
이를 통해 컴퓨터가 사람이 발성한 대로 타이핑하고, 문서작성 도중 잘못 인식한 단어를 ‘선택·교정’ 메뉴를 통해 입력하면 같은 실수를 반복하지 않는 문법 오류정정 기능까지 있다.
바이보이스는 마이크로소프트 오피스와 한글과컴퓨터 워드프로세서 모든 버전에서 작동하는데, 회사 관계자에 따르면 분당 최고 600타 정도 받아쓰기를 할 수 있다고 하니 받아쓰기가 끊기는 현상도 거의 없는 셈이다.
또한 음성 명령을 통해 e메일 사용과 인터넷 사이트 검색, 여기에 음성합성(Text-to-Speech) 기술을 접목해 텍스트를 음성으로 읽어주는 것도 가능하다.
보이스텍 강수웅 사장은 '순수 국산기술로 2년여의 개발 기간을 거쳐 탄생한 제품'이라며 '인식률이 평균 91.47%로 거의 완벽한 수준'이라고 자랑한다.
서울대 음성언어학 이현복 교수와 한국정보통신대학원대학교 김회린 교수의 감수 아래 인구 센서스 자료에 근거해 성별, 지역별, 연령별로 100명의 화자를 선정해 테스트한 결과라는 것이다.
사용자의 말투나 발음습관을 훈련시키고, 신조어나 외래어 등을 추가하면 인식률이 98%까지 올라간다는 주장이다.
창신소프트 www.cssoft.co.kr는 PDA(개인휴대단말기)에 탑재해 사용하는 음성인식형 통역기인 ‘이지토키’를 발표했다.
이 제품은 음성인식 기술과 번역기술을 합친 것으로, 한국어와 일본어를 대화하듯이 문자나 음성으로 입력하면 실시간으로 통역해주고, 상대국 언어 문자나 음성으로 출력해낸다.
이 회사 주장대로라면 번역의 정확도는 95% 수준이다.
사용자가 한국어로 자신이 전달하려는 말을 통역기에 대고 이야기하면 이를 인식, 일본어로 통역해 전달한다.
일본말을 하고 나서 한국말로 통역도 가능하다.
특히 불특정 다수의 음성인식이 가능해 여러 사람이 함께 쓸 수도 있으며, 가볍게 휴대할 수 있어 관광객에게 적합한 제품이라고 말하다.
쇼핑, 호텔, 교통수단, 응급상황 등 발생 가능한 2048개 상황을 설정, 비즈니스 회화나 일상 회화도 가능하도록 했다.
이들 회사 외에 보이스웨어, SL2, 메텔, 심스라인, 액트밸리 등 음성인식 기술을 개발하는 벤처기업들도 시장의 관심이 높아지면서 일반인을 상대로 한 제품 개발에 나서고 있다.
검색할 인터넷 사이트를 일일이 손으로 입력하지 않고 말로 검색하는 음성 포털은 이미 일반화했고, 목적지 정보를 음성으로 변환해 운전자가 모니터를 보지 않고 안전하게 주행할 수 있도록 도와주는 음성인식 차량항법장치(GPS)도 많이 나와 있다.
보이스웨어 www.voiceware.co.kr는 마이크로소프트 오피스 신제품인 한글 오피스XP에 음성인식 기술을 공급하기도 했다.
국내 음성기술 산업은 1980년대 후반부터 대학과 연구소·일부 대기업을 중심으로 연구가 시작돼 90년대 초부터 일부 제품이 나오기 시작했다.
그리고 99년쯤부터 음성 전문업체가 속속 설립돼 연구에 가속도가 붙어 선진국과 격차를 줄여나가는 중이다.
그러나 시장 성장세에 비해 음성인식 기술 수준은 일반 소비자가 만족할 만한 수준이 안 됐다는 게 중론이다.
게다가 자본력과 기술을 겸비한 외국업체가 진출해 있어 시장잠식과 기술종속 우려도 크다.
초창기에는, 지금은 파산한 L&H로부터 음성인식 엔진을 라이선스해 상업화하는 게 당연시됐고, 지금도 스피치웍스나 뉘앙스커뮤니케이션, 포닉스, 컨버세이 같은 세계적 업체의 기술을 빌려쓰고 있다.
원천기술을 가진 회사는 LG종합기술원 출신이 세운 보이스웨어, 한국과학기술원(KAIST) 출신이 만든 SL2와 보이스피아, 강원대 정익주 교수가 학생들과 함께 창업한 D&M테크놀로지 정도가 꼽힌다.
다행히 자체 기술을 가진 회사의 기술수준은 높은 편이다.
특히 한국어 인식 엔진만 놓고 보면 음성합성(TTS) 기술은 ‘당연히’ 외국 기업보다 낫다는 평이다.
하지만 STT(Speech-to-Text) 기술은 조금 처진다.
사람마다 말투와 억양이 다르기 때문에 방대한 말소리 데이터베이스를 구축해야 하고, 기계를 정교하게 훈련시켜야 하는 어려움 때문이다.
그러나 이번 보이스텍의 바이보이스가 인식률 91%라고 주장할 만큼 기술이 급속도로 향상되고 있다.
보이스웨어 백종관 사장은 '바깥 소음이 완전히 차단된 상태에서 인식률이 90%를 넘는다고 주장하는 것은 별 의미가 없다'며 '실생활에 활용하려면 잡음이 많은 곳에서 인식률을 높이는 필터링 기술의 개발이 절실하다'고 말한다.
그는 또한 '특히 한글은 조사와 형용사의 변화가 많아 자연스럽게 읽고 적을 수 있도록 기술 수준을 더 높여야 한다'고 덧붙인다.
KAIST 이수영 교수는 '음성인식이 연구소를 빠져나와 이제 우리 눈앞에서 자연스럽게 펼쳐질 정도로 ‘안정적 태동기’에 접어들었다'면서 다만 '잡음 처리와 자연어 처리 기술 등에서 풀어야 할 숙제가 많고, 전기전자 공학뿐만 아니라 음성학, 언어학, 음향물리학, 생리학, 심리학 같은 복합적인 학문 분야와 제대로 결합돼야 정보가전, 자동차, 유통 등의 분야에서 효용가치를 더 높일 수 있다'고 말한다.

음성 인식 이렇게

모든 음향 신호는 독특한 파형이 있는가 하면, 신호 특성이 같을 때도 있다.
사람의 목소리나 억양은 각각 다른 파형을 형성하지만, 같은 낱말을 발음할 때는 그 낱말에 해당하는 신호는 목소리나 억양과는 상관없이 같은 형태를 가진다.
이 원리를 활용해 전화나 컴퓨터로 들어오는 음성신호를 분석해, 그 가운데 낱말 신호를 담고 있는 파형을 추출한 뒤 음성 데이터베이스에 미리 입력된 표본 음성신호와 대조해 들어맞는 낱말을 찾는 게 음성인식 기술이다.
낱말은 다시 출력 형태에 따라 문자로 바꾸어 구술 입력 형태로 컴퓨터에 입력하거나 명령어로 바꾸어 무언가를 제어한다.
이 기능을 거꾸로 가동하면 음성합성 기술이 된다.
문자로 입력된 자료를 미리 지정한 음색과 억양의 목소리로 바꿔 출력하는 것이다.

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.