본문
이동 및 위성통신, 멀티미디어통신, 개인휴대통신, 인터넷폰, 디지털 주파수공용통신, 보이스페이저 (음성 무선호출기) 등 정보통신 응용분야에서 중요한 요소기술 중 하나가 음성을 압축/복원하여 부호화하는 보코더 (Vocoder) 기술이다. 전화기가 발명된 이후 보코더 기술에 관한 연구개발은 오랫동안 추진되어 왔다. 우리나라는 보코더 기술을 아직 외국기술에 의존하고 있어 우리 고유의 기술로 개발할 필요성이 높다.
보코더 기술을 우리 고유기술로 개발해야 하는 이유는 우선 음성통신이 다른 미디어통신과 달리 데이터 정보의 연속적인 복원능력이 필요하기 때문이다. 예컨대 오디오/비주얼 (AV) 통신에서 비디오통신은 일시적으로 눈을 감거나 또는 시선을 돌려 비디오 정보를 거절해도 정보의 흐름에 큰 영향을 주지 않지만 오디오 통신은 일정시간 정보가 끊어지게 되면 심리적으로 불안감을 가지게 된다.
이는 기존 부호화 방법에서 정보 전송률에 큰 비중을 두었던 정보의 가치가 음성통신에서는 연속된 정보의 흐름도 중요하다는 점을 말해주는 것이다.
둘째 음성은 국가, 개인, 연령, 성별 등에 따라서는 물론 동일인의 경우에도 시간에 따라 특성이 달라진다. 현재 상용화한 CDMA기술도 영어와 한국어의 차이점, 한국인과 미국인의 발성구조 및 발성습관의 차이 등을 고려하면 외국 보코더 기술로 우리말을 효과적으로 전송한다는 것은 무리가 있다. 국내 기술의 국제화 측면에서도 우리말에 알맞은 보코더는 반드시 우리 연구진들이 개발해야 하는 것이다.
셋째 음성통신은 모든 정보통신의 기본 미디어라는 사실이다. 정보통신이란 첨단화한 전자 및 정보처리 기법을 통신에 응용해 인간을 유익하게 하는 기술이라고 정의할 수 있다. 인간이 입과 귀를 달고 있는 만큼 음성통신은 정보통신의 가장 중요한 미디어가 된다. 세계 인구가 45억 정도이고 1인당 1대 이상의 음성 단말기가 사용된다면 음성통신 관련 단말기의 수요는 엄청나다는 것을 쉽게 예측할 수 있을 것이다. 따라서 수요가 풍부하고 응용성이 다양한 음성 보코더시장에 관심을 가져야 한다.
인간기계 통신 핵심 넷째 음성통신은 인간기계의 인터페이스 기술로 중요하다는 점이다. 여러가지 다양한 장치의 제어와 응답을 말로 하게 되면 인간기계간 통신이 원활하고 부담이 없어진다. 단말기도 별도의 표시장치나 키 입력장치가 필요없이 마이크로폰과 스피커를 통해 통신을 수행할 수 있어 기기의 부피가 작아지고 기능도 편리해진다.
다섯째 보코더의 응용분야는 다양하고 광범위하다. 위성을 이용한 공중육상이동통신의 휴대단말기에 보코더가 필수적으로 탑재돼야 한다. 멀티미디어 통신에는 여러가지 미디어가 적용되지만 음성신호의 압축/복원기술이 기본적으로 사용된다. 인터넷폰은 전세계적인 유선 공중망을 사용한 전자우편을 통해 목소리를 전송하는 것으로 음성 압축 및 복원기술이 필수적이다. 요즘 전화기에 필수적으로 적용되는 자동응답기능에 테이프를 없앨 수 있게 한 것도 음성압축/복원기술이다. 개인휴대통신이나 디지털 주파수 공용통신에서 개인의 주파수점유 대역폭을 줄여야만 가입자를 늘리거나 다른 데이터를 보내줄 수 있는데 이때 필요한 핵심기술이 음성압축기술이다.
우리나라는 무선호출기 가입자가 1천3백만명에 달할 정도로 보급이 급속도로 증가했다. 숫자 무선호출기, 문자 무선호출기에 이어 최근에는 다양한 음성 무선호출기가 개발되어 시판되고 있다. 디지털 음성 무선호출기는 가입자가 전화를 걸어 메시지를 10초 이내로 발성하면 서비스시스템이 음성을 압축해 무선공중망을 통해 전송하고 해당되는 음성 무선호출기가 압축된 데이터를 무선호출기에 저장한다. 가입자가 음성 무선호출기를 확인하면 음성 무선호출기가 음성을 복원하여 기록된 음성을 들려주게 된다.
휴대전화는 호출이 있을 경우 반드시 응답을 해야 하지만 음성 무선호출기는 메시지가 수신되면 메시지의 중요성이나 가입자의 주변 여건에 따라 응답을 선택적으로 할 수 있어 앞으로 수요가 크게 늘어날 것으로 예측된다. 하지만 회선점유가 기존 문자 호출기의 경우 가입자 1회 호출당 6백40비트 정도, 숫자 무선호출기의 경우 64비트 정도만 필요하지만 음성 무선호출기는 24k비트 이상이 필요하다. 그만큼 음성 무선호출기의 회선 점유율은 문자 무선호출기에 비해 40배, 숫자 무선호출기에 비해 4백배 이상 증가하게 된다. 따라서 고속 전송시스템을 도입해야 하고 음성압축률을 높이는 초저전송률 보코더 알고리듬의 개발이 필요하게 된다.
음성압축 및 복원에 관한 기술은 전송률과 응용 분야별로 다르게 연구되고 있다. 전송률 측면에서는 공중전화망에 보편적으로 적용되는 음성 부호/복호(Codec) 기와 저전송률에 적용되는 음성 압축/복원 부호화기로 나누어 연구개발되고 있다. 코덱은 전화의 표준 음질규정을 만족해야 하며 전송률은 64, 32, 24, 16 등으로 나누어 개발되어 왔다. 코덱은 또 부호/복호시에 소요되는 지연시간을 최소화해야 하는 제약이 따른다. 현재 시티폰 (CT2) 이나 공중유선망 (PSTN) 에 보편적으로 적용되는 전송률은 32 ADPCM (Adaptive Differential Pulse Code Modulation) 코덱이다.
음성 압축/복원에 의한 보코더의 전송률은 12 이하로 압축되어야 한다. 이들은 또 8 정도의 전 (Full) 저전송률, 4.8 정도의 반 (Half) 저전송률, 2.4 정도의 초 (Very) 저전송률 그룹으로 나누어진다. 현재 휴대폰이나 영상전화 등에 적용되는 보코더의 전송률은 전저전송률이 적용되고 있다. 인터넷폰을 비롯한 원거리 영상회의의 멀티미디어용이나 공용주파수통신 디지털 TRS (Trunked Radio Service) 등에는 반저전송률이 적용되고 있으며 음성 무선호출기나 군사통신 등에는 초저전송률 보코더법이 적용되고 있다. 또 음성신호의 활성도에 따라 전송률을 가변하여 부호화하는 가변전송률 보코더를 휴대전화나 인터넷폰에 응용하기도 한다.
선형예측모델 이용 음성신호를 압축하는 기본 원리는 음성신호의 생성모델에 기본을 두고 있다. 음성은 성도와 성문의 특성이 혼합 (Convolution) 되어 발생된다. 성도 목구멍의 특성은 LPC (Linear Predictive Coding) , PARCOR (PARtial CORrelation) , LSP (Linear Spectrum Pair) 등의 선형 예측모델에 의해 계수로 보통 모델링한다. 보코더의 경우 성도 모델링의 잔여성분과 성문의 특성은 펄스구조의 적응 코드북과 잡음구조의 가우시안 코드북으로 모델링하고 있다. 따라서 전송되는 데이터는 모델링의 계수와 코드북의 인덱스이기 때문에 전송률이 낮아질 수 있게 된다.
전송률 8 근방의 전저전송률 보코더법은 음성 발성의 목구멍 특성을 선형예측모델 계수로 표현하고 나머지의 성분은 부호책으로 부호화하는 CELP (Code Excited Linear Prediction) 법, 여러가지 펄스형태로 부호화하는 MPLP (Multi-Pulse Excited Linear Prediction) 법과 이들의 변형으로 G.728 방식 등이 있다.
북미 및 일본의 전저전송률 핸드폰용 보코더 표준방식은 성문과 잔여 성분을 몇개의 가우시안 코드북으로 모델링한 VSELP (Vector Sum Excite Linear Prediction) 법이다. 이 방식은 결정코드북의 구조를 적용하여 2가지 이상의 코드북을 사용해도 최적의 코드북 인덱스를 빠르게 검색할 수 있는 장점이 있다. VSELP 보코더 방식은 반전송률 (5.6 정도) 의 유럽이동통신 (GSM) 용 표준 보코더방식으로 채택되기도 했다.
유럽 및 호주의 전저전송률 표준 보코더방식은 성도 모델의 잔여신호와 성문의 신호를 일정 간격의 펄스로 모델링한 RPE-LTP (Regular Pulse Excited-Long Term Prediction) 법이다. 이 방식은 별도 코드북을 사용하지 않고 잔여 신호를 바로 부호화해 전송하기 때문에 음질이 비교적 우수하고 알고리듬의 구조가 간단하다. 하지만 전송률을 더 낮출 수 없다는 한계성이 있다.
반전송률 보코더법으로 아주 일반적인 방식이 CELP법이다. CELP법은 성도의 잔여 신호와 성문의 특성을 적응 코드북과 가우시안 코드북으로 모델링하고 있다. CELP법은 코드북들의 구조와 검색과정에 따라 구현의 복잡성과 합성 음질이 결정되기 때문에 다양한 처리방법과 그 변형들이 제안되어 있다.
반전송률 보코더에는 스펙트럼 영역에서 음성을 압축하는 IMBE (Improved Multi-Band Excitation) 법이 있다. IMBE법은 CELP법에 비해 계산량을 줄일 수 있고 저전송률에서 다양한 전송률로 부호화할 수 있다. 때문에 저가의 보코더 칩을 구현하기가 용이하다는 장점이 있으나 전송선로의 특성이나 주위 환경에 따라 스펙트럼이 왜곡되면 음질의 열화가 심각해진다는 단점이 있다.
최근 외국에서 초저전송률에 대한 연구가 활발한데 CELP 계열의 MELP (Mixed Excited Linear Prediction) 법, IMBE를 개선한 AMBE (Advanced Multi-Band Excitation) 법 등이 실용화됐다.
CELP법을 기본으로 하고 있는 MELP법은 전송률을 낮추면 음성분석구간이 길어져 음질의 저하가 발생하는데 이를 막기 위해 여기신호를 혼합 구조로 모델링한 것이다. MELP법은 2.4에서도 비교적 음질이 양호한 편이나 남녀노소 화자의 다양성, 언어적인 특성에 따라 음질의 평가가 다르게 얻어지고 있다.
AMBE 초저전송률 보코더법은 주파수 영역에서 음성신호를 부호화하는 방법이다. 다른 방법에 비해 음질이 양호하지만 공중전화망이나 배경잡음에 따라 음질의 영향이 크다는 단점이 있다.
국내기술 개발 중요 결론적으로 현재 정보통신분야에서 가장 보편적으로 사용되는 통신매체는 음성이다. 음성통신이 적용되는 통신시스템을 구성할 때 가입자의 메시지를 디지털로 변환하여 처리해야 한다. 이때 필요한 것이 보코더 기술이다. 음성통신이 필요한 분야는 멀티미디어통신, 인터넷폰통신, 영상회의통신, 육상이동통신 등이다. 이러한 음성통신분야 가입대상자는 전 세계인이어서 수요 또한 엄청나다고 할 수 있다.
CDMA (Code Division Multiple Access) 기술을 이용한 디지털 셀룰러 이동통신시스템의 상용화는 기존 아날로그 이동전화와는 또 다른 단계의 통신수단을 제공하고 있다. 이는 기술 선진국들도 실행을 망설였던 것으로 우리나라에서 처음으로 실용화한 것이다. 지금은 미국이나 일본에서도 차세대 방식으로 선정하고 있어 수요자 또한 크게 증가하고 있다. 그러나 CDMA기술의 핵심 요소기술들은 미국 퀄컴 (Qual Comm) 사의 기술에 전적으로 의존하고 있고 아직도 개선해야 할 문제점이 많다.
따라서 우리가 음성 압축 및 복원에 의한 보코더기술 연구개발을 범국가적인 과제로 수행해야 할 필요가 있다. 이 경우 외국기술에 의해 잠식된 보코더 관련 응용분야의 고부가가치 기술을 우리가 보유하게 되고 저대역 코딩분야의 국제적인 경쟁력도 갖춰지게 된다. 또 연구개발 결과를 통해 외국기술에 대응하는 지적재산권을 획득함으로써 엄청난 기술사용료 지불 문제점을 해결할 수 있게 된다. 특히 한국어 실정에 알맞는 보코더 알고리듬 개발을 통해 통화음질이 높아져 사용자의 서비스 개선은 물론 통신서비스분야의 대외경쟁력도 확보할 수 있게 된다.
< 배명진 裵明振 >
※ 출처 : 전자신문 테마특강 (http://www.etimesi.com)