18
제7장 텍스트와 음성의 연계 | 1 제7장 텍스트와 음성의 연계 디지털 정보통신 기술의 발전으로 우리 삶이 크게 변화하고 있다 . 식의 생산과 축적 , 그리고 , 유통과 활용의 방식도 이러한 변화의 물결에 서 예외가 아니다 . 1) 텍스트의 생산과 소비의 조건이 디지털 시대와 멀티 미디어 시대에 들어와 현저히 바뀌게 됨에 따라 자연스럽게 텍스트 개념 도 확장된다 . 이제 텍스트는 변화된 조건 속에서 자신의 물질적 한계와 , 공간의 제약을 넘어선다 . 고정적이고 불변하는 텍스트에서 시각적으 로 움직이는 역동적인 텍스트로 , 시작과 끝을 선형적으로 이어가는 완결 된 텍스트에서 파편화되고 개방된 텍스트로 확대된다 . 청각적 기능과 시각적 기능이 강조된 텍스트로 , 다른 매체를 수용하고 활용하는 텍스트 로 확장된다 . 언어는 음성으로 실현될 수도 있고 문자로 실현될 수도 있다 . 이 둘을 일반적으로 음성 언어 (구어)와 문자 언어 (문어 )로 구분하기도 하는데 , 그 명칭이나 분류 기준은 연구 관점에 따라 차이를 보인다 . 이전까지는 문자 언어가 음성 언어의 한계인 시간에 크게 영향을 받지 않기 때문에 , 1) 장노현 (2004:249) 은 디지털 정보화 시대에 지식을 획득 , 정리 , 유포하는 방식이 크게 변화고 있다는 점을 강조한다 .

제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 1

제7장 텍스트와 음성의 연계

디지털 정보통신 기술의 발전으로 우리 삶이 크게 변화하고 있다. 지식의 생산과 축적, 그리고, 유통과 활용의 방식도 이러한 변화의 물결에서 예외가 아니다.1) 텍스트의 생산과 소비의 조건이 디지털 시대와 멀티미디어 시대에 들어와 현저히 바뀌게 됨에 따라 자연스럽게 텍스트 개념도 확장된다. 이제 텍스트는 변화된 조건 속에서 자신의 물질적 한계와 시, 공간의 제약을 넘어선다. 고정적이고 불변하는 텍스트에서 시각적으로 움직이는 역동적인 텍스트로, 시작과 끝을 선형적으로 이어가는 완결된 텍스트에서 파편화되고 개방된 텍스트로 확대된다. 청각적 기능과 시각적 기능이 강조된 텍스트로, 다른 매체를 수용하고 활용하는 텍스트로 확장된다.

언어는 음성으로 실현될 수도 있고 문자로 실현될 수도 있다. 이 둘을 일반적으로 음성 언어(구어)와 문자 언어(문어)로 구분하기도 하는데,

그 명칭이나 분류 기준은 연구 관점에 따라 차이를 보인다. 이전까지는 문자 언어가 음성 언어의 한계인 시간에 크게 영향을 받지 않기 때문에,

1) 장노현(2004:249)은 디지털 정보화 시대에 지식을 획득, 정리, 유포하는 방식이 크게 변화고 있다는 점을 강조한다.

Page 2: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

2 | 프랑스어와 컴퓨터

전통적으로 문자 언어가 음성 언어보다 연구에 많이 활용되었다. 그러나 최근에는 음성 언어를 우위에 두려는 노력도 있다. 인간은 문자 언어 생활보다 음성 언어 생활을 오래 해 왔고, 특별한 훈련 없이도 음성 언어를 배우고, 글을 아는 사람 역시 음성 언어 생활에 많은 시간을 할애하고 있기 때문이다. 이렇듯 연구 관점이나 목적에 따라, 문자 언어나 음성 언어의 특성을 부각시킬 수 있다.

특히, 프랑스어 교육과정에서 텍스트(문자 언어)를 접목한 음성 자료(음성 언어)의 효용성을 부각해, 음성 코퍼스의 필요성을 강조할 수 있다. 음성 코퍼스는 음성 공학적 측면에서 많이 활용되는 것이 사실이지만, 학술적인 이용이나 외국어 교육 분야에서도 그 가치를 인정받고 있다. 최근, 언어 연구에 실제적 자료를 이용하는 자료 기반적 방법론이 언어학에서 중요한 위치를 다져 나가고 있다. 따라서 실제 언어현상을 반영하는 음성 코퍼스는 언어 연구에 중요한 기초 자료가 될 수 있다.

1. 코퍼스 기반 텍스트

최근에 와서 텍스트의 구조나 기호체계, 전달매체와 관련하여 좀 더 넓은 의미의 텍스트라는 용어가 사용된다. 사진이나 그림, 소리, 동영상 같은 것도 텍스트의 범주에 포함하려는 시도가 있는데, 이러한 텍스트의 개념 변화는 매체의 변화에 따라 텍스트의 개념도 함께 변화함을 보여준다. 여전히 텍스트의 근간을 이루는 매체로 문자가 선호되고 있지만, 하이퍼텍스트(Hypertext)의 등장으로 텍스트가 ‘글로 쓴’ 것이라는 생각이 바뀌고 있는데, 이는 텍스트 개념이 매체의 발달과 더불어 변화하고 확

Page 3: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 3

장되고 있기 때문이다.2)

텍스트의 개념이 이렇게 확대되면, 텍스트를 생산하고 소비하는 각 주체의 텍스트에 대한 시각 또한 달라진다. 텍스트가 포괄하고 있는 정보뿐만 아니라 텍스트 모양새 자체에 대한 관심이 증가하기도 하며, 자유롭게 수정 및 첨삭을 할 수 있는 텍스트로서의 개념, 즉 가변적, 임의적 텍스트로서의 개념이 부각된다. 특히, 인터넷으로 유통되는 거의 모든 정보의 구성 및 검색 양식이라 할 수 있는 하이퍼텍스트는 기존의 인쇄 텍스트에서 찾기 어려운 독특한 쓰기-읽기 특성을 보여 준다. 하이퍼텍스트의 독특한 양식은 기본적으로 종이에서 컴퓨터로 옮겨 가는 테크놀로지의 변화에서 유래한다. 특히 하이퍼텍스트는 정보 관리체계로서 뛰어난 효용성을 보인다. 하이퍼텍스트는 문서, 그림, 음성, 동영상 그리고 일반 프로그램 등과 다양한 유형의 정보를 조직하고 연계시키면서 저작 도구이자 검색 도구가 된다.3) [그림 1]은 ‘어린 왕자’를 멀티미디어와 연계시킨 다중코퍼스로 하이퍼텍스트의 특성을 잘 보여준다.

디지털 텍스트, 즉 하이퍼텍스트의 구조는 대단히 복잡하게 많은 자료를 상호 연결함으로써 매체의 한계를 훌쩍 뛰어넘는다. 정보 검색에서도 경직된 직선적 접근에서 벗어난다. 하이퍼텍스트를 읽는 것은 한없이 주석을 이어가거나 하나의 목표를 향해 망망대해를 항해하는 것에 비유된다. 유연하면서 비형식적인 하이퍼텍스트의 특성은 수많은 전산망과 여러 기관의 병렬적 연결체라 할 수 있는 인터넷에서 대단히 효율적인 정보 관리 능력을 발휘한다.

2) 김요한(2004:180)은 하이퍼텍스트의 등장으로 전통적인 텍스트 개념이 변하고 있다고 생각한다.

3) 김진량(2005:41)은 하이퍼텍스트가 풍부한 자료를 상호 연계시켜 매체의 한계를 뛰어넘을 수 있게 한다는 점을 부각시킨다.

Page 4: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

4 | 프랑스어와 컴퓨터

[그림 1] 텍스트, 음성, 그림 등이 연계된 하이퍼텍스트

텍스트의 기술적, 사회적 변화는 텍스트의 형질 자체를 변화시킨다.4)

기술적인 면에서 디지털 정보 처리 방식은 텍스트를 비물질적인 것으로 만들어 역동적이고 분산, 파편화된 텍스트로, 문자 그대로 텍스트를 하이퍼텍스트로 만든다. 내용적인 면에서 멀티미디어의 사용과 네트워크의 확장으로 텍스트가 좀 더 복합적인 감각의 세계로, 사회적 관계의 의미망 속으로 편입된다. 전통적인 문자 중심의 텍스트에서 디지털 시대의 하이퍼텍스트로 텍스트의 형질이 바뀌는 이러한 변화가 앞으로 어떠한 방향으로 전개될지 주목된다. 문자 텍스트가 커뮤니케이션의 중심에서 점점 멀어지면서, 하이퍼텍스트가 가지고 있는 효용성은 더욱 확대될 것이다. 디지털 매체와 정보통신 기술이 발전하면서, 지식을 새로운 방식으로 재구성하고 유형화하려는 경향이 나타난다. 매체의 형식이 매체 내용의 변화를 유도하고 있는 셈이다.

텍스트를 정의하는 관점에 따라 다르기는 하지만, 전통적인 인쇄 텍스트는 시작과 끝이 분명하다. 시작과 끝이 있는 텍스트는 독서과정에서

4) 신형욱(2004:20)은 텍스트 연구는 목적에 따라서 다양한 측면에서 접근할 수 있으며, 텍스트의 정의에 따라서 그 연구 범위도 달라질 수 있다고 생각한다.

Page 5: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 5

출발점이 있고 면마다 번호가 매겨져 있으며 마지막 끝나는 부분이 정해져 있다. 다시 말해 선적인 구조를 가진다. 이러한 선형적인 독서와 달리 하이퍼텍스트로 작성된 텍스트는 단일한 시작과 종결 대신 다수의 시작과 종결을 제공한다.5) 하이퍼텍스트는 전통적인 텍스트와 달리 개방적이다. 하이퍼텍스트는 비계열적 구조와 자유롭게 연계될 수 있기 때문에, 학습자에게 자기 주도적이고 풍부한 학습 환경을 제공할 수 있다는 점에서 기존의 계열적 텍스트와 구분된다. 하이퍼텍스트와 같은 디지털 텍스트는 일반적으로 몇 개의 노드(node)가 서로 연결된 구조를 보인다.

각 노드는 그 자체로 일련의 기호 연쇄이며, 노드와 노드는 서로 연결됨으로써 더욱 큰 단위의 기호 연쇄를 만들어낼 수 있다. 하이퍼텍스트는 최초의 제한된 노드 연결 관계를 통해 훨씬 더 많은 노드 연결의 조합을 만들어 낼 수 있는 구조적 특성이 있다.

이들 자료를 교육에 활용하려면, 대규모 코퍼스가 필요한데, 단순히 양적인 차원에서 경제성이 있는 언어와 문화에 관련된 대규모 데이터베이스 구축에만 관심을 보이는 교육 현실을 고려할 때, 프랑스어와 같이 소외된 교과목의 독창성을 살릴 수 있는 지식의 체계화와 구조화 방법을 교수자가 직접 찾을 수밖에 없다.6) 외국어 교육 현장에서 쉽게 활용할 수 있는 디지털 텍스트의 구조와 가공처리에 대한 깊은 통찰을 통해,

프랑스어 교육에 유용한 텍스트 코퍼스를 구축할 수 있을 것이다.

5) 이태수(2003:171)는 전통적인 텍스트와 하이퍼텍스트의 선형적, 비선형적 구분이 독서법에 따라 모호할 수 있다고 생각한다.

6) E. Bruillard et B. de La Passardière(1998:104)는 인터넷에서 차용한 정보를 교육적으로 활용할 때, 정보의 효용성과 적절성을 반드시 평가해야 한다고 생각한다.

Page 6: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

6 | 프랑스어와 컴퓨터

2. 텍스트의 정보처리 과정

디지털 텍스트를 프랑스어 교육에 활용하려면, 학습용 텍스트 코퍼스를 먼저 구축해야 한다. 텍스트 코퍼스를 구축할 때, 자료의 특성을 잘 파악하여 단순하게 하이퍼텍스트로 제작할지 독립된 코퍼스로 제작할지 결정해야 한다. 왜냐하면, 따올 자료의 성격에 따라 코퍼스 구축 방법이 달라지기 때문이다.7) 문학작품 텍스트와 같이 제작된 내용을 그대로 차용할 수 있는 고정된 코퍼스가 있는가 하면, 신문이나 라디오와 같이 매일 변하는 자료를 제시하는 매체도 있다. 이런 가변적인 매체에서 그때그때 자료를 차용해 두지 않으면, 필요한 자료를 얻을 수 없다. 학습 자료를 필요에 따라 적절하게 차용해두어야, 학습자의 선택 폭을 넓힐 수 있는 코퍼스를 구축할 수 있다.

특히 음성 코퍼스는 특성상 단순히 음성을 기록하여 보존하는 것만이 아니라 어떤 음성이 어디에 보존되어 있는가 하는 색인정보도 가지고 있다. 따라서 특정 단어 또는 문장을 바로 음성으로 들어볼 수도 있고,

어떤 음소열이나 음운현상을 포함한 음성자료를 임의로 검색해 볼 수도 있다. 검색이 가능하도록 언어학적인 여러 부가정보를 부여해야 하는 데, 이것을 주석 달기(étiquetage)라고 한다. 주석의 단위로는 음소, 단어,

어절, 문장 등이 있을 수 있다. 단어나 그 이상을 단위로 할 경우는 비교적 큰 문제는 없지만, 음소 이하의 단위로 주석을 달 경우는 시간적으로 연속된 파형 상에서 그 구분을 정하기가 쉽지 않다. 따라서 연구자가 공동으로 사용할 수 있는 일정한 기준을 마련해 두어야 한다.

7) C. Reffay et al.(2008:8)에 따르면, 코퍼스는 구축 목적에 따라 교육용과 연구용으로 나뉠 수 있다.

Page 7: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 7

BREF 코퍼스의 선정 기준을 살펴보면, 텍스트 코퍼스 전처리 과정을 통해 불필요한 헤더 정보를 삭제하고, 단락 정보만 유지하고 있다. 문장의 선택 기준은 읽기 쉬운 문장을 중심으로 너무 짧거나 긴 문장은 삭제하였다. 또 약어 또는 자주 쓰이지 않는 고유명사 등을 포함한 문장은 삭제하였다. 음성 코퍼스를 구축할 때, 지시 수행능력, 발성의 유창함,

발성속도 그리고 발성 에러율을 고려하여 발화자를 90명으로 한정하였다. 어휘 선정 기준은, 주로 고빈도 5,000단어 수준의 것과 20,000단어 수준의 것을 고려하였다. 이처럼 음성자료에 대한 전사 과정에서 우선 고려해야 할 것은 전사 단위와 같은 분류기준이다. Valli(1999:7)는 주석 과정을 [그림 2]와 같이 도식화하였다.

Corpusoral Pré-édition Etiquetage Post-édition

Corpusétiqueté➡➡➡➡

[그림 2] 주석 과정

RFI 뉴스는 실제적인 음성자료를 제공하기 때문에, 인위적으로 발화자를 선정할 필요도 없고, 위에서 제시했던 기준을 따로 설정할 필요도 없다. 문제는 어휘설정 기준이다. 즉, 문장에 포함된 단어의 종류와 문장의 길이, 복잡도 등을 고려해야 한다. 특히, RFI 뉴스에 나타나는 어휘가 과연 프랑스어 교육에 유용한 것인지는 전적으로 교수자가 판단해야 할 문제로 남는다. 또, 음성자료는 시간의 함수로 존재하기 때문에, 음성자료를 효율적으로 활용하기 위해서는 연구 목적에 맞는 다양한 단위로 전사가 이루어져야 한다. 예를 들어 문법에 대한 연구를 수행하기 위한 자료라면, 문장 단위의 철자법 전사가 이루어져야 할 것이다. 하지만 연

Page 8: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

8 | 프랑스어와 컴퓨터

구가 어휘와 관련된 것이라면 단어 단위의 주석이 필요할 것이다. 물론 분절음적인 속성을 구체적으로 알아보기 위한 연구에 활용하려 한다면,

최소한 분절음 이하의 단위로 주석이 달려 있어야 할 것이다. 다양한 주석 유형을 Veronis(2000:4)는 [그림 3]과 같이 제시하고 있다.

GrammaticalePhonétique MultilingueSémantique

Types d'annotation

Transcription

Prosodie

Parties du discours

Syntaxe

Mots

Discours

Phrases

Mots

[그림 3] 다양한 주석 유형

음성 코퍼스 구축은 텍스트 코퍼스 구축보다 자료구축 방법이나 기준이 까다롭다. 즉, 음성자료를 특정 목적에 따라 수집하려 할 때, 생각보다 훨씬 많은 시간과 노력이 필요하다. 음성자료를 연구 목적에 맞도록 구상하여 수집하는 일에서부터, 수집한 자료에 주석을 달아 두는 일, 달린 주석을 효과적으로 활용하는 일 등등, 한마디로 품이 많이 든다. 이뿐만 아니라 음성 언어는 문자 언어보다 훨씬 많은 양의 정보를 가지고 있으므로, 어떤 종류의 정보에 대한 주석을 얼마나 자세히 달 것인가를 결정하는 작업이 음성 코퍼스 구축에 선행되어야 한다.

음성 코퍼스의 구축은 이처럼 연구 목적에 따라 간단한 주석 작업을 요로 하기도 하고, 아주 복잡하고 세밀한 주석 작업을 필요로 하기도 한다. 따라서 가능하면 음성 코퍼스는 공유되어야 하며, 그 주석 작업도 표준화될 필요가 있다. 이러한 이유로 주석 작업의 표준화는 음성자료의 정보화에 필수적인 사항이 된다. 전사 기호의 통일에서부터 전사 도구의

Page 9: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 9

표준화까지 다양한 차원에서의 표준화가 필요하다. 현재 각국에서 표준화된 주석 작업이 진행 중이다. XML 기반의 음성 인터페이스는 단어와 단문을 인식할 수 있는 단계에 와 있으며, 앞으로 자연스러운 대화체 인식 및 합성이 가능해질 것으로 보인다.8) 특히, XML 형식으로 구축된 코퍼스는, Total Recoder, Speech Analyse, TreeTagger, Synapse,

Contextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석, 형태소 분석 및 검색 등, 다양하게 프랑스어 교육에 활용될 수 있다.

[그림 4] Total Recoder와 Speech Analyse로 음성자료를 편집-분석한 예

일차적으로 XML 형식으로 구축된 텍스트와 음성자료에서 필요한 어휘나 문장을 검색하여, [그림 4]와 같이 음성편집 프로그램인 Total

Recoder로 음성자료를 추출한다. 추출한 음성자료를 음성분석 프로그램인 Speech Analyse로 시각화한다.9) 음성의 시각화는 프랑스어 교육에서 학습자가 흔히 범하기 쉬운 리듬, 억양, 악센트의 변화를 쉽게 포착할 수 있어, 발음교정에 효과적이다.10)

8) TTS 사이트 주소 http://www.research.att.com/~ttsweb/tts/demo.php, TTS 사이트에서 아직은 자연스러운 음성을 들을 수 없다.

9) Total Recoder 사이트 주소 http://www.highcriteria.com/, Speech Analyse 사이트 주소 http://www.sil.org/computing/speechtools/

Page 10: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

10 | 프랑스어와 컴퓨터

현재 인터넷상의 웹 브라우저와 같은 정보검색시스템에서의 음성출력기술은 주로 원 음성을 재생시키거나 압축된 음성을 복원하여 재생시키는 방법이 주를 이룬다. 그러나 사용자가 검색하는 정보는 대부분 텍스트이기 때문에, 이를 음성자료로 변환하기 위해서 문장-음성변환(TTS) 시스템이 필요하다. 점차 TTS 시스템의 명료도와 자연성이 향상되면서, 화자의 감정 상태, 다양한 화자의 음색 수용, 다국어 합성 등,

TTS의 기능도 제한된 음색이나 언어를 벗어나 그 영역을 확장하고 있다.

또 TTS가 음성합성 기술이나 자동번역시스템과 연계되어 다양한 연구가 진행되고 있다.11)

그러나 인터넷을 통한 정보검색시스템에 TTS를 적용할 경우, 다수 사용자의 요구사항을 반영해야 하며, 텍스트 형식도 매우 다양하므로 정밀한 텍스트 처리 기술이 요구된다. 또 이러한 서비스는 극히 제한된 영역의 텍스트만 처리할 수 있어, 실제 정보검색의 결과를 음성으로 출력시키는 서비스에는 적용할 수 없다. 이런 어려움 때문에 본 연구에서는 TTS 시스템을 사용하지 않고, 텍스트와 연계된 실제 음성자료를 코퍼스로 구축하였다. 이렇게 하면, 텍스트와 음성자료 간의 긴밀한 관계를 생생하게 보여줄 수 있어, 프랑스어 교육에서 음성자료의 실제성을 충분히 살릴 수 있다.

10) 유혜옥 (2005:140-142)과 고영림 (2002:10)은 리듬패턴의 중요성을 강조하고, 박문규 (2005:100-110)는 WinPitch를 이용하여 발음교정 방법을 제시하고 있다. Praat 사이트 주소 http://www.fon.hum.uva.nl/praat/, WinPitch 사이트 주소 http://www. winpitch.com/

11) 음성이 STT(Speech-to-text) 엔진에 의해 텍스트 형태로 바뀌고, 이것이 쿼리로 전달되어 검색 엔진을 통해 답변이 도출되고, 이것이 다시 TTS (Text-to-speech) 엔진에 의해 음성으로 변환되어 사용자에게 말로 전달될 수 있다. 여기에 자동번역기가 연계되면, 외국인이 서로 자국어로 통화가 가능해질 것이다.

Page 11: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 11

XML 형식으로 구축된 음성 코퍼스는 텍스트와 연계되어 있어서, 음성자료와 텍스트 분석을 통해, 음성 코퍼스의 어휘구조와 통사구조를 쉽게 파악할 수 있다. Transcriber에서 필요한 텍스트를 추출하여,

TreeTagger나 Synapse(유료)와 같은 형태소 및 통사 분석 프로그램으로,

추출한 문장의 어휘, 통사, 의미구조를 파악함으로써, 이 문장이 음성으로 어떻게 실현되는지 체계적으로 파악할 수 있다. 특히 음성자료가 이들 어휘- 통사구조와 밀접하게 연계되어 있다는 점을 강조하면서, 프랑스어 교육과정에서 텍스트와 연계된 음성 코퍼스의 필요성을 부각시킬 수 있다.12)

일차적으로 프랑스어 학습자가 텍스트의 어휘-통사구조를 알아야, 음성변화를 잘 이해할 수 있기 때문에, TreeTagger와 같은 형태소분석기를 활용하여 텍스트의 의미를 파악한 다음, 이것을 음성자료와 연계시켜야,

프랑스어 학습에 도움이 될 수 있을 것이다. 그러나 이런 자료가 많이 쌓이게 되면, 체계적으로 관리할 프로그램이 필요하다. 즉 많은 음성 코퍼스를 검색할 프로그램이 필요하다. 물론 Contextes와 같은 텍스트 검색 프로그램을 사용할 수 있다.13) 이 프로그램을 사용하면, 특정 코퍼스에서 필요한 어휘나 문장을 검색할 수 있다. 그러나 코퍼스 단위가 커지면, 독립된 프로그램으로 활용하기 어렵다. 이런 문제를 해결하기 위해,

제3장에서 텍스트 검색 프로그램을 제시하였다.

검색 프로그램을 활용하면, 어휘나 문장이 어디에 수록되어 있는지 검색한 후, 텍스트와 연계된 음성 코퍼스에서 해당 자료를 찾을 수 있다.

더 나아가, 형태소 분석기를 활용하면, 문장의 어휘-통사 구조를 파악한 12) TreeTagger 사이트 주소 http://www.cele.nottingham.ac.uk/~ccztk/ treetagger.php,

Synapse 사이트 주소 http://www.synapse-fr.com/13) Contextes 사이트 주소 http://www.up.univ-mrs.fr/~veronis/ logiciels/Contextes/

Page 12: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

12 | 프랑스어와 컴퓨터

후, 그 문장의 음성자료를 어휘-통사 구조와 연계시켜 의미를 파악할 수 있어, 실제적인 언어자료에서 프랑스어 학습에 필요한 정보를 얻을 수 있다.

정밀한 주석이 달린 음성 코퍼스가 만들어지고 이것이 공유된다면,

이를 활용한 프랑스어 교육에 새로운 방안을 제시할 수 있을 것이다.

요즈음 음성 코퍼스를 구축할 수 있는 도구가 인터넷을 통해 무료로 보급되고 있어서, 정확한 기준만 정하면, 음성 코퍼스의 구축과 활용이 더욱 수월해 졌다.

이렇게 구축된 코퍼스는 음성분석 프로그램이나 형태소분석 프로그램 또는 검색 프로그램에서 유용하게 활용될 수 있다. 또 Transcriber로 구축된 코퍼스는 XML 주석으로 저장되기 때문에, XMLSpy와 같은 전문 XML 프로그램을 활용하여, 독립된 분석 프로그램으로 개발할 수도 있다.14) 본 연구에서는 하루 단위로 구축된 음성 코퍼스의 검색을 원활하게 하려고, [그림 5]와 같이 월 단위나 년 단위 등으로 통합된 자료에서 어휘를 검색할 수 있는 텍스트 코퍼스 검색프로그램도 함께 구축하였다.15)

14) Transcriber의 사이트 주소 http://trans.sourceforge.net/, XMLSpy의 사이트 주소 http://www.altova.com/download.html

15) http://myungwan.chonbuk.ac.kr/rfi2007/rfi2007에서 내용을 확인할 수 있다. 일차적으로 2007년 11월, 한 달 분량을 텍스트 코퍼스로 구축하였다.

Page 13: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 13

[그림 5] 통합 검색 프로그램

이뿐만 아니라, 이들을 제시할 플랫폼도 필요한 주소만 하이퍼링크시키는 창과 코퍼스를 직접 제시하는 창으로 분류해서 제작할 필요가 있다. 프랑스어 교육을 위해 학습 자료를 병렬 코퍼스로 구축하면, 학습자가 필요한 자료를 쉽게 얻을 수 있어 외국어 이해능력을 심화시킬 수 있다. 학습용 코퍼스를 구축할 때, 인터넷상에서 항시 얻을 수 있는 자료라면, 관련된 주소를 하이퍼링크시켜 독립된 코퍼스 구축의 부담을 줄일 수 있다. 그러나 매일 변화하는 매체에서 학습 자료를 차용해야 한다면,

이들을 필요에 따라 특수 목적의 코퍼스로 구축해야 한다. 이때 어떤 형식으로 자료를 구축할지 결정해야 하며, 유동적이지 않은 자료와 이들 코퍼스를 어떻게 연결할지도 미리 염두에 두어야 한다. 학습 자료를 디지털 매체가 갖는 하이퍼텍스트, 상호작용성, 네트워크성과 연계시켜 코퍼스로 구축하면 학습자가 좀 더 효율적으로 코퍼스를 활용할 수 있을 것이다.16)

디지털 텍스트는 학습 자료의 특성과 무관하게 저작도구의 특성에 따

Page 14: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

14 | 프랑스어와 컴퓨터

라 다양하게 제작될 수 있다. 일반적으로 PDF, HTML, XML이나 특정 데이터베이스 형식을 취해 학습용 코퍼스를 구축할 수 있다. 이런 언어를 활용하면, 정적 또는 동적으로 학습 자료를 구현할 수 있다. 먼저,

정적인 학습 자료는 이미지나 텍스트와 같은 고정된 형식으로 제작된다.

이와는 달리 동적인 학습 자료는 동영상이나 움직이는 그림 파일, 움직이는 텍스트, 소리 등으로 제작된다.

코퍼스를 자료 제시 방식에 따라 분류해보면, 전체적으로 학습 내용을 제시하여, 내용을 장절 단위로 일괄 제시하고 스크롤 바를 사용하는 방식이 있고, 이와는 달리 학습 자료를 나누어 내용을 화면 단위 혹은 문단 단위로 나누어 제시하는 방식이 있다. 또 자료를 단순히 연결해 학습 내용을 일정한 단위로 분지하는 방식이 있다. 이상과 같은 분류 이외에도 다양한 분류 방법이 있을 수 있다. 본 연구에서는 프랑스어 학습용 코퍼스를 제시할 때, [그림 6]과 같이 플랫폼에서 학습자가 단순히 학습 자료를 활용하는 구조와 교수-학습자 또는 학습자가 자발적으로 제작한 자료를 올려놓을 수 있는 가변적인 구조, 모두를 제시하고 있다. 프랑스어 학습에 필요한 자료를 항구적인 자료와 가변적인 자료로 분류해 학습자에게 제시하여 이들이 교수-학습 과정에 능동적으로 참여할 기회를 제공할 수 있었다.

16) 윤여탁 외 4인(2008:93-96)은 디지털 매체에서 하이퍼텍스트, 상호작용성, 네트워크성이 주요한 특성이라고 생각한다.

Page 15: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 15

[그림 6] 학습 자료 제시 방법

텍스트 코퍼스를 제시할 때, 어휘목록에서 문장 추출 작업, 문장 병렬대응 등을 수행할 수 있는 검색프로그램도 제공했다. 본 연구에서는 [그림 6]과 같이 문장 추출 작업이 쉬운 검색프로그램을 코퍼스와 연계시켰다. 구축된 텍스트 코퍼스에 필요한 단어나 표현을 프로그램 포맷에 맞게 입력하면, 대상이 되는 단어나 어휘가 쓰인 문장을 모두 나열해 준다.

일반적으로 키워드를 중심으로 하여 문장을 표제어 형식으로 보여주는 표제어 색인 형식이 널리 쓰인다.

위와 같이 프랑스어 학습용 코퍼스를 개발하려면, 먼저 코퍼스 모형탐색과 설계 및 개발전략을 세워야 한다. 이뿐만 아니라, 코퍼스를 운용할 플랫폼에 대해도 생각해야 한다.17) 학습용 플랫폼은 결국 코퍼스가 학습자에게 전달되는 운영체제나 소프트웨어 및 하드웨어에 대한 전반적인 내용을 담고 있다. 본 연구에서는 이런 점을 고려하여, [그림 7]과 같이 학습자가 수업 시간에 디지털 텍스트를 쉽게 활용할 수 있게, 교과 과목별로 텍스트 코퍼스를 구축하였다.18)

17) T. Chanier et M. Ciekanski(2010:11)는 교육용 코퍼스 구축 과정에서 정보의 상호작용성을 보장할 수 있는 기술적 환경을 만들어야 한다고 주장한다.

Page 16: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

16 | 프랑스어와 컴퓨터

[그림 7] 학습자가 코퍼스를 선택하여 학습 자료를 입력한 예

이런 연구가 실제적인 교수-학습 활동에 대해 지침을 제공하거나 다양한 교수-학습 과정을 수행할 수 있는 기반을 제공할 수 있을 것이다.

본 연구에서는 교수-학습 활동의 기반이 되는 디지털 텍스트가 하이퍼텍스트, 상호작용성, 네트워크성과 갖는 연계관계를 부각시키면서, 코퍼스의 효용성을 강조하려고 한다.

특히, 텍스트 코퍼스의 분지화 과정에서 텍스트 분열과 쪼개짐 그 자체를 강조할 필요는 없다. 오히려 끝없이 확장되어 가는 텍스트를 만드는 데 필요한 과정 정도로 생각할 수 있다. 분지화의 다음 단계는 연결,

통합, 확장의 단계이다. 링크 아이콘과 같은 가상적 표지에 의해 분지화된 텍스트를 연결해 나가는 것이다. 이러한 연결은 계층적으로 또는 비계층적으로 연결의 가능성이 훨씬 증폭된다. 즉 텍스트 코퍼스에서 분지화된 텍스트는 느슨하게 얽힌 정보와 연계된다. 그리고 그 연결 과정은,

인간의 연상적 사유만큼이나 무한정 계속될 수 있다.

18) 본 연구에서는 3학년 과목인 ‘프랑스어 음운분석’과 4학년 과목인 ‘인터넷 프랑스어’ 수업에 활용한 코퍼스를 예로 제시하였다.

Page 17: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

제7장 텍스트와 음성의 연계 | 17

하이퍼텍스트의 무한정 반복되는 구조적 단점을 극복하고 정합성을 유지하려는 방법으로 공간적 메타포, 그래픽 브라우저, 구조화된 목록 등의 탐색도구 사용이 제안되고 있다. 이들을 이용하며 노드 간의 정보를 연결해서 의미 있는 정합성을 유지하고, 나아가서 적절한 코퍼스를 구축할 수 있다. 그러나 자율성이 강조되는 디지털 텍스트를 활용한 교수-학습 과정에서 인지처리 부담을 줄이고 정합성을 높이려면 적절한 탐색 도구의 개발뿐 아니라, 학습자가 정보를 쉽게 통합하고 이해할 수 있게 도와주는 적극적인 학습전략이 필요하다.

이렇게 복잡하게 구조화된 디지털 텍스트는 매체가 전달하는 정보를 계합적이고 통합적으로 연계시킨다. 하지만 우리가 디지털 텍스트를 단순하게 인식할 수 있는 것은 여러 기술이 복합적으로 작용한 결과이다.19) 디지털 기술에 의존하는 매체 환경과 매체를 활용하는 재현 기술은 무엇보다도 텍스트의 표상에 초점을 맞추고 있다. 이는 무언가를 드러내는 표상 행위가 디지털 매체를 통해 구현되고, 매체가 텍스트 구조와 구성 원리를 규정한다는 전제에서 출발한다. 이뿐만 아니라, 디지털 매체의 속성은 물질적이라기보다 추상적인 논리 형식 또는 수학적 체계라 할 수 있다. 디지털 매체의 원형적 형태는 컴퓨터 프로그램으로 작동하는 코드에서 확인할 수 있다. 디지털 텍스트 형태로 표현된 것은 비트의 조합으로 형성된 코드의 형태를 단순하게 재현한 것이라 하겠다.

아울러 이러한 속성으로부터 우리가 흔히 말하는 ‘상호작용성’이나 ‘학습자 참여’와 같은 특성이 규정된다.20) 디지털 매체의 이런 속성 때

19) C. Tricot et C. Bastien(1996:8)은 하이퍼텍스트를 정보의 선택, 평가, 처리 등과 연계시켜 설명한다.

20) 김도남(2005:146)은 텍스트 구성이 상호텍스트적으로 이루어져 있을 때, 텍스트를 이해하는 데 효과적이라고 생각한다.

Page 18: 제7장 텍스트와 음성의 연계 - myungwan.chonbuk.ac.krmyungwan.chonbuk.ac.kr/frcom/frcom_07.pdfContextes, ELAN 등과 같은 보조프로그램을 활용하여, 음성분석,

18 | 프랑스어와 컴퓨터

문에, 지식정보의 생산, 처리, 유통에 관련된 수많은 분야가 학제적인 접근을 통해 돌파구를 찾을 수 있다. 특히, 디지털 텍스트가 네트워크와 연계되면서 교수-학습자 사이에 놓여있는 경계가 자연스럽게 무너지고 자유로운 소통의 장이 열린다. 이 때문에 텍스트는 공간적으로 가변적인 성격을 띠게 되며, 교수-학습자는 시간상으로 동시적인 선상에 놓인다.

웹을 기반으로 하는 외국어 교육 과정에서 교수-학습자의 상호작용성은 아주 중요하다.21) 그러나 교수-학습 과정에서 상호작용성의 효과에 대해서는 객관적으로 검증할 수 있는 장치가 없어서, 이론이 분분한 실정이다. 교수-학습의 효과와는 별개로 디지털 텍스트의 네트워크성은 디지털 매체가 상호 연계될 수 있어, 교수-학습자의 상호 의사소통 기능은 확인할 수 있다.

21) 김명관(2010:45)은 외국어 교육 과정에서 상호작용성이 중요하다는 점을 강조한다.