30
TEMA 3. LOS SISTEMAS DE RECONOCIMENTO AUTOMÁTICO RECONOCIMENTO AUTOMÁTICO DEL HABLA DEL HABLA 1

TEMA 3. LOS SISTEMAS DE RECONOCIMENTO …liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recognition/... · identificación de los parámetros ... dans la tradition avec le

  • Upload
    lexuyen

  • View
    214

  • Download
    2

Embed Size (px)

Citation preview

TEMA 3. LOS SISTEMAS DE RECONOCIMENTO AUTOMÁTICO RECONOCIMENTO AUTOMÁTICO

DEL HABLADEL HABLA

1

Esquema Esquema 1 Introducción1. Introducción2. Características de los sistemas de reconocimiento

t áti d l h blautomático del habla3. Técnicas para el reconocimiento automático del habla4. Estructura de los sistemas de reconocimiento5. Ejemplos5. Ejemplos6. Aplicaciones del reconocimiento automático del habla

2

0 Introducción0. IntroducciónReconocimiento automático del habla

Si t d ió t áti d l h bl Sistema de comprensión automática del habla.= Sistema que transforma la señal de habla humana en una acción:

texto (dictado automático)- texto (dictado automático)- anotación, indexación (y recuperación) de una información

en un documento sonoroen un documento sonoro- otras acciones (comando vocal, etc.)

Transformar señal de habla en representación simbólicaDel habla... ... al texto

3

Léonard a peint la Joconde.

0 Introducción0. IntroducciónÁmbitos relacionados con el reconocimiento automático del

habla:habla:

- Corrección fonética en aprendizaje en autonomía de lenguasp j gextranjeras

- Identificación automática del locutor- Reconocimiento automático de la lenguaY, más allá:

Comprensión automática del habla- Comprensión automática del habla

4

0 Introducción0. IntroducciónEvolución del reconocimiento automático del habla:

5

1. Decisiones previasCaracterísticas

Para crear una nueva aplicación de reconocimiento automático Para crear una nueva aplicación de reconocimiento automático del habla:

1. Definición de la utilidad de la aplicación, de las características del usuario yrealización de tests por medio de una interfaz para verificar si el conceptoestá adaptado al entorno de la aplicación.

2. Definición de los mensajes o del tipo de mensajes que deben ser2. Definición de los mensajes o del tipo de mensajes que deben serreconocidos por el sistema (conjunto finito o no de palabras o de frases,tamaño del diccionario, etc.).

3 Determinación del entorno: micro canal de transmisión ruidos etc3. Determinación del entorno: micro, canal de transmisión, ruidos, etc.4. Determinación de la variabilidad de la señal a reconocer

(robustez/versatilidad).

65. Tests

2. Principales dificultadesCaracterísticas

Dificultades del reconocimiento automático del habla:1 C tid d d i f ió t t1. Cantidad de información a tratar2. Variabilidad de información a tratar

• Variabilidad de entornosVariabilidad de entornos• Variabilidad fonética:

cantado -> cantao; médecin -> métcin...V i bilid d i t l t• Variabilidad inter-locutor

• Variabilidad intra-locutor• Variabilidad de tipos de habla

9 realizaciones de /a/ producidas por el mismo locutor

• Información prosódica: Vamos! / Vamos?; Vaya monos / vayámonos• Desambiguación por razones sintácticas o semánticas: Le président a parlé /

Le présidant a par les; Il l’a chanté / Il l’a chanter / Il l’a chantez / Il l’a chantée /

7

p p ;etc.

3. Decisiones y dificultadCaracterísticas

-Tipo de enunciados: palabras aisladas palabras conectadas detección palabras clave habla continua habla espontánea

- Número de locutores:monolocutor multi monolocutor independiente del locutormonolocutor multi-monolocutor independiente del locutor

- Tamaño del léxico:restringido especializado generalistarestringido especializado generalista

- Entorno:silencioso ruidoso (ruido previsible) ruidoso (ruido aleatorio)

- Perfil de los usuarios:entrenado habitual ocasional naïf

8

1. Modelos para el RAH Técnicas

- Modelo de producción (articulación): aplicación de la teoríaModelo de producción (articulación): aplicación de la teoríaacústica de producción del habla para inférir las característicasarticulatorias.

- Modelo acústico: aplicación de los conocimientos en análisisacústico del habla y en tratamiento de la señal.M d l diti li ió d l d l l- Modelo auditivo: aplicación de los modelos cocleares yneuronales y de los detectores auditivos de rasgos acústicos.

- Modelo perceptivo: aplicación de los modelos de percepción delModelo perceptivo: aplicación de los modelos de percepción delhabla y de extracción de rasgos fónicos perceptivos.

- Modelos estocásticos: no basados en conocimientos fonéticos.

9

1. Modelos para el RAH Técnicas

Históricamente:- Años 70: métodos basados en conocimiento (descodificación

ú ti f éti )acústico-fonética).- Finales años 70: reconocimiento de palabras aisladas,

programación dinámicaprogramación dinámica.- Años 80: Modelos Escondidos de Markov (HMM)- A partir de los años 90: habla continua, grandes léxicos,p g

adaptaciones.

10

2. Principio del RAHTécnicas

Fase de entrenamiento:Fase de entrenamiento:- Adquisición de datos etiquetados- Extracción de características- Creación de los “modelos” de referenciaFase de reconocimiento automático:

Ad i i ió d l ñ l- Adquisición de la señal- Comparación de la señal con los “modelos”- Cálculo de las distancias entre los “modelos” y la señalCálculo de las distancias entre los modelos y la señal

(similaridad)- Proceso(s) de decisión

11

2. Principio del RAHTécnicas

Depende de:Depende de:a) Tipo de reconocimiento

- Palabras aisladas- Palabras clave- Grandes léxicos

P l b ti / tá- Palabra continua / espontáneab) Técnicas de comparación

- Señal continua (parametrizada o no)Señal continua (parametrizada o no)- Señales discretas

12

3. Señal de hablaTécnicas

Conversión analógico-digitalFrecuencia de muestreo: teorema de Nyquistyq

13

3. Señal de hablaTécnicas

Calidad de la señal: Relación señal sobre ruido (RSR)

14

4. ParametrizaciónTécnicas

Generalidades:- Análisis en ventana deslizante (30 ms.) con recubrimiento- Filtro pasa-bajo (8kHz)t o pasa bajo (8 )- Pre-acentuación (disminución de la dinámica del espectro)- Eliminación de la componente continua ( no información

inútil))

Principales tipos de métodos de parametrización:- Espectrales: raramente utilizados directamente- LPC (Linear Predictive Coding): Modelo autoregresivo;

principio: eliminar la redundancia temporal de la señal. Basadosobre modelo articulatorio de fuente y filtro.

- PLP (Perceptually-based Linear Prediction): Inspirado en modelos de percepción, intensidad percibida depende de la frecuencia (± escala de Bark o de Mel):

MFCC (M l F C t C ffi i t )15

- MFCC (Mel Frequency Cepstrum Coefficients)- DTW (Dynamic Time Warping)

5. Descodificación acústico-fonéticaTécnicas

16

5. Técnicas de comparaciónTécnicas

Técnicas de comparación:a) Señal continua (parametrizada o no)) (p )

• Comparación entre la señal y el modelo de referencia (< fase deentrenamiento)

• Determinación de la distancia entre la señal y el modelo de referencia• Proceso de decisión sobre similitud entre las 2

• Si parametrizada: señal y “modelo” representados por conjunto deparámetros• frecuenciales: formantes, coeficientes LPC, espectro de energía por

bandas frecuenciales• Temporales (Δ impulsiones de f0, pasos por 0, envolvente de amplitud)

b) Señales discretas• Segmentación (y concatenación) de los segmentos a partir de la

17identificación de los parámetros acústicos de los segmentos sucesivos.

5. Técnicas de comparaciónTécnicas

18

5. Técnicas de comparaciónTécnicas

19

Estructura 1. Reconocimiento de palabras aisladasComparación de señales contínuas

Digitalización de la señal Detección principio y final palabra

Comparación Codificación > pattern

atos

elas

cara

ct.

atte

rns r

ef. Diccionario

de patterns

enam

iento

Cálculo Δ (pattern señal / patterns dico)

dqui

sició

n de

dEx

tracc

ión

deCr

éació

npa

Fase

de e

ntre

Decisión de reconocimiento

AdF

20Output (escrito, acción...)

Estructura 2. Reconocimiento de grandes léxicos

Mismo principio que para el reconocimiento de palabrasMismo principio que para el reconocimiento de palabrasaisladas, pero se necesita:

- Definir unidades subléxicas- Clasificar previamente las entradas léxicas del

di i idiccionario

21

Estructura 3. Reconocimiento de habla continua

Necesidad de decodificación acústico-fonética Necesidad de:

- Definir las unidades de reconocimiento (dífonos, trífonos, )semisílabas...)

- Recurrir a “modelo de lenguaje” (cf. Infra)Plantear estrategia de decisión post comparación- Plantear estrategia de decisión post-comparación

22

Estructura Modelos de lenguajeHabla continua

Módulos:

- Fonológico y fonotáctico- Léxico

Gramática:- Gramática:

- Probabilista: todas las frases son posibles, pero tienenProbabilista: todas las frases son posibles, pero tienenprobabilidades distintas

- De estados finitos: partición binaria de las secuencias depalabras en “posibles” o “imposibles”palabras en “posibles” o “imposibles”

A la salida: n mejores frases.23

Estructura Modelos de lenguajeHabla continua

24

Estructura Estrategias de decisiónHabla continua

Tres grandes tipos de estrategias:1) Ascendente / Descendente / Mixta: leer y/o predecir2) Izquierda derecha / Medio laterales2) Izquierda-derecha / Medio-laterales3) Búsqueda solución óptima:

1) Estrategias totales: toma en consideración todas las soluciones posibles (no aplicable a grandes vocabularios)

2) Estrategia de “el mejor primero”: se empieza por el elemento que presenta mayor probabilidad.

3) E i d “ l j i ” (i di (1) (2))3) Estrategia en red o “algunos mejores primero” (intermedia entre (1) y (2))4) Estrategia por “islotes de confianza”, a base de palabras-clave de

reconocimiento robusto.

25

Estructura 3. Reconocimiento de habla continua

Digitalización de la señalef. Diccionarioam

iento

Digitalización de la señal

Comparación DAFn de

dat

osió

n de

car

act.

ión

patte

rns r

e Fonético(patterns de dífonos...)

se d

e ent

rena

Comparación DAF

Comparación Algoritmo de reconocimiento

Adqu

isició

nEx

tracc

iCr

eac

Fas

Cálculo Δ (pattern señal / patterns dico)

p g

Decisión de reconocimiento1

mod

elos

icales

Diccionario léxico(patterns léxicos)

Cálculo Δ (pattern señal / patterns dico)

Output (escrito, acción...)

pilac

ión

de m

os y

gram

ati léxicos)

Gramática

EventualmenteMódulo de comprensión

26Com

pLé

xico

1 con o sin umbral

Ejemplos 1. Reconocimiento de voz de WindowsLos empresarios quieren eliminar la prórroga sine die de los convenios.Los empresarios quieren eliminar las prórrogas y de los convenido.

La patronal plantea la ampliación de las cláusulas de descuelgue.p p p gLa patronal plantea la ampliación de las cláusulas de descuelgue

La CEOE ha propuesto a los sindicatos CC.OO. y UGT una profunda reforma del contenido de la negociación colectiva. En concreto plantea la La G o L ha propuesto a los sindicatos ccoo y ugt en una profunda reforma del contenido de la negociación colectiva. En concreto a plantear la p p y g p g p

eliminación de la ultraactividad de los convenios –de forma que se elimine su prórroga automática cuando caducan- y la ampliación de laeliminación de la junta la actividad de los convenios –Héctor Márquez eliminar su prórroga automática cuando le toca- y la ampliación de la

« cláusula de descuelgue » salarial aprobada en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad delcláusula de descuelgue salarial aprobado en la reforma laboral. La reforma de la negociación colectiva es la clave de la flexibilidad del

mercado laboral y es más importante aún que la reforma laboral. Por esta razón los agentes sociales se reservan el derecho a negociarlamercado laboral yo es más importante aún que la reforma laboral. Po resta razón los agentes sociales se reservará el derecho a negociar la

bilateralmente sin interferencias del Gobierno. De hecho, aprovecharán para « retocar » algunos puntos conflictivos.bilateralmente siempre yo no vi a un. De hecho lo aprovecharán para retocar algunos puntos XXX.

27Esto explica que la respuesta de los sindicatos haya sido inmediata.Esto explica que la respuesta de los sindicatos haya sido inmediata.

Ejemplos 2. Dragon Naturally Speaking

Comédie. Un père juif veut marier sa fille dans la tradition avec le fils de son meilleur ami. Mais la belle estComédie Un air je lui veux marier sa fille dans la tradition avec le fils de son meilleur Anne Mais la del est

Test con entrenamiento básico

Comédie. Un air je lui veux marier sa fille dans la tradition avec le fils de son meilleur Anne. Mais la del est déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, Max est un homme heureux.déjà amoureuse. Richissime propriétaire d’une chaîne de casinos, ma est un homme heureux.Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, Lisa, briller dans tous les domaines. Fier de sa réussite sociale, il est surtout très satisfait de voir sa fille, ni de la, brillait dans tous les domaines. Il lui nourrit d’ailleurs d’ambitieux projets. Son rêve : la marier dans la plus pure tradition juive, avec Il lui nourrit d’ailleurs d’ambitieux projets. Son revé : la mariée est dans la structure tradition juive, avec Sydney Azerad, fils de son meilleur ami. Lorsqu’il apprend que Lisa est déjà amoureuse d’un autreSydney adhéra de, si de son meilleur ami. Lorsqu’il apprend que Nizar est déjà amoureuse d’un autregarçon prénommé Jean-Christophe, il voit rouge. D’autant qu’il s’agit d’un goy, c’est-à-dire un non-juif.garçon prénommé Jean Christophe, il voit XXXX. D’autant qu’il s’agit Dan Goldin, c’est-à-dire d’un on suit.Une gentille comédie sans plus

28

Une gentille comédie, sans plus.Une gentille comédie, semble.Dan Goldin = ex-directeur de la NASA ; Nizar Baraka = premier ministre Marocain.

Aplicaciones Principales aplicacionesTelecomunicaciones:• Sistemas de información telefónica: páginas amarillas, meteorología, transportes, museos,

cines, estado de cuentas en un banco, etc., ,• Acceso telefónico a textos escritos: consulta de bases de datos, del mail, etc.• Encuestas telefónicas, etc.Burótica:

A li i “ lib ”• Aplicaciones “manos libres”• Dictado automático (libre, informes médicos, etc.)• Entrada de datos numéricos• Traducción asistida por ordenador (TAO) oral-oral/escritoTraducción asistida por ordenador (TAO) oral oral/escritoAyuda a personas con minusvalías:• Aplicaciones de ayuda a discapacitados motores (o visuales)Aplicaciones industriales:

C lt d i f i l t ó il• Consulta de informaciones en los automóviles• Control de comandos en los aviones, etc.• Consulta sobre el estado de un sistema• Control de robots

29

Control de robotsAprendizaje de lenguas extranjeras:• Software de aprendizaje, traducción automática, etc.

Links hacia demos de RAH (http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recognition/refs_reconeixement.html#General

i iti )_overviews_recognition)(http://liceu.uab.cat/~joaquim/speech_technology/tecnol_parla/recursos.html#Reconeixement_enllacos)ASR / RAP / Dictado automático / Dictée automatique, etc.

• http://www.nuance.com/talk/ (Naturally Speaking)• http://www.vecsys.fr/applications/applis-vocales.htm#mgpt• http://www.speechware.be/fr/freedemo.phpLibres de acceso (Linux):( )• http://freespeech.sourceforge.net/• http://www.kiecza.net/daniel/linux/cvoicecontrol/index-1.html

30

p