8
Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011 1. Une analyse linguistique du problème de la segmentation en phrases (entre 1 et 3 pages). Cette analyse s’appuiera sur des travaux de linguistiques référencés. Vous étudierez les problèmes posés par le « genre » textuel. (texte journalistique, texte juridique, texte géopolitique). La segmentation La segmentation de texte est une phase nécessaire en traitement automatique du langage afin de préparer les corpus de texte pour l'analyse syntaxique, pour le résumé automatique, ou encore pour le filtrage de textes… La segmentation des textes peut se faire au niveau des phrases (segments textuels). La phrase apparait comme une unité d’analyse nécessaire sur le plan statistique, syntaxe, coréférences, etc La phrase Sur le plan linguistique la définition de phrase fait débat, il existe plus de trois cents définitions. Il reste toutefois aisé de s’entendre sur l’aspect graphique d’une phrase. En effet l’usage orthographique fait débuter une phrase par une majuscule et la conclut par une marque de ponctuation particulière : un point, un point d’exclamation, un point d’interrogation, des points de suspension. Cependant, comme le souligne Catherine Fuchs « ces marques ne sont pas fiable à 100%, de plus certaines d’entre elles peuvent être absentes » (texte ancien, langue spécifique, erreur de l’auteur…). Catherine Fush parle d’ambiguïté spécifique. Le point , en tant que séparateur de segment textuel, peut avoir différents rôles. Il peut être point de siglaison, point séparateur des chiffres et des dates, point des énumérations hiérarchiques,… et non plus point comme fin de phrase. Il en est de même pour les points d’exclamation et d’interrogation qui peuvent exprimer, en dehors des phrases exclamatives, le doute, l’ironie, … Comment segmenter un texte en phrase ? Il est indéniable que la segmentation en phrase sera basée premièrement sur des marques de ponctuation. Il faudra prendre en compte les marques typographiques telles que les phrases qui commencent par des chiffres arabes, par des parenthèses, par des guillemets, ainsi que les segments textuels qui se terminent par deux-points ou par un point-virgule. Les marques typographiques retenues dépendront majoritairement du corpus à analyser.

Unitex Segmentation en Phrases

Embed Size (px)

DESCRIPTION

Analyse linguistique du problème de la segmentation en phrases avec utilisation d'UNITEX

Citation preview

Page 1: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

1. Une analyse linguistique du problème de la segmentation en phrases (entre 1 et 3 pages). Cette analyse s’appuiera sur des travaux de linguistiques référencés. Vous étudierez les problèmes posés par le « genre » textuel. (texte journalistique, texte juridique, texte géopolitique). La segmentation La segmentation de texte est une phase nécessaire en traitement automatique du langage afin de préparer les corpus de texte pour l'analyse syntaxique, pour le résumé automatique, ou encore pour le filtrage de textes… La segmentation des textes peut se faire au niveau des phrases (segments textuels). La phrase apparait comme une unité d’analyse nécessaire sur le plan statistique, syntaxe, coréférences, etc La phrase Sur le plan linguistique la définition de phrase fait débat, il existe plus de trois cents définitions. Il reste toutefois aisé de s’entendre sur l’aspect graphique d’une phrase. En effet l’usage orthographique fait débuter une phrase par une majuscule et la conclut par une marque de ponctuation particulière : un point, un point d’exclamation, un point d’interrogation, des points de suspension. Cependant, comme le souligne Catherine Fuchs « ces marques ne sont pas fiable à 100%, de plus certaines d’entre elles peuvent être absentes » (texte ancien, langue spécifique, erreur de l’auteur…). Catherine Fush parle d’ambiguïté spécifique. Le point, en tant que séparateur de segment textuel, peut avoir différents rôles. Il peut être point de siglaison, point séparateur des chiffres et des dates, point des énumérations hiérarchiques,… et non plus point comme fin de phrase. Il en est de même pour les points d’exclamation et d’interrogation qui peuvent exprimer, en dehors des phrases exclamatives, le doute, l’ironie, … Comment segmenter un texte en phrase ? Il est indéniable que la segmentation en phrase sera basée premièrement sur des marques de ponctuation. Il faudra prendre en compte les marques typographiques telles que les phrases qui commencent par des chiffres arabes, par des parenthèses, par des guillemets, ainsi que les segments textuels qui se terminent par deux-points ou par un point-virgule. Les marques typographiques retenues dépendront majoritairement du corpus à analyser.

Page 2: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

Le corpus Le corpus à segmenter est constitué de 3 textes. Le texte 1 est un texte juridique, le texte 2 est un article de presse qui tire vers le reportage, enfin le texte 3 est un extrait d’un ouvrage en géopolitique. A la lecture de ces différents textes on peut déjà s’apercevoir que les marqueurs typographiques de fin de phrase diffèrent. Le texte juridique n’a pratiquement pas de point mais un nombre important de ; pour marquer les fins de phrases. Quant au texte journalistique, il possède énormément de citation, ce qui implique une forte présence de guillemets précédé ou suivi d’un marqueur de phrase. Les genres textuels Afin d’adapter les règles de segmentation au corpus alloué, il est important de connaitre à quel genre de texte nous avons affaire. Qu’est-ce qu’un genre et comment le reconnaitre ? Sans que l’on me donne le genre auquel appartient le texte, je suis plus ou moins capable de l’affecter moi-même à un genre.Noam Chomsky explique cela en mettant en avant deux notions, la compétence : « la connaissance que le locuteur a de sa langue » alliée à la performance : « l'usage effectif de la langue dans des situations concrètes ». Pour ce qui est de la définition d’un genre, Emile Beneviste a dit « Dans la langue, il y a plusieurs niveaux (phonème, mot, phrase) ; à un même niveau, les relations entre les éléments sont distributionnelles ; entre un niveau et le niveau supérieur, les relations entre les éléments sont intégratives. Le mot est l'unité intégrative des phonèmes ; la phrase est l'unité intégrative des mots. Mais la phrase est la limite supérieure de l'analyse linguistique ; elle ne peut intégrer aucune unité linguistique plus haute. »1 Il semblerait selon lui, que l’unité linguistique supérieure pour la segmentation soit la phrase, et qu’au-delà on touche à un ensemble qui appartient au discours2. Selon François Rastier les discours correspondraient aux domaines d’activité comme la littérature, la science, le droit. Il continue et affirme : « À chaque type de pratique sociale correspond un domaine sémantique et un discours qui l’articule ». Un genre textuel serait donc un alliage de notions sociales, cognitives et linguistiques permettant de différencier des textes entre eux. Je finirai par cette citation de François Rastier « il n’existe pas de texte sans genre et tout genre relève d’un discours »3

1 « Les niveaux de l'analyse linguistique », Problèmes de linguistique générale I - Émile Benveniste 2 Ensemble d'usages linguistiques codifiés attaché à un type de pratique sociale. Ex. : discours juridique, médical, religieux. 3 par exemple, dans le discours juridique, on peut distinguer des genres écrits dont dispose un avocat dans sa pratique professionnelle : l’article de loi, le procès-verbal et les correspondances professionnelles.

Page 3: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

2. Une présentation des ressources linguistiques exploitées par vos

transducteurs Caractères terminaux4 : . point ; point virgule ! point d’exclamation ? point d’interrogation … de supsension Caractères non terminaux5 : <MAJ> mot en lettres majuscules <PRE> mot commencant par une majuscule <MIN> mot en lettres minuscules <NB> suite de chiffres continue <^> saut de ligne <#> espace possible « » guillemets Partant de ces éléments je considère :

qu’un titre n’est pas une phrase,

une phrase peut se terminer par un point-virgule,

une citation peut avoir une ou plusieurs phrases,

une phrase contenant des parenthèses avec des phrases à l’intérieur n’auront pas de séparateurs,

les points de suspension suivis d’un mot en minuscule ou d’une virgule, ne signifie pas la fin d’une phrase,

un point suivi d’un guillemet ouvrant se voit attribuer un séparateur de phrase au même titre qu’un point suivi d’un guillemet fermant.

3. Une brève présentation des transducteurs développés (copies écran des transducteurs accompagnés des fichiers fournis au format Unitext). Unitex fournit un transducteur assez élaboré. Partant de cet existant, je l’ai adapté afin d’améliorer le découpage de mes textes en phrases. J’ai effectué des modifications aussi bien pour le modèle de ponctuation générale que pour les cas particuliers. Le graphe sentence.grf que nous pouvons voir ci-dessous a subi quelques modifications ou ajouts.

- <^> (saut de ligne) ne se situe plus au même niveau qu’un point, point-virgule, point d’exclamation ou point d’interrogation. Auparavant un saut de ligne suivit d’une majuscule était considérée comme une phrase. Dorénavant s’il y a un

4 Détermine la fin d’une phrase.

5 Éléments ne déterminant pas la fin d’une phrase, mais essentiels dans les règles du découpage de textes en

phrases.

Page 4: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

point suivi d’un saut de ligne, cela est considéré comme phrase. Cette modification a permis de prendre en compte les dernières phrases de textes ou encore d’éviter de prendre les titres pour des phrases.

- Le problème des guillemets ouvrants ou fermants suivis ou précédés d’un point, point d’exclamation, point d’interrogation, point-virgule, et points de suspension a été pris en compte.

- L’ajout de <NB> avant un point, point d’exclamation, point d’interrogation, point-virgule, et points de suspension suivi de <MAJ><PRE><MIN><NB><^>, permet d’éviter la prise en compte d’une phrase se terminant par un nombres.

Le graphe sigles_prenoms.grf, ci dessous a lui aussi reçu un complément de direction. Ainsi, si une lettre majuscule suivie d’un point (espace entre la lettre et le point possible) sont suivis d’une séquence de chiffres, ou d’un nom commençant par une lettre majuscule, cela n’est pas considéré comme une phrase. (voir les exemples sur le graphe) Cet ajout permet d’améliorer le découpage et d’éviter le bruit sur R.{S}351, qui ne correspond pas à une phrase ou encore M.{S}Jean GRAVIER ( exemples tirés du texte juridique). Ce graphe est un sous graphe de cas2.grf qui est lui-même un sous graphe de sentence.grf.

Page 5: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

Le graphe nombres.grf a a été modifié afin de prendre en compte les listes numérotées. Le texte 2 a ce genre de typographie.Sans cette prise en compte, Unitex considère que 1. est une phrase. Si un des chiffres ci-dessous est suivis d’un point qui est lui-même suivi d’un mot en majuscule ou d’un mot commençant par une majuscule, alors ceci fait partie d’une liste numérotée.

Page 6: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

4. Analyse des résultats (Rappel et Précision) fournis par Unitext (sur les trois textes) sans la prise en compte de vos transducteurs.

Texte 1 Texte 2 Texte 3

Précision6 15/56= 0.27 224/248=0.90 288/297=0.97

Rappel7 15/19=0.79 224/278=0.80 288/290=0.993

5. Analyse des résultats (Rappel et Précision) fournis par Unitext (sur les quatre textes) avec la prise en compte de vos transducteurs.

Texte 1 Texte 2 Texte 3

Précision 16/20=0.80 278/278=1 289/292=0.99

Rappel 16/19=0.84 278/278=1 289/290=0.99

Le rappel et la précision sont largement améliorés, surtout dans le texte 1. Ceci s’explique par la très grande quantité de sauts de lignes présents dans ce texte et désormais corrigée. Il y avait auparavant trop de bruit, 73% contre 20% après modifications du graphe. Après revérifications du corpus, on peut distinguer des erreurs qui subsistent et qui maintiennent le bruit : - La prise en compte des titres possédant des éléments terminaux Ex : À propos de l'opportunité manquée...{S} - Les coquilles ou fautes de frappes (ces erreurs, selon leurs types, accentuent le bruit ou le silence)

Ex : Par exemple : « Que fait le pouvoir ? me dit Villepin un matin de mars 1997 ? S'enferme-t-il dans une pièce décidé à n'en sortir qu'une fois prises un certain nombre de décisions ?

Ou

Ex : 702-1 et 703./ L'exclusion de la mention

6 Précision : nombre de phrase correctement trouvées/ nombre de phrases correctes et incorrectes trouvées.

7 Rappel : nombre de phrases correctes trouvées / nombre de phrases qui auraient dû être trouvées.

Page 7: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

6. Discussion finale sur les limites de ce type d’approche (une page maximum) La segmentation en phrase est une méthode pas toujours fiable, chronophage et qui demande de l’adaptation. La définition d’une phrase est propre à chacun. Certaines personnes considérerons qu’un point-virgule n’est pas un élément terminal d’une phrase, qu’un titre est une phrase….autant de marqueurs typographiques à prendre ou non en compte. Le postulat : « Une phrase commence par une Majuscule et se termine par un point » ne suffit pas à détecter la fin ou le début d’une phrase. Une segmentation de texte implique une étude du corpus sur la prépondérance des marqueurs de phrases. Afin d’adapter les règles de segmentation à celui-ci. Comme le montre les résultats précédents en termes de précision et rappel, les règles de segmentation de base proposées par Unitex, nous donnent des résultats moyennement corrects. En cherchant à l’améliorer, en ayant au préalable parcouru les textes, j’ai pu l’adapter et tendre vers des chiffres satisfaisants. Il faut savoir s’adapter aux différentes ambiguïtés typographiques. Par exemple on retrouve dans notre corpus des phrases se terminant par . » ou ». Et de ce fait ajuster les règles du graphe sans que cela ait un impact ailleurs et déstabilise d’autres règles. Il faut savoir s’adapter au genre textuel. Notre corpus est composé de 3 textes dont l’un est très différent des autres. Il n’y a pratiquement pas de point. Les phrases sont terminées par des ; Il faut aussi savoir accepter les coquilles, qui faussent nos règles et nos calculs. C’est le cas pour le texte juridique qui contient, il me semble, une ou deux fautes de frappes : les articles 432?10 à 432-16, ou 702-1 et 703./ L'exclusion de la mention Enfin l’étude du corpus, la mise en place de règles et le calcul de la précision et du rappel prennent un temps considérable. Nous avions que 3 textes à segmenter et pourtant j’ai cru ne pas m’en sortir. J’ai finalement trouvé une solution plus ou moins efficace avec l’éditeur Notepad ++ qui permet de marquer les éléments et de faire des comparaisons.

Page 8: Unitex Segmentation en Phrases

Angelique Renier Master DEFI 2 Devoir TAL n°1 - 30 novembre 2011

Références : La segmentation de textes par exploration contextuelle automatique, présentation du module SegATex, [En ligne]. Adresse URL : http://lalic.paris-sorbonne.fr/PUBLICATIONS/2001-2002/mourad/ISLsp02.pdf UNITEXT : Manuel d’utilisation, [En ligne]. Adresse URL : http://www-igm.univ-mlv.fr/~unitex/download.html

Genres et variations morphosyntaxiques-Quelles variables pertinentes? , [En ligne]. Adresse URL : http://atala.biomath.jussieu.fr/je/010428/Malrieu.pdf Notion théorique : Genre de textes, [En ligne]. Adresse URL : http://www.uvp5.univ-paris5.fr/TFL/Ac/AffFicheT.asp?CleFiche=5206&Org=QUTH Dictionnaire de grammaire et des difficultés grammaticales, Pougeoise, Michel, Paris : A. Colin , 1998 La linguistique textuelle, Adam, Jean-Michel, Paris : A. Colin , impr. 2011