129
L'ANALYSE DES TEXTES DE BREVETS Extraction de connaissances utiles à la "conception inventive" à partir de textes de brevets par Dildar KEREM-WU Mémoire préparé sous la direction de : M. François ROUSSELOT, Maître de Conférences, DE, Université de Strasbourg, Strasbourg Devant le Jury : - Madame Amalia TODIRASCU-COURTIER, Maître de conférences, Université de Strasbourg, Strasbourg - Monsieur Thierry GRASS, Maître de conférences, Université de Strasbourg, Strasbourg Présenté le : 14 Septembre 2009 1 MÉMOIRE DE FIN D’ÉTUDES présenté pour l’obtention du diplôme de Master en Linguistique et Informatique Discipline: UFR Lettres et Sciences Humaines Appliquées Spécialité: Linguistique et Informatique

memoire_M2_TALN

  • Upload
    wu

  • View
    880

  • Download
    4

Embed Size (px)

DESCRIPTION

l'analyse des brevets

Citation preview

Page 1: memoire_M2_TALN

L'ANALYSE DES TEXTES DE BREVETS

Extraction de connaissances utiles à la "conception inventive" à

partir de textes de brevets

par

Dildar KEREM-WU

Mémoire préparé sous la direction de :M. François ROUSSELOT, Maître de Conférences, DE, Université de Strasbourg, Strasbourg

Devant le Jury : − Madame Amalia TODIRASCU-COURTIER, Maître de conférences,

Université de Strasbourg, Strasbourg− Monsieur Thierry GRASS, Maître de conférences, Université de

Strasbourg, Strasbourg

Présenté le : 14 Septembre 2009

1

MÉMOIRE DE FIN D’ÉTUDES

présenté pour l’obtention du diplôme de Master en Linguistique et Informatique

Discipline: UFR Lettres et Sciences Humaines Appliquées Spécialité: Linguistique et Informatique

Page 2: memoire_M2_TALN

2

Page 3: memoire_M2_TALN

Résumé :

Ce travail s'inscrit dans le domaine de l'acquisition automatique ou semi-automatique

des connaissances à partir des textes. Il s'agit d'une nouvelle approche qui repose sur le

repérage des marqueurs linguistiques qui sont liés aux connaissances de la conception

inventive appelée la TRIZ (Théorie de Résolution des Problèmes d'Invention). Pour aboutir à

l'extraction des informations particulièrement pertinentes, nous explorerons un corpus de

brevets en utilisant des techniques d'analyse linguistiques. Le travail consiste à analyser et à

collecter les marqueurs linguistiques susceptibles d'être des candidats pour la localisation des

notions présupposées de la TRIZ. Ensuite, un algorithme établi permet l'extraction

automatique des connaissances à l'aide de ces marqueurs.

La multiplicité des brevets ainsi que la diversité des domaines concernés entraînent que

les textes de brevets constituent des ressources riches, mais difficiles à traiter. Nous montrons

par cette étude qu'il est possible d'accéder au contenu des brevets et d'en extraire des

informations souhaitées sans restriction de domaines.

Mots-clés :

l'Analyse des Textes de Brevets, l'Analyse Textuelle, la Fouille de Contenu, TALN

(Traitement Automatique de la Langue Naturelle), l’Acquisition de Connaissances,

l'Organisation de Connaissances, la TRIZ, l'Analyse de Contradictions, l'Extraction de

Contradictions

3

Page 4: memoire_M2_TALN

Abstract :

This research relates to automatic or semi-automatic acquisition of knowledge from

texts. More specifically, we present a new approach that helps to locate the TRIZ-linked

knowledge by using the linguistic markers. The extraction of precise information is realized

by using the techniques of linguistic analysis. This work consists of analyzing and collecting

the linguistic markers that are likely to locate the notions associated to the TRIZ. An

algorithm will then be established to carry out the automatic extraction task.

The resources in the patent text are rich, but the analysis would be a difficult task. This

is due to the multiplicity of the patents as well as the diversity of the technical fields

concerned. We try to show through this work that it is possible to analyze the contents of

patents and extract desired information without restriction of technical fields.

Keywords :

Patent Analysis, Text Analysis, Text-mining, Natural Language Processing, Knowledge

Acquisition, Knowledge Organization, the TRIZ, Analysis of Contradiction, Contradiction

Extraction

4

Page 5: memoire_M2_TALN

REMERCIEMENTS

Ma gratitude va tout d'abord à M. François ROUSSELOT, mon directeur de mémoire,

pour ses conseils avisés, sa patience, sa disponibilité, ses encouragements et la confiance qu'il

m'a accordée tout au long de ce travail.

Je tiens à remercier tous les membres de jury qui ont accepté d’évaluer mon travail.

Je remercie également toute l'équipe pédagogique de l'UFR Lettres & Sciences

Humaines Appliquées, et les intervenants professionnels responsables de la formation de

Master en Linguistique et Informatique. Je tiens en particulier à remercier Madame Marie-

Paul JACQUES pour ses conseils et ses lumières dans mon domaine.

Mes remerciements vont également à l'institut National des Sciences Appliquées de

Strasbourg ainsi qu'au Laboratoire de Génie de la Conception pour avoir proposé ce thème de

recherche doublé d'un stage qui m'a permis de réaliser ce travail.

Je témoigne toute ma reconnaissance à :

Alexis Bultey (LGéco), pour ses aides chaleureuses et professionnelles ;

Denis Cavallucci (LGéco), pour ses conseils avisés au sujet de la TRIZ ;

Kata Gabor (LGéco), pour le temps qu’elle m’a consacré tout au long de cette période

en répondant à toutes mes interrogations ;

Mes amies Anne-Marie, Derya, Julidie, pour le temps consacré à la relecture.

Enfin, mes remerciements vont à ma famille qui est la source de toutes mes forces.

Merci !

5

Page 6: memoire_M2_TALN

LISTE DES ABRÉVIATIONS

TAL : Traitement Automatique Des LanguesTALN : Traitement Automatique Des Langues NaturellesTRIZ : L'acronyme russe signifie Théorie de Résolution des Problèmes d'InventionINSA : Institut National des Sciences Appliquées LGéco : Laboratoire de Génie de la Conception XML : Extensible Markup LanguageHTML : Hypertext Markup Language DTD : Document Type DefinitionTF : Term Frequency TF-IDF : Term Frequency and Inverse Document Frequency SAO : Subject-Action-ObjectPerl : Practical Extraction and Report Languageet al. : et alii (Latin: et les autres)

6

Page 7: memoire_M2_TALN

Table des matièresREMERCIEMENTS ................................................................................................................... 5 LISTE DES ABRÉVIATIONS .................................................................................................. 6 INTRODUCTION GENERALE .............................................................................................. 9

Contexte de l'étude ........................................................................................................... 11 Les problématiques abordées ........................................................................................... 14

La problématique liée à la conception inventive ....................................................... 14 La problématique liée à l'analyse des textes de brevets ............................................ 15

La structure du mémoire .................................................................................................. 18 PARTIE I - L'ÉTAT DES LIEUX ............................................................................................ 20

Chapitre 1. L'analyse des textes ........................................................................................... 21 1.1. Préambule ................................................................................................................. 21 1.2. Présentation des approches dans l'analyse des textes .............................................. 21 1.2.1.a. L'analyse statistique textuelle ............................................................................. 21 1.2.1.b. Problèmes méthodologiques ............................................................................... 22 1.2.2.a. L'analyse linguistique ......................................................................................... 23 1.2.2.b. Problèmes méthodologiques ............................................................................... 27 1.3. Bilan .......................................................................................................................... 28

Chapitre 2. L'analyse des textes de brevets ........................................................................... 29 2.1. Préambule ................................................................................................................. 29 2.2. Présentation des approches dans l'analyse des textes de brevets ............................. 30 2.2.1.a. La méthode quantitative ...................................................................................... 30 2.2.1.b. Problèmes méthodologiques ............................................................................... 32 2.2.2.a. La méthode qualitative ........................................................................................ 32 2.2.2.b. Problèmes méthodologiques ............................................................................... 34 2.3. Bilan .......................................................................................................................... 35

Chapitre 3. La TRIZ et l'analyse des textes de brevets associée à celle-ci .......................... 36 3.1. Préambule ................................................................................................................. 36 3.2. La TRIZ, une théorie de résolution des problèmes inventifs .................................... 36 3.3. L'étude comparative d'outils d'analyse associés à la TRIZ ...................................... 38 3.4. Problèmes méthodologiques ..................................................................................... 40 3.5. Bilan .......................................................................................................................... 41

PARTIE II – MÉTHODOLOGIE ............................................................................................. 44 Chapitre 4. Le corpus de référence ....................................................................................... 45

4.1. Préambule ................................................................................................................. 45 4.2. Construction du corpus ............................................................................................. 45 4.3. Le pré-traitement du corpus ...................................................................................... 47 4.4. Les caractéristiques du document en question .......................................................... 47 4.4.a. Les caractéristiques de la structure ........................................................................ 48 4.4.b. Les caractéristiques de textes ................................................................................. 48 4.5. Bilan .......................................................................................................................... 49

Chapitre 5. L'analyse préliminaire des textes ....................................................................... 50 5.1. Préambule ................................................................................................................. 50 5.3. Les notions recherchées exprimées dans les textes de brevets ................................ 50 5.2. Choix des outils ........................................................................................................ 53 5.4. Premières collections des marqueurs candidats ........................................................ 54 5.5. Bilan .......................................................................................................................... 59

7

Page 8: memoire_M2_TALN

Chapitre 6. L'analyse approfondie ........................................................................................ 60 6.1. Préambule ................................................................................................................. 60 6.2. Les procédés de l'analyse approfondie ..................................................................... 60 6.2.a. Les marqueurs verbaux ......................................................................................... 62 6.2.b. L'utilisation de verbes modaux .............................................................................. 66 6.2.c. Les verbes qui marquent la relation « partie_tout » ............................................... 67 6.2.d. Les marqueurs adverbiaux ................................................................................... 69 6.2.e. Les marqueurs adjectivaux .................................................................................... 71 6.2.f. Les marqueurs nominaux ....................................................................................... 74 6.2.g. Les marqueurs discursifs retenus ........................................................................... 76 6.2.h. Les autres marqueurs propres aux textes de brevets .............................................. 78 6.3. Bilan .......................................................................................................................... 82

Chapitre 7. L'annotation et l'extraction ................................................................................. 83 7.1. Préambule ................................................................................................................. 83 7.2. L'annotation et l'extraction ........................................................................................ 83 7.2.a. Les procédés d'annotation ...................................................................................... 84 7.2.b. L'extraction d'informations à l'aide de graphes ..................................................... 85 7.2.c. L'exportation des textes annotés ............................................................................ 88 7.3. Évaluation préliminaire ............................................................................................ 90 7.4. Les difficultés et les limites ..................................................................................... 93 7.5. Bilan .......................................................................................................................... 94

PERSPECTIVES ET CONCLUSION ...................................................................................... 94 BIBLIOGRAPHIE ................................................................................................................ 97

GLOSSAIRE ........................................................................................................................... 100 Annexe 1 Listes des marqueurs sélectionnés ......................................................................... 103 Annexe 2 Les graphes utilisés et leurs ordres définis dans le préférence d'outil NOOJ ........ 113 Annexe 3 Les scriptes Perl .................................................................................................... 115 Annexe 4 Les sources du corpus ........................................................................................... 117 Annexe 5 La disponibilité des brevets .................................................................................. 123

8

Page 9: memoire_M2_TALN

Tableaux et Figures

Tableau 1 : Les résultats d'un calcul statistique TF, IDF et TF-IDF sur le corpus..................55Tableau 2 : Les résultats d'évaluation.......................................................................................90

Figure 1: La résolution de problèmes selon la TRIZ................................................................12Figure 2: Les réseaux de problèmes et solutions selon ZANNI et al........................................13 Figure 3: Une représentation de l'arbre syntaxique.................................................................24 Figure 4: Règle de <CoLocation> présentée dans JAVAVEILLE............................................26Figure 5: Une illustration de relations des notions de la TRIZ ...............................................37Figure 7: Un exemple d'application de l'outil PAT-Analyzer....................................................40Figure 8 : Organigramme d'analyse et d'annotation................................................................43Figure 9 : Un aperçu de segments répétés de terme « cause » dans LIKES...........................57Figure 10: Aperçu des concordances triées de gauche et de droite dans Wordsmith Tools.....60Figure 11 : Exemple de graphe ItisJJtothat.nog ......................................................................84Figure 12 : Les résultats du graphe ItisJJtothat.nog Figure 13 : Le graphe générique pour retrouver les valeurs opposées Figure 14 : L'annotation du graphe générique

9

Page 10: memoire_M2_TALN

INTRODUCTION GENERALE

Les brevets constituent une source d'informations abondantes où s'ancrent des

connaissances technologiques et scientifiques. Celles-ci sont souvent utiles pour les

concepteurs. Dans le cadre de la conception invective, le concepteur est fréquemment amené à

effectuer des recherches dans les brevets. Cette tâche est fastidieuse et longue, et toute

méthode visant à faciliter le travail est la bienvenue. À ce titre, des travaux portant sur

l'analyse automatique ou semi-automatique des brevets sont nombreux et sont développés

selon des voies différentes. Néanmoins, des outils d'analyse existants effectuent les recherches

d'une façon aléatoire et on dispose de très peu d'outils d'analyse complète dont les objectifs

opérationnels correspondent aux préoccupations réelles des concepteurs voulant innover. Il

apparaît qu'actuellement émerge un réel besoin d'outils conformes aux attentes des

concepteurs.

En réponse à cette nouvelle attente, nous proposons une approche particulière de

l'analyse des brevets par le dépouillement de contenu. Nous proposons d'explorer le contenu

des brevets en nous appuyant sur une analyse linguistique à partir d'un corpus des textes de

brevets. L'objectif est d’exploiter des ressources linguistiques afin d'identifier, dans les

brevets, certaines notions de la théorie TRIZ1 qui sont jugées indispensables par les

concepteurs au cours du processus de conception.

Ce travail se situe dans la discipline de traitement automatique des langues (TAL). Plus

précisément, il se situe dans le domaine de l'aide à l'acquisition automatique ou semi-

automatique des connaissances à partir des textes.

Les textes constituent les sources essentielles des connaissances, leur analyse est une

phase incontournable où divers types de techniques d'analyse sont appliqués (analyse

statistique, analyse syntaxique, repérage des marqueurs, etc.). Cependant, l'efficacité des

1 L'acronyme russe signifie Théorie de Résolution des Problèmes d'Invention. L'un de fondements de cette méthode repose sur l'identification et l'élimination de contradictions dans un problème technique. On reviendra sur cette théorie en détail ultérieurement.

10

Page 11: memoire_M2_TALN

outils d'analyse des textes dépend en grande partie de méthodologie. Notre méthodologie

repose sur le repérage de marqueurs linguistiques. Dans ce mémoire, notre définition des

marqueurs linguistiques se lit comme étant « des formes linguistiques qui se comportent

comme porteurs ou pointeurs des contextes riches en connaissances de la TRIZ».

En linguistique, les marqueurs linguistiques sont des unités lexicales simples ou

composées (morphèmes, mots, expressions et locutions, patrons syntaxiques) qui décrivent

des réalisations possibles de séquences textuelles. La notion de marqueur amène à considérer

qu'une langue utilise des règles ou régularités que l'on peut expliciter. Par exemple,

morphologiquement, le rajout d'un « s » à la fin d'un nom marque la forme plurielle de ce

nom. Syntaxiquement, la structure « X comprises Y » marque une relation d'appartenance où

le Y appartient à X. Sémantiquement, l'utilisation de connecteurs tel que « cependant,

néanmoins » marque une relation de contraste entre la première énonciation et la suivante.

La technique du repérage des marqueurs dans le TAL postule que l'observation de ces

caractéristiques de la langue nous permet de révéler les relations existantes entre les éléments

linguistiques, de comprendre les fonctionnements de la langue et d'associer des sens en les

interprétant sémantiquement.

L'investigation de marqueurs à partir de textes fut d'abord proposée par Marti Hearst

(HEARST 1992). Dans ce travail, les marqueurs comme « such as, including, and/or , etc »

sont exploités pour déclencher le repérage de relations hiérarchisées. Depuis, de nombreuses

recherches en relation avec cette méthode sont réalisées.

Une autre méthode qui repose également sur le repérage de marqueurs est proposée par

J. P. Desclès (DESCLÈS et al. 1991). Cette méthode est nommée « exploration contextuelle »

et sa première réalisation informatique est l'outil SECAT où l'on traite des valeurs aspecto-

temporelles pour tous les temps (qui recouvrent la période allant de l'indicatif au passé) en

français. C'est une analyse sémantique du texte guidée par le repérage d'indices linguistiques

déclencheurs dont l'emploi est représentatif des notions étudiées. Cependant, la méthode ne

dispose pas de notions prédéfinies, il convient par conséquent de déterminer les notions à

étudier pour chaque tâche de traitement.

11

Page 12: memoire_M2_TALN

Nous nous sommes beaucoup inspiré de travaux existants. Toutefois, notre approche est

sensiblement différente de modèles d'inspirations dans la mesure où les marqueurs

linguistiques que nous cherchons dans les textes de brevets sont spécifiques. Ils constituent

les marqueurs de concepts présupposés basés sur le modèle de connaissances de la TRIZ : des

paramètres, des éléments, et des valeurs. Ces concepts sont issus d'une théorie qui a déjà

fait la preuve de son efficacité et de son universalité dans le monde de la conception. Ils sont

génériques (non liés à un domaine spécifique). Par conséquent, à l'aide de ces marqueurs

linguistiques, nous arriverons à réaliser la manipulation d'un texte de brevet, et à ressortir

d'une façon automatique les informations souhaitées indépendamment des domaines traités.

Pourquoi s'intéresse-t-on à identifier les notions de la théorie TRIZ dans les brevets ?

Pourquoi faut-il partir des textes pour arriver au recueil automatique ou semi-automatique de

connaissances ? Que peuvent apporter les connaissances linguistiques dans ce domaine ?

Nous allons éclaircir ces questions en exposant dans les paragraphes suivants le contexte de

l'étude et les problématiques abordées.

Contexte de l'étude

Ce mémoire est un projet initialement proposé par le Laboratoire de Génie de la

Conception (LGéco) de l'INSA (Institut National des Sciences Appliquées) situé à Strasbourg.

Dans ce laboratoire, la conception constitue le thème de recherche centrale. La « conception

inventive » issue de la TRIZ décrite plus loin en fait partie.

La conception invention, connue également sous la dénomination « La TRIZ », a été

élaborée et énoncée par Guenrich Altshuller (ALTSHULLER 1998, ALTSHULLER 2004).

La TRIZ est une approche qui présente l'évolution des artefacts. Elle affirme qu’à l'origine de

tout problème d'inventivité, il existe une contradiction. Cette théorie postule que l'invention et

la création d'un artefact demeurent dans l'analyse et l'identification de caractéristiques

insatisfaisantes de celui-ci (problème) suivi par l'élimination de ces caractéristiques

(solutions) sans compromis. Selon la terminologie de la TRIZ, ce processus associe

l'identification et l'élimination de contradictions. La voie principale de résolution d'un

12

Page 13: memoire_M2_TALN

problème inventif consiste à formuler le problème standard ou général à partir d'un problème

spécifique, puis d'identifier les contradictions. Il existe, une fois ces contradictions

déterminées, des modèles de connaissances pour leur associer des solutions.

Figure 1: la résolution de problèmes selon la TRIZ

La théorie est fondée d'après une étude basée sur l'analyse manuelle d'un grand nombre

de brevets. Le fondateur a relevé un certain type de régularités dans les brevets ainsi que

l'existence de bons nombre d'effets permettant de résoudre les problèmes d'invention. Il a

remarqué des régularités dans l'évolution des artefacts techniques, des modèles d'évolution,

des lois. Il a également inféré qu’en appliquant les principes fondamentaux, il est possible de

résoudre environ 1500 contradictions techniques. Il a établi les modèles de connaissances

comprenant les 40 Principes, les 39 Paramètres, la Matrice de Contradictions et la méthode

ARIZ2 . Selon la conclusion d'Altshuller, 99 % des inventions sont basées sur la résolution de

problèmes techniques déjà existants.

La TRIZ a apporté une vue spécifique sur le processus de l'invention où la résolution de

problèmes inventifs provient d'analyse de problèmes, de l'extraction et de l'élimination de

contradictions techniques.

2 ARIZ est l'acronyme russe de (Алгоритм решения изобретательских задач) signifiant l'Algorithme de Solution de Problème d'Invention. Les 40 principes, les 39 paramètres, la matrice de contradiction , les lois d'évolution et la méthode ARIZ peuvent être consultés en ligne : http://www.triz-journal.com/

13

Page 14: memoire_M2_TALN

Les chercheurs au LGéco ont travaillé depuis des années sur la modélisation de cette

théorie. Une ontologie des concepts de la TRIZ a été développée (ZANNI et al. 2008a) au

sein du laboratoire LGéco. Un autre chercheur, Alexis Bultey (BULTEY 2007), a travaillé sur

un modèle d'ontologie basé sur l'analyse des concepts de « substance-field »3 en utilisant les

logiques des descriptions afin de stimuler la résolution des problèmes. Les autres (ZANNI et

al. 2008b) proposent des prototypes pour le traitement de problèmes complexes d'invention.

D'après ces auteurs, une solution peut conduire à une autre contradiction et ce réseau est

susceptible d'aboutir finalement à une boucle.

Figure 2: Les réseaux de problèmes et solutions selon ZANNI et al.

Une autre étude (ROUSSELOT et al. 2008) envisage d'effectuer un futur travail qui

reposera sur la création d'un réseau de problèmes ou sur des solutions partielles en fouillant

dans les textes de brevets pour des concepts pertinents en conception : problème, solution

partielle, contradiction (élément-paramètre-valeur).

3 La substance-field est appelée « VEPOLE » dans la TRIZ où « Vé » représente la substance et « Pole » le champ.

14

Page 15: memoire_M2_TALN

Des travaux antérieurs ont démontrés le besoin de formalisation de concepts de la TRIZ.

Ils ont de même constaté qu'un outil servant à localiser des contradictions essentielles d'un

système s'avère indispensable.

C'est dans ce contexte que nous effectuerons notre recherche. Nous envisageons de

fouiller dans les textes de brevets afin de localiser les concepts liés à la contradiction, à savoir

éléments, paramètres et valeurs. L'accès au contenu des brevets est basé sur une méthode

purement linguistique : le repérage des marqueurs.

Les problématiques abordées

Le sujet de ce mémoire est en effet un thème de recherche complexe. Il s'articule autour

de deux problématiques globales : la première est celle liée à la conception inventive, et la

deuxième est celle liée à l'analyse des textes de brevets.

La problématique liée à la conception inventive

Denis Cavallucci, spécialiste de la TRIZ au LGéco, dans sa thèse en 1999

(CAVALLUCCI 1999) a proposé l’intégration de la méthode TRIZ dans les méthodes de la

conception. Depuis lors, il a introduit la méthode TRIZ dans le monde de la conception en

France. Comme le mentionne Denis Cavallucci, les points forts de cette méthode sont sa

pertinence dans l'étape de créativité ; c'est une méthode qui résout un problème où l'origine est

la contradiction. Cependant, le moyen d'arriver à identifier les contradictions dans un

problème technique concret reste vague dans la littérature TRIZ. Il n'y a pas de directives

précises pour la formulation du problème et l'interprétation des directions données en TRIZ.

Ceci entraîne une perte d'efficacité de la méthode.

Nous avons également signalé que les notions essentielles de TRIZ tant les problèmes,

que les solutions, ou les contradictions sont des notions indépendantes d'un domaine

particulier. Cependant, on notera que la réutilisation de connaissances employées ou créées au

15

Page 16: memoire_M2_TALN

cours des résolutions des contradictions n'est pas prise en compte dans la TRIZ. Une

réorganisation des connaissances de TRIZ est très fortement souhaitable. Les textes de brevets

constituent la source de cette théorie. Un texte de brevet est rédigé dans le style d'une

rhétorique spécifique à l'égard de problèmes et de solutions : on présente d'abord les défauts

d'artefact (insatisfactions ou problèmes) et ensuite les solutions apportées (améliorations ou

éliminations d'insatisfactions). Ce qui se traduit par le fait que des modèles présents dans les

brevets fournissent des solutions génériques à l'égard de la résolution de problèmes

d'invention. Alors, il est souhaitable de retourner à la source afin de réaliser une

réorganisation.

La problématique liée à l'analyse des textes de brevets

Dans le champ de la linguistique, les approches qui utilisent l'analyse manuelle des

textes se sont manifestées dans le milieu des années 1980. Les avances technologiques ont

permis au champ d'avancer rapidement pendant les décennies passées. L'analyse des textes4

aujourd'hui est un champ interdisciplinaire qui comprend la recherche documentaire, la

traduction automatique, le résumé automatique, l'acquisition des connaissances à partir de

textes, l'apprentissage de machine, la statistique et la linguistique informatique.

Par exemple, dans le cas de l'acquisition des connaissances à partir de textes, le texte

véhicule les connaissances qui peuvent être extraites et présentées d'une manière structurée.

Ainsi, en traduction automatique, le texte doit être étudié afin de choisir les termes les plus

appropriés associés dans le contexte. Tandis qu'en résumé automatique, l'étude du texte a pour

finalité de localiser la partie qui reflète le mieux les idées principales.

Toutes ces applications passent d'abord par une analyse des textes. En conséquence,

l'analyse des textes doit viser des buts différents en utilisant des techniques d'analyse diverses.

Les brevets sont des documents textuels semi-structurés. Chaque brevet fait un état de

l'art de l'artefact en soulignant les problèmes techniques existants et les solutions apportées.

4 Dans ce mémoire, par l'analyse des textes, nous entendons ici « l'analyse textuelle assistée par l'ordinateur ». Elle est basée sur l'analyse de corpus.

16

Page 17: memoire_M2_TALN

Cependant, les brevets couvrent des domaines divers (chimie, mécanique, biologie, etc.), de

plus, ils sont rédigés par des auteurs différents. Partant de ce fait, les styles et les termes

utilisés varient selon l'auteur ou le domaine concerné. Ce type de textes constitue un champ

encore plus complexe dans l'analyse des textes.

Au cours de l'étude, nous avons remarqué que les outils informatiques développés

jusqu'à aujourd'hui diminuent le temps consacré pour la lecture des brevets, notamment en ce

qui concerne les métas-données5. Il existe également des outils qui permettent aux

concepteurs de résoudre les problèmes d'invention, mais leur efficacité n'est pas systématique

et ils sont peu nombreux. En revanche, il y a pléthore de logiciels employés dans le cadre de

la propriété industrielle, en guise de logiciel d'analyse statistique, graphique et administrative.

Une description de la plupart d'entre eux peut être consultée sur la toile6. Ils sont néanmoins

sophistiqués et difficiles à manipuler. De plus, ils sont coûteux et demandent souvent une

expertise dans le secteur de la propriété industrielle (DOU 2005).

La tendance actuelle consiste à intégrer des méthodes différentes, dont les méthodes

quantitatives (basées sur les statistiques) et les méthodes qualitatives (basées sur la

linguistique). Nous citerons l'approche hybride de chercheurs taiwanais (LIU et al. 2006) qui

combine le « data-mining7 » et le « text-mining8 » pour réduire le temps accordé à la

recherche de brevets en excluant ceux qui ne sont pas pertinents. Mais les résultats de ces

recherches ne sont pas toujours encourageants.

Dans notre contexte de l'étude, les préoccupations des concepteurs reposent sur la

résolution d'un problème inventif, et la TRIZ est une méthode qui guide les concepteurs à la

résolution du problème. Par conséquent, l'idéal est de disposer d'un outil qui formalise les

connaissances de la TRIZ contenues dans les brevets et qui est susceptible de ressortir d'une

façon automatique ces informations pour la résolution des problèmes.

5 Pour un document numérique, les notices contiennent des informations sur la source du document (titre, auteur, date, sujet, éditeurs, etc.), la nature du document, le contenu informationnel (eg: mots-clés) sont des métas-données.

6 http://www.ipmenu.com/ipsoftware.htm 7 Il s'agit des techniques d'extraction appliquées à des données structurées. 8 Il s'agit des techniques d'extraction appliquées à des données textuelles non structurées.

17

Page 18: memoire_M2_TALN

On pourrait dès lors proposer l'utilisation des techniques de TAL adaptées au contexte

spécifique de la TRIZ. Des recherches qui s'orientent vers cette direction ont commencé. Un

exemple concret est celui des chercheurs chinois (LIANG & TAN 2007). Ils ont travaillé sur

une approche basée sur le « text-mining ». En mettant en application le traitement

automatique des langues et les expressions régulières en Perl9, les textes de brevets sont

segmentés et formalisés. Ensuite, une recherche sur des mots-clefs qui expriment les notions

de « fonction », de « but », d' « amélioration » est effectuée. Selon ces chercheurs, les

principes de la TRIZ sont localisés souvent dans la partie du résumé et de la description. Cette

étude n'est pas très convaincante, car elle ne s'intéresse qu'aux occurrences des principes de la

TRIZ dans les textes. Ces principes sont tellement abstraits qu'il est très difficile de les

repérer. En Europe également, les recherches sont en cours. Malheureusement, dans tous ces

travaux la résolution d'une contradiction n'avait pas été mise en évidence, comme on le verra

plus loin.

Entre autres, nous avons été également confronté à d'autres problèmes dans les textes de

brevets :

a) le premier concerne la spécificité du langage des textes de brevets. Il s'agit d'un

document caractérisé par des phrases longues (parfois une phrase peut contenir une

centaine de mots et se composer de plusieurs thèmes), des répétitions (par exemple, la

partie « résumé » correspond dans la plupart de cas à la première revendication), des

noms composés très complexes, des terminologies spécifiques du domaine et des

expressions vagues (celles-ci ont pour vocation d'élargir la protection juridique de

l'invention). Un brevet constitue également un support contenant des intelligences

commerciales, dont il n'est pas rare que les inventeurs utilisent des expressions peu

courantes afin d'en préserver les secrets. De plus, la structure interne de brevets fait

que chaque partie possède ses propres traits linguistiques. Toutes ces caractéristiques

du langage sont sources d'une grande difficulté pour l'analyse et la performance de

l'outil d'analyse.

b) le second concerne la structure interne d'un brevet, lequel est un document fortement

structuré, dont chaque partie tend vers un but particulier et contient des connaissances

spécifiques. Par exemple, la partie « descriptions » est un document purement

9 Un langage de programmations souvent utilisé par les linguistes pour le traitement des textes.

18

Page 19: memoire_M2_TALN

technique parce qu'il décrit les caractères de l'artefact et la partie « revendications »

constitue un document juridique dans la mesure où il protège l'artefact et son

inventeur. Il faut déjà définir quelles sont les connaissances à recueillir. Après ce stade,

il conviendra également de réfléchir sur la possibilité d'affiner les recherches en

prenant en compte ladite structure spécifique des textes.

c) le troisième consiste dans la diversité de domaines techniques traités dans les textes de

brevets. Chaque domaine emploie ses propres termes techniques et possède ses

propres façons d'expression. Il convient de s'interroger s'il est possible d'effectuer une

analyse textuelle sans le prendre en compte.

En sus de ces difficultés, nous ne mentionnerons qu'en un trait de plume les autres

inconvénients tels que les répétitions, les fautes de frappe ou les fautes de grammaire qui sont

présentes dans les textes de brevets.

Tous ces caractères en font une analyse bien complexe.

En considération de tous ces problèmes et dans l'optique de réutiliser les connaissances

existantes dans les brevets, nous proposons une approche qui applique des techniques de TAL

au contexte de la TRIZ. Notre approche est fondée sur la supposition que l'existence de

certains marqueurs linguistiques peut servir à indiquer et localiser des informations précises.

De même que nous exploiterons les caractéristiques, les styles et les typographies des textes

de brevets, nous procéderons, également, à des analyses sémantiques en exploitant la théorie

TRIZ. Nous détecterons les contradictions par le collectage de marqueurs qui sont associés

aux paramètres, aux éléments, et aux valeurs. Notre objectif est d'une part aider les

concepteurs à cerner les contradictions présentes dans les textes de brevets et d'autre part

faciliter l'extraction des connaissances et la recherche d'information relatives aux brevets.

19

Page 20: memoire_M2_TALN

La structure du mémoire

Ce mémoire débutera par une étude sur les travaux existants portant à la fois sur

l'analyse des textes et celle des textes de brevets. Nous essayerons de souligner dans cette

partie l'originalité de notre approche. Antérieurement à cette étude, nous avons déjà effectué

un l'état de l'art sur la disponibilité de brevets lequel sera présenté dans l'annexe 5.

Ensuite nous présenterons la méthodologie. Nous commencerons par une présentation

des démarches effectuées pour la constitution du corpus. Celui-ci contient cent brevets en

anglais tirés de domaines différents. Par la suite viendront l'analyse et l'interprétation des

phénomènes linguistiques observés dans les textes de brevets. A ce niveau, les résultats

d'analyse dépendent en grande partie de ses bonnes interprétations. Nous poursuivrons cette

étude par la présentation de l'étape d'annotation et d'extraction des textes à l'aide de marqueurs

collectés. Il s'agit d'une part de pouvoir représenter les observations dans une description

formelle, et, d'autre part d'arriver à réaliser semi automatiquement l'extraction d'une façon

pertinente. Pour une meilleure présentation des notions annotées, les textes sont transformés

en un texte HTML10 où des couleurs différentes sont définies pour représenter des notions

diverses. Enfin, les premiers résultats, un début d'évaluation et les difficultés rencontrées

seront présentés.

Une conclusion et les perspectives viendront clore ce mémorandum.

10 Hypertext Markup Language, c'est un langage de balisage qui permet d’écrire de l'hypertexte.

20

Page 21: memoire_M2_TALN

PARTIE I - L'ÉTAT DES LIEUX

21

Page 22: memoire_M2_TALN

Chapitre 1. L'analyse des textes

1.1. Préambule

Étudier un texte est une pratique ancienne. Depuis toujours, le texte est considéré

comme une sorte d'inventaire ou un stockage des connaissances. L'être humain a de tout

temps cherché à acquérir du savoir au travers des textes. Cependant, la masse et le volume

d'informations qui existent en format électronique aujourd'hui entrainent que l'analyse des

textes assistée par l'ordinateur innove par rapport à l'analyse manuelle.

Dans ce chapitre, nous présenterons deux approches centrales dans l'analyse des textes:

l'analyse statistique textuelle d'une part et l'analyse linguistique d'autre part. Nous conclurons

ce chapitre en exposant les limites de ces approches.

1.2. Présentation des approches dans l'analyse des textes

L'analyse des textes se divise en deux branches: l'analyse statistique textuelle d'une part

et l'analyse linguistique d'autre part.

1.2.1.a. L'analyse statistique textuelle

L'analyse statistique textuelle (text-mining en anglais) est connue également sous le

vocable d’«analyse quantitative ». C'est une discipline en rapport avec le texte. Elle est

appliquée dans la linguistique, l'analyse du discours, l'analyse du contenu, la recherche

documentaire ou l'intelligence artificielle. La statistique textuelle a pour objectif d'accéder aux

significations de segments qui composent le texte. Elle précise le contenu du texte par des

calculs statistiques, mais il n'y a pas de grammaires, ni de syntaxes.

22

Page 23: memoire_M2_TALN

La loi de Zipf11 est l'une des plus anciennes théories statistiques d'analyse des textes.

Les techniques classiques utilisées dans l'analyse textuelle sont :

• la segmentation qui revient à délimiter des unités minimales dans un texte (les

délimiteurs peuvent être l'espace, le chariot, les symboles, etc. ) ;

• le décomptage qui consiste à recenser les formes, les lemmes, les fréquences de termes

(TF, TF-IDF), les cooccurrences, les segments répétés, etc.

À titre d'exemple, la technique de « segments répétés » qui compte et regroupe les

segments dans un texte dont la fréquence est supérieure ou égale à deux, sert à identifier des

unités linguistiques récurrentes et possédant leur propre sens comme les locutions, les noms

composés ou les expressions figées (LEBART & SALEM 1994).

Une autre forme d'analyse quantitative de textes est représentée par la concordance, qui

est la liste des occurrences d 'une ou de plusieurs formes visibles à l'intérieur du texte

(SINCLAIR 1991).

1.2.1.b. Problèmes méthodologiques

L'analyse statistique constitue une méthode efficace pour traiter un gros volume

d'informations, mais elle reste limitée.

Par exemple, dans le cas de comptages de fréquences, des synonymes ayant un sens

identique, mais des formes linguistiques différentes sont traités comme des mots différents. Il

en va de même pour les mots polysémies qui partagent une forme identique, mais possèdent

de multiples sens.

L'analyse statistique opère sur les mots à la surface des textes et elle est souvent isolée

du contexte. Le sens lui échappe. Or un concept ou une notion recherchés sont souvent

11 La loi de Zipf est un résultat d'observations empiriques de la fréquence des mots dans un texte. Elle pose le postulat suivant : la fréquence d'occurrences « f(n) » est égale à « k/n » où K est une constante. (G.K. Zipf 1935, cité par LEBART & SALEM 1994)

23

Page 24: memoire_M2_TALN

fortement liés au contexte. L'analyse au niveau superficiel rend difficile, voire impossible, le

traitement du sens implicite. De plus, la langue naturelle est tellement complexe et changeante

que le sens dépend quelquefois non seulement de la forme, mais également des connaissances

du monde.

Malgré tout, c'est une méthode qui peut être exploitée comme une aide complémentaire

ou préparatoire avant d'effectuer une analyse linguistique approfondie. Celle-ci peut ensuite

affiner les résultats d'analyse statistique.

1.2.2.a. L'analyse linguistique

L'analyse linguistique est dite « analyse qualitative ». La technique implique souvent

l'utilisation des connaissances linguistiques (morphologique, syntaxique et sémantique) pour

effectuer une analyse fine du contenu.

L'analyse morphologique

L'analyse morphologique effectue l'analyse au niveau des termes. Elle emploie un

dictionnaire et un lemmatiseur (qui découpe les textes en unités lexicales en leurs formes

canoniques) pour attacher des connaissances aux termes. L'outil TREETAGGER que nous

présenterons dans le chapitre 5 fait partie des instruments utilisés pour l'analyse

morphologique.

Nous nous sommes plus spécifiquement limité à l'analyse morphologique reposant sur le

repérage de marqueurs. Elle étudie la formation interne des termes afin de pouvoir associer le

sens avec la forme. La recherche de Nathalie Grabar et al. (GRABAR & HAMON 2004) en

constitue une illustration. Les auteurs repèrent les relations d'antonymie en exploitant des

préfixes comme « dé-, non-, anti-, ir-, ... »; les relations d'hyperonymie avec préfixes comme

« hyper- »; la localisation temporelle à l'aide de « pré-, post-, ... »; la relation transversale à

l'aide de suffixes tels que « -eur » et « -age, ade, erie, -ment, ... ». L'exploitation des indices

morphologiques a pour but de relier sémantiquement les termes d'un domaine.

24

Page 25: memoire_M2_TALN

Il est à noter que cette méthode est non applicable pour les langues isolantes12 comme le

chinois ou le vietnamien.

L'analyse syntaxique

Elle intervient au niveau de la phrase en utilisant les règles de grammaire pour sa

représentation. L'analyseur syntaxique (parser en anglais) permet de produire des arbres

syntaxiques (figure xx). La structure syntaxique montre d'une façon précise les règles dont les

unités linguistiques sont combinées dans les textes, et elle permet également d'établir les

relations de dépendance afin d'arriver à exploiter le sens de la phrase. La représentation est

souvent élaborée soit à partir d'arbres syntaxiques (CHOMSKY 1965), soit par la grammaire

de dépendance (c'est-à-dire les arbres syntaxiques représentés à plat).

P

GN GV

V GN

pronom verbe déterminant nom

Il poursuit la fille

Figure 3: Une représentation de l'arbre syntaxique

Une analyse syntaxique appropriée est coûteuse en temps et en ressources. C'est la

raison pour laquelle il existe d'autres méthodes telles l'analyse simple qui applique le

« chunker »13 , ou encore l'exploitation de certains patrons (par exemple, structure « N of N »,

ou les groupes nominaux) sans recourir aux structures profondes de la phrase. Certains

chercheurs exploitent également des marqueurs pour extraire des patrons syntaxiques.

Dans sa thèse, P. Séguéla (SÉGUÉLA, 2001) a développé un système nommé

« Caméléon » dont des patrons syntaxiques sont utilisés pour désigner des relations

12 Dans une langue isolante, les mots restent invariables quelle que soit leur fonction syntaxique. 13 découpage des phrases en "morceaux" non récursifs pour indiquer les relations entre les éléments

25

Page 26: memoire_M2_TALN

sémantiques entre les termes. Simone Teufel et al. (TEUFEL & MOENS 2002) choisissent

dans les textes des « gold sentence » à savoir, les phrases susceptibles d'être extraites. Le

choix de « gold sentence » est basé sur la position de la phrase, sa longueur, la présence des

termes/marqueurs (thématique, mots-clés), ... A partir de l'observation des traits

caractéristiques de ces phrases, l'auteur constitue des règles pour extraire un résumé des

textes.

L'analyse sémantique

Dès les années 1990, une autre approche « l'analyse sémantique » a émergé afin de

pouvoir mieux accéder aux sens et contenu des textes.

Il s'agit de l'étude de sens. Elle associe le sens au terme en se basant sur le contexte dans

lequel il est inséré. L'analyse sémantique est appliquée soit dans le domaine de l'analyse du

discours, soit pour établir des relations entre les termes ou entre les concepts14 (par exemple,

les graphes conceptuels). Ces dernières ont pour but de construire à l'avenir des terminologies,

des thésaurus ou des ontologies.

Dans ce type d'analyse, c'est principalement la méthode utilisant le repérage des

marqueurs linguistiques ou les indices textuels qui a attiré notre attention.

Marti Hearst (HEARST 1992) a montré que dans les textes non structurés, il est

possible de rechercher des relations lexicales spécifiques qui sont fréquemment exprimées à

travers le texte. Après l'élaboration d'une liste de termes qui reflètent la relation recherchée,

les régularités d'expressions sont regroupées dans des schémas représentatifs (soit en

exploitant des schémas manuellement soit par les études de cooccurrences dans le contexte).

Ainsi, l'auteur a établi des relations hyponymies par la structure « NP15 such as NP1,

NP2, ...Npn » dont il découle que l'indice « such as » constitue le déclencheur de

l'identification de cette relation.

14 Des relations entre les termes ou les concepts sont généralement: des relations synonymies « X est équivalent à », des relations antonymies « X est l'opposé de Y », des relations hyponymies « X est une spécialisation de Y», des relations hyperonymie « X est une généralisation de Y », ou des relations parties_touts « X est une partie de Y ».

15 Syntagme nominale

26

Page 27: memoire_M2_TALN

Une autre étude de Simone Teufel (TEUFEL 1998) porte sur le repérage de marqueurs

de méta-discours, l'objectif consiste à relever l'organisation sémantique et logique du texte.

Daniela Garcia a présenté dans sa thèse (GARCIA 1998) le système COATIS qui

exploite des indicateurs linguistiques permettant d'identifier des relations causales. Le

système utilise la méthode de l'exploration contextuelle pour repérer les relations causales

exprimées par les verbes et leurs arguments. Un autre travail (FLORES 2006) effectue une

analyse linguistique sémantique et repère des relations de contrôle identifiées par la présence

de marqueurs linguistiques.

Le système JAVAVEILLE émanant de la thèse (BOUHAFS HAFSIA 2005) est

également basé sur l'exploration contextuelle. A partir des notions prédéfinies, les marqueurs

verbaux, nominaux, adjectivaux, adverbiaux, etc. sont collectés. (Par exemple, pour la notion

de « CoLocation », il collecte des marqueurs comme rencontrer, s'entretenir, réunion,

conférences.) Ensuite ces marqueurs sont définis par des contraintes spécifiques (par exemple,

l'existence des indices tels qu’entre, avec, à, ...) pour effectuer des annotations sémantiques.

Le système est conçu pour la veille technologique16.

Figure 4: Règle de <CoLocation> présentés dans JAVAVEILLE

16 Surveillance de l'environnement industriel et commercial de l'entreprise.

27

Page 28: memoire_M2_TALN

1.2.2.b. Problèmes méthodologiques

L'efficacité d'une analyse morphologique est liée à la qualité de dictionnaire ou du

lemmatiseur. Quant à l'analyse morphologique basée sur les marqueurs, elle n'est pas capable

de détecter les relations implicites qui ne sont pas exprimées par les caractères

morphologiques (suffixe/préfixe/infixe, etc). Toutefois, c'est une approche exploitable venant

en complément d'autres approches.

La grande difficulté d'analyse syntaxique est l'ambiguïté de la langue naturelle. Les

synonymes et les mots composés sont également des challenges. Ainsi, différentes structures

syntaxiques peuvent exprimer le même sens sur le plan de la sémantique. De même, un terme

peut revêtir plusieurs sens ou plusieurs catégories lexicales, certaines phrases sont

syntaxiquement claires, mais sémantiquement ambiguës. En conséquence, si les structures

syntaxiques seules n'enlèvent pas l'ambiguïté, il y a lieu de recourir au contexte. De plus, il

existe des relations implicites entre les termes qui ne sont pas signalées par la structure

syntaxique, ceci constitue encore une difficulté supplémentaire.

Dans l'analyse sémantique, l'attachement du sens aux termes ou phrases est parfois

subjectif. Quels sont les critères pour attribuer les sens ? Comme le signale Ch. J. Fillmore

(FILLMORE 1968): « le texte est un ensemble de phrases, mais qui entretient des rapports

implicites avec ce qu'on appelle encore extra linguistique ». Ces connaissances

extralinguistiques ou connaissances du monde sont intuitives chez les êtres humains, mais ce

n'est pas le cas pour les machines.

Dans le cas du repérage des marqueurs linguistiques, l'acquisition et les critères de

sélection des marqueurs dépendent en grande partie des besoins de l'utilisateur, chacun

dispose de sa propre définition de concepts à rechercher et chacun établit des marqueurs

différents. Nous avons également noté que beaucoup de travaux ont pour but de signaler des

relations entre les termes ou sont liés à l'organisation du discours. Il est indéniable que la

méthode de l'exploration contextuelle offre une manière efficace pour mieux accéder au

contenu. Néanmoins, les notions à rechercher sont identifiées par une étude sur le corpus en

fonction des besoins de l'utilisateur. Elles sont spécifiques en ce que concerne l'usage.

28

Page 29: memoire_M2_TALN

Les problèmes du domaine de dépendance et les traitements d'ambiguïtés sont toujours

des défis, en particulier, dans l'analyse des textes de brevets en raison de leur diversité.

1.3. Bilan

Il apparaît que tant l'analyse statistique que l'analyse linguistique connaissent tant tôt des

avantages et tant tôt des inconvénients. Elles sont complémentaires de sorte que pour parvenir

à extraire des informations précises répondant aux besoins de l'utilisateur, l'essentiel des

travaux se fait en combinant les deux méthodes. Nous pensons que pour un meilleur accès aux

contenus des textes et extraire au mieux les connaissances, il faut prendre en compte les

statistiques, les interactions des éléments linguistiques (morphologie, syntaxes, sémantique) et

les contextes. Le tout à partir d'un bon point de départ qui définit les notions à rechercher.

L'analyse des textes de brevets est encore un domaine plus complexe en raison de sa

structure externe et interne. Ainsi, les brevets consistent en des informations textuelles non

seulement structurées (page de bibliographie), mais également non-structurées. De plus,

chaque partie tend vers un but particulier à savoir le résumé de l'invention, sa description

détaillée, les revendications afférentes à sa protection juridique. Elle contient en outre des

connaissances spécifiques comme les problèmes techniques et les solutions apportées qui sont

exprimées dans la partie descriptive. De là découlent des questions du type : comment faut-il

procéder à l'analyse ? Quelles sont les connaissances à acquérir dans les textes ?

C'est ainsi que nous avons décidé de faire un état des lieux de l'analyse des textes de

brevets séparément. Le chapitre deux est une représentation des méthodes dans l'analyse des

textes en général, et le chapitre trois est consacré aux méthodes d'analyse qui sont liées à la

théorie TRIZ.

29

Page 30: memoire_M2_TALN

Chapitre 2. L'analyse des textes de brevets

2.1. Préambule

Un brevet réserve des avantages juridiques et économiques à son titulaire. Pour le

déterminer, nous emprunterons à l'Organisation Mondiale de la Propriété Intellectuelle

(OMPI) sa définition, à savoir « le brevet confère un droit exclusif sur une invention, qui est

un produit ou un procédé offrant, en règle générale, une nouvelle manière de faire quelque

chose ou apportant une nouvelle solution technique à un problème »17 .

Pour qu'une invention soit brevetée, elle doit remplir certaines conditions. Elle doit avoir

une utilité pratique, comporter un élément de nouveauté, qui ne fait pas partie du fonds de

connaissances existantes dans le domaine technique considéré. L'invention doit aussi

impliquer une activité inventive. Enfin, son objet doit être « brevetable » selon la loi de

chaque pays18.

Il découle déjà de leur définition que les textes de brevets constituent des connaissances

extrêmement enrichissantes. Durant ces dernières années, de grands efforts ont été déployés

pour mettre en valeur les connaissances dans les brevets. Cependant, il échet de remarquer

que les recherches réalisées sur l'analyse automatique des brevets sont éparpillées et

décevantes.

C'est pour cela que nous avons choisi de consacrer ce chapitre à l'état des lieux dans ce

domaine. Nous y présenterons les approches dans l'analyse des textes de brevets en général

ainsi que certains outils plus proches de notre thème. Le chapitre sera clos par une analyse des

problèmes méthodologiques.

17 http://www.wipo.int 18 Selon L'article 52 de la Convention sur le brevet européen (CBE 1973), ne sont pas considérés comme des inventions, et par conséquent

ne peuvent pas être brevetables :• Les découvertes, les théories scientifiques et les méthodes mathématiques ;• Les créations esthétiques ;• Les plans, les principes et les méthodes intellectuelles en matière de jeu ou d’économie ;• Les programmes d’ordinateur ;• Les présentations d’informations.

30

Page 31: memoire_M2_TALN

2.2. Présentation des approches dans l'analyse des textes de brevets

Les brevets sont des sources d’informations spécifiques. D'après une investigation de

chercheur auprès du groupe Vertex Pharmaceutical Anthony J. Trippe (TRIPPE 2003), il

n'existe pas encore d'instrument performant et générique qui s'appliquerait aisément dans des

domaines divers. En attendant le développement d’une telle aide, l'auteur préconise aux

utilisateurs de définir clairement leurs besoins avant de déterminer leurs choix. De ce fait, des

outils d'analyse de textes de brevets sont dédiés à la mise en évidence des valeurs diverses, et

on notera que très peu d'entre eux visent à extraire des informations ou des connaissances

contenues dans les brevets.

Deux méthodes se dessinent clairement dans ce champ : l'analyse qualitative d'une part

et l'analyse quantitative d'autre part.

2.2.1.a. La méthode quantitative

La méthode d'analyse quantitative consiste en un traitement statistique qui s'applique

avec l'approche « data-mining » et « text-mining ».

L'approche data-mining est nommée également analyse des données statistiques laquelle

comporte deux grands groupes de méthodes. Les deux méthodes sont complémentaires. Les

résultats d'analyse sont classiquement représentés en forme de nuages, histogrammes,

spirales, cercles, etc. Ces formes permettent d'interpréter vite les résultats d'analyses.

Les deux groupes de méthodes sont :

• les méthodes d'analyse factorielle. (l'analyse en composants principaux, l'analyse

discriminante, l'analyse canonique...) ;

• les méthodes de classification automatique. (les méthodes ascendantes, les méthodes

descendantes, les méthodes de partitionnement...) .

Le text-mining est également connu sous le vocable de « statistique textuelle ». Comme

nous l'avons mentionné dans chapitre 1, cette méthode effectue des calculs statistiques aux

données textuelles.

31

Page 32: memoire_M2_TALN

La méthode d'analyse quantitative appliquée aux brevets présente le résultat de l'analyse

par des diagrammes en barres, des diagrammes à secteurs, des graphiques en radar, etc. Ce

genre de représentation est désigné sous le vocable « cartes des brevets ». Elle permet de

comprendre et d'évaluer facilement de larges volumes d'information de brevets.

De tous les éléments de brevet, il apparaît que c'est la page de couverture19 qui est

majoritairement exploitée par la méthode d'analyse quantitative. A titre d'exemple, la méthode

bibliométrie est l'une de composantes de la méthode de l'analyse quantitative réputée pour la

détection de tendances de dépôts de brevets.

Certains chercheurs estiment que l'analyse bibliométrie constitue une approche

prometteuse. Selon Philippe Bereau et Henry Dou (BEREAU & DOU 1997), il existe une

dissociation entre l’analyse des champs structurés (Titre, Auteur, ...) et celle des données

textuelles non structurées. Les champs structurés sont bien adaptés au traitement bibliométrie.

Les contenus textuels ont besoin d'autres traitements. Et c'est dans ce cadre que les auteurs ont

adapté le logiciel « Neuro Text » pour présenter une approche complémentaire liée à

l’utilisation d’un système d’analyse spécifique basé sur la classification neuronale non

supervisée de Kohonen20. La classification se fonde sur la proximité de classe. Les brevets

qui sont censés concerner les mêmes termes sont collectés dans la même classe. Elle permet

d’améliorer la pertinence de la base en mettant l'accent sur des mots communs dans des

phrases ou dans des unités de sens. Les auteurs considèrent cette méthode comme une aide

complémentaire pour réduire le temps de lecture des brevets. La méthode est classique. Elle

classifie, par regroupement, de mots de mêmes racines, des synonymes ou des équivalences

entre plusieurs mots.

19 La page de couverture de brevet contient des métas-données ou des données structurées (c'est-à- dire des données qui sont déjà annotées, comme par exemple des données en XML ). Ce sont généralement des informations bibliographiques telles que le titre de l'invention, la date de dépôt, la date de priorité, le domaine technique concerné, le nom et l'adresse des/du demandeur (s) et des/de l'inventeur (s). Il contient également un résumé et un dessin représentatif (le dessin n'est pas obligatoire). La partie « bibliographique » est un moyen essentiel d'identifier, de localiser et de retrouver les documents de brevet.

20 Définition fournie dans (BEREAU & DOU 1997), les réseaux de Kohonen produisent une représentation sous la forme de grille à deux dimensions d'états à N-dimensions. Cela permet de représenter les relations sémantiques entre les documents introduits en entrée.

32

Page 33: memoire_M2_TALN

2.2.1.b. Problèmes méthodologiques

La méthode quantitative tente tout d'abord d'extraire des informations du contenu, puis

de les regrouper en classe, et pour finir de les représenter. Son intérêt consiste à fournir aux

utilisateurs une meilleure visualisation du contenu. Cependant, celui-ci n’est pas analysé en

profondeur. Les connaissances enfermées dans les brevets ne sont pas efficacement

représentées par cette méthode. La méthode quantitative met en valeur des informations

structurées, mais pour accéder aux contenus, il nous faut appliquer des méthodes d'analyse

plus raffinées. Les méthodes basées sur les connaissances linguistiques vont permettre cet

accès aux contenus.

2.2.2.a. La méthode qualitative

La méthode d'analyse qualitative repose sur l'approche du traitement automatique des

langues naturelles en s'appuyant sur l'analyse linguistique. Elle présente le contenu des

différents documents de brevet de façon plus précise où les résultats sont représentés avec

leurs caractéristiques. La méthode consiste généralement à un prétraitement de textes

(lemmatisation, étiquetage, segmentation, et reconnaissance des entités nommées ou des

concepts), un module de règles, et parfois des statistiques. Certaines applications utilisent des

ontologies.

Afin de mieux cerner cette méthode, nous avons sélectionné deux outils représentatifs

qui reposent sur des approches différentes dans l'analyse qualitative des textes de brevets.

Le système VIGITEXT

Le VIGITEXT (GOUJON 1999) est un système d'analyse qui se base sur l'approche de

l'exploitation contextuelle et l'analyse sémantique du document. Il est construit pour faciliter

la consultation de bases documentaires techniques et scientifiques dans le domaine de la veille

technologie. L'idée de « notion générale » est le noyau de ce système, à partir duquel une base

de connaissances linguistique est construite. Les notions de recherches sont liées à la

33

Page 34: memoire_M2_TALN

description de : /changement/, /amélioration/, /détérioration/, /augmentation/, /diminution/,

/production/, /utilisation/ et /résistance/. Ce système s'appuie sur 170 indicateurs linguistiques

et 67 règles d’exploration contextuelle.

L'outil est à la fois autonome puisqu’il n'impose pas d'avoir recours à d'autres analyses

extérieures du système, et interactif parce que le programme peut être ajouté ou complété avec

de nouvelles connaissances linguistiques. Cependant, le système prend en compte seulement

les documents exploités par les veilleurs, à savoir, les résumés et le titre. Les autres parties

textuelles ne sont étudiées.

Le Pat-Annote

Le Pat-Annote (GHOULA et al. 2007a; 2007b) se base sur les principes du web

sémantique. Il vise à faciliter la génération automatique des annotations sémantiques sur les

brevets accessibles en ligne. Il est appliqué au domaine biomédical. Les auteurs revendiquent

que l'outil puisse être adapté à d'autres domaines dans l'avenir.

Les documents de brevets sont transformés de format HTML en XML. Ensuite, une

annotation sémantique est lancée et les résultats regroupés dans une base. Elle repose sur

deux ontologies :

1. Patonto : une ontologie de brevets qui représente sémantiquement les documents de

brevets. Elle est constituée de trois sous-ontologies :

a) Patent Content Form (Formule de contenu de brevet) ;

b) Auxiliary-Data (Données secondaires) ;

c) Patent Media Content (Contenu d'image/d'illustration) ;

2. Une ontologie de domaine ( elle est relative au domaine biomédical).

L'approche basée sur le web sémantique (Pat-Annote) est relativement nouvelle dans le

domaine de TALN. Il est indéniable qu'elle représente mieux le contenu d'un texte.

Néanmoins, on peut regretter que cette approche soit coûteuse et elle reste également limitée

dans son application.

34

Page 35: memoire_M2_TALN

2.2.2.b. Problèmes méthodologiques

La dépendance du domaine, l'application spécifique d'outils, l'inadéquation des données

ou concepts de recherche sont des difficultés que nous soulignerons par cette étude.

Premièrement, malgré tous les attraits des outils développés, il ne faut pas oublier que

les brevets couvrent de nombreux domaines. Par conséquent, un instrument qui est

indépendant du domaine traité est fortement souhaitable. A cet égard, nous n'avons pas encore

remarqué l'existence d'une recherche qui serait faite effectivement sans distinction du

domaine.

Deuxièmement, la critique principale concerne la décision de notions de recherche. Le

VIGITEXT définit les notions en fonction des besoins de veilleurs. Il ne s'appuie pas sur un

modèle de connaissances. Par conséquent, le choix de notions de recherche est absolument

subjectif. Le Pat-Annote exploite la structure interne de brevets ainsi que les terminologies du

domaine. Il se contente d'une annotation sémantique basée sur les ontologies. Il n'y a pas des

notions spécifiques à rechercher. Les connaissances encodées dans les brevets sont

abondantes, dispersées et diverses. Il est primordial de réfléchir avant tout sur les

connaissances à rechercher pour en tirer un maximum de bénéfices.

Troisièmement, l'application spécifique d'outils est une autre critique que nous

avançons. Par exemple, le système VIGITEXT analyse seulement le résumé et le titre du

brevet parce qu'il est adapté à un usage de veille. Il a tendance à négliger les autres parties

importantes des brevets telles que la partie « description » qui démontre les problèmes

techniques posés ou encore la partie « revendication » qui détaille les nouveautés d'invention.

Le Pat-Annote est appliqué au domaine biomédical. Il représente les brevets par une

annotation sémantique. Cette annotation repose d'une part sur la structure interne du brevet et

d'autre part sur une ontologie du domaine. Il est spécifique parce qu'il dépend la disponibilité

d'ontologie du domaine.

L'émergence d'un instrument universel qui serait utilisable dans tous les domaines n'a

pas encore vu le jour.

35

Page 36: memoire_M2_TALN

2.3. Bilan

Il apparaît que l'analyse des textes de brevets est très complexe et délicate. Les données

textuelles sont pléthore en quantités, en domaines et en structures. Certaines parties sont

adaptées pour l'analyse quantitative tandis que d'autres le sont pour des traitements plus

délicats. Tout dépend des besoins de l'utilisateur.

Que recherche-t-on dans l'analyse des textes ? C'est une question qu'il convient de se

poser avant de débuter. Elle nous a amené à exploiter les notions de la théorie de la TRIZ. En

conséquence, nous présenterons dans le chapitre 3 la méthode proprement dite, ainsi qu'une

étude des outils qui y sont liés.

36

Page 37: memoire_M2_TALN

Chapitre 3. La TRIZ et l'analyse des textes de brevets associée à celle-ci

3.1. Préambule

Ce chapitre traitera de l'analyse des textes de brevets associée à une approche spécifique

à la conception inventive qui se caractérise par le fait que les inventions doivent être

« inventives ». Il s'agit de la méthode TRIZ. Nous énumèrerons quelques outils sélectionnés

en vue d'une étude comparative. Les problèmes méthodologiques et l'originalité constituée par

l'approche choisie viendront clore ce chapitre.

3.2. La TRIZ, une théorie de résolution des problèmes inventifs

La TRIZ (ALTSHULLER 1998, ALTSHULLER 2004) affirme que l'inventivité et la

créativité peuvent s'apprendre. Cette théorie repose sur deux fondements :

• les lois d'évolution (huit lois au total) qui postulent que l'évolution technologique est

prévisible ;

• et la contradiction qui présume que le moteur d'évolution d'un artefact technique est la

contradiction; ceci signifie que chaque problème d'invention suppose une

contradiction qu'il faut résoudre. Dans le cadre de cette recherche, c'est la

contradiction qui nous intéresse.

Pour arriver à la contradiction, il faut repérer les paramètres, les éléments ou les valeurs

concernés. En effet, selon la TRIZ, chaque système dispose de ses propres paramètres. Les

éléments sont des composants ou des parties du système. Ils comprennent des paramètres

d'action sur lesquels il est possible d'agir, ainsi que des paramètres d'évaluation dont la valeur

est intangible. Les valeurs sont les propriétés des paramètres. Le changement des paramètres

d’un élément a une influence positive ou négative sur d’autres paramètres. Ce cas de figure

37

Page 38: memoire_M2_TALN

est appelé la contradiction. Par exemple, dans le cas d'une serrure de porte d’un véhicule, la

force mécanique appliquée sur la serrure (élément) doit être assez forte (valeur) pour

assurer l'isolation du bruit (paramètre) mais elle doit être en même temps faible (valeur)

pour faciliter l'ouverture (paramètre) de celle-ci. Par conséquent, pour la résolution d'un

problème inventif, il est indispensable pour un inventeur de repérer et de résoudre la

contradiction.

Figure 5: Une illustration de relations des notions de la TRIZ

La TRIZ exclut les solutions de compromis. Il faut toujours imaginer le « Résultat Idéal

Final ». Quand un système a épuisé son évolution normale, les contradictions du système

forment une boucle insoluble et une loi d'évolution s'applique. Alors, elle revendique le

changement total de point de vue sur le système : un saut technologique est à effectuer, il faut

changer radicalement de point de vue.

En comparaison avec des approches traditionnelles de résolution de problèmes tels que :

• l'approche « brainstorming » qui est très liée aux compétences des individus;

• l'approche par essais-erreur qui accepte les compromis entre les éléments des systèmes

tout en cherchant une solution d’une manière aléatoire;

• l'approche plan d'expériences qui est complexe et ne permet de rechercher une solution

que dans une direction connue ;

La méthode TRIZ est une approche qui guide la recherche d'une solution. Elle a pu

surmonter les limites d'autres méthodes dans la résolution de problème d'invention.

38

Page 39: memoire_M2_TALN

Aujourd'hui, la TRIZ est appliquée au niveau international pour la création et l'amélioration

de produits, de services et de systèmes.

3.3. L'étude comparative d'outils d'analyse associés à la TRIZ

Suite à la reconnaissance de l'efficacité de la TRIZ dans le monde, les travaux qui

portent sur l'exploitation de cette méthode dans l'analyse des textes de brevets ont émergé.

Cependant, ils sont encore lacunaires et peu convaincants.

Certains outils ont pour seule finalité l'analyse en vue de la constitution de bases de

connaissances. On citera à ce titre la compagnie belge CREAX21 laquelle a réalisée un

programme de recherche dans lequel sont analysés tous les brevets américains accordés

pendant la période de 1985 à 2002 (MANN & DEWULF 2003a, 2003b). L'objectif consiste à

réorganiser la base de connaissances de la théorie TRIZ. Une base de données fonctionnelles

peut être utilisée en ligne22. Cette phase d'analyse est réalisée manuellement par les analystes.

Un outil intitulé « InnovationSuite » est ensuite développé, basé sur ce travail. Il

comprend trois modules :

• le Classique de CreaTRIZ, pour les applications techniques;

• CreaTRIZ, pour les affaires et l'administration;

• Potentiel Évolutif pour une utilisation pédagogique.

D'autres outils appliquent la méthode de text-mining pour effectuer la classification des

concepts. C'est le cas d’« Invention Machine Goldfire Platform »23, basée à Boston. La

spécialité de cet instrument consiste à réaliser l'analyse des textes de brevets par une analyse

syntaxique : chaque phrase est traduite dans une triade de SAO (le Sujet, l'Action, l'Objet).

D'autres chercheurs proposent des analyses basées sur l'ontologie, comme « Multi-Agent

Platform » (SOO et al. 2005) qui se sert des multi-modules, à savoir: l'agent d'ontologie,

21 http://www.creax.com 22 http://www.creax.com/function_database.htm 23 http://www.invention-rnachine.com

39

Page 40: memoire_M2_TALN

l'agent de thésaurus, l'agent d'invention (TRIZ), l'agent de coordination, l'agent de solution de

problèmes et l'agent de brevets; pour la réalisation d'extractions d'informations de brevets

dans un domaine spécifique.

L'outil PAT-Analyzer (CASCINI & RUSSO 2007a, 2007b), développé à l'Université de

Florence, est certainement la technique la plus avancée disponible actuellement pour le

traitement des brevets. Ce travail est aussi le plus proche du nôtre dans ses objectifs et ses

méthodes. PAT-Analyzer est un résultat de plusieurs approches combinées : l'approche

sémantique, l'approche fonctionnelle et le text-mining intégré.

Le résultat d'analyse est en diagramme fonctionnel. La méthode essentielle de cet outil

est l'adaptation de l'analyse fonctionnelle qui est supportée par l'analyse sémantique. Dans le

système, il existe une base de connaissances, une liste de synonymes, une liste de Sujet-

Action-Objet (S.A.O.) .

L'outil analyse des brevets selon le modèle de la TRIZ et cherche à en extraire des

contradictions. Il procède à une analyse structurelle et fonctionnelle du texte, qui comprend :

- l'identification des composants de l'invention ; (élément dans notre

terminologie)

- la classification des composants identifiés dans l'étape précédente en terme de

leur niveau d'abstraction ;

- l'établissement des liaisons fonctionnelles entre les composants .

Le système est capable d'identifier le sous-système et le super-système, des composants

de système interne et externe et de déterminer les interactions fonctionnelles entre les

composants. En exploitant les citations, il est également capable de relever la nouveauté d'une

conception.

En identifiant le SAO, les mots d'actions peuvent être soulignés par rapport à des

analyses.

40

Page 41: memoire_M2_TALN

Figure 7: Un exemple d'application de l'outil PAT-Analyzer

41

Page 42: memoire_M2_TALN

3.4. Problèmes méthodologiques

Nous avons vu dans cette étude que les outils d'analyse des textes de brevets associés à

la TRIZ ne sont pas nombreux.

Quelles sont les connaissances de la TRIZ à exploiter par les techniques de TAL? Dans

notre hypothèse, il s'agit des concepts liés à la contradiction. Il faut identifier les

contradictions afin de faciliter les travaux initiaux des concepteurs en fournissant une

formulation structurée de problème d'invention.

Cependant, notre étude relève que les outils existants ne vont pas jusqu'à la découverte

de la contradiction. D'après la TRIZ, le but d'identification des composants d'un système est

de souligner les causes, les effets, les liens entre celles-ci, et, d'identifier éventuellement les

contradictions qui ont lieu dans le système. Certains travaux ( PAT-Analyser ) quoique à

même d'identifier les systèmes et les composants, ne vont pas jusqu'à traiter les

contradictions. Les résultats de recherche réellement en lien avec la TRIZ sont relativement

faibles.

La critique principale que nous portons sur le PAT-Analyser repose sur son utilisation

des fonctions S-V-O (sujet, verbe, objet) pour représenter l'information obtenue. Cette

représentation, quoique consistante en elle-même, ne fournit pas des informations suffisantes

pour les experts. De plus, les descriptions fonctionnelles ne sont pas très utiles pour traiter les

contradictions.

La dépendance du domaine est une autre remarque que nous faisons pour la plupart des

outils. Nous n'avons pas encore repéré d'instrument qui soit indépendant. Cette difficulté

ressort cependant unanimement de l'analyse des textes de brevets.

Nous avons également constaté que le manque de compétences dans la linguistique

limite la performance des outils.

42

Page 43: memoire_M2_TALN

3.5. Bilan

Cette étude a mis en lumière que des outils existants n'ont pas de notions présupposées

à rechercher. En effet, même quand certains déclarent avoir des notions de recherche bien

définies (par exemple: VIGITEXT, PAT-Analyzer), ce n'est pas toujours satisfaisant au niveau

des résultats. Après notre recherche, nous sommes convaincu qu'à partir du moment où les

notions de recherches sont bien définies, l'instrument développé pourra s'appliquer dans tous

les domaines et pour tous types de textes. C'est la caractéristique la plus importante que revêt

notre approche.

Après notre recherche sur l'état des lieux d'outils d'analyse des brevets, nous avons

réalisé que notre approche peut être utile dans la mesure où elle est bien positionnée dans sa

recherche de motifs dès lors qu'elle repose sur des concepts précis (tels que les éléments, les

paramètres, les valeurs) et sur une méthode de repérage des marqueurs linguistiques

génériques contrairement à la plupart des autres moyens.

Un outil qui identifie les contradictions afin de faciliter les travaux initiaux des

concepteurs est souhaité, mais inexistant. L'originalité de notre travail repose sur le fait

d'avoir décelé ce besoin. Le noyau de notre recherche est la collecte et la localisation des

contradictions existantes pour décharger le concepteur et pour mieux gérer le processus de la

résolution de problèmes d'invention.

Notre approche présente le mérite d'être universelle. Les concepts de recherche sont des

concepts génériques dans la résolution de problèmes. Pour tout problème, la solution consiste

à résoudre une contradiction existante au cœur même du problème. La collecte de ces

concepts permet de ne pas être tributaire d'un domaine particulier. Nous pouvons dès lors

nous positionner sur un niveau abstrait et l'application de cet outil dans les autres domaines

devient possible.

Notre approche est susceptible de déboucher sur des plateformes multi-langues, comme

l'anglais, le français et le chinois.

43

Page 44: memoire_M2_TALN

L'étude de l'état des lieux a démontré qu'un besoin réel existe dans le domaine de

l'analyse des brevets. En y répondant, nous avons avancé l'approche d'analyse des textes de

brevets qui fusionne l'analyse linguistique et la méthode TRIZ. Les parties suivantes seront

consacrées à une mise en pratique de notre approche. Dans la partie II, nous présenterons

d'abord la constitution du corpus de référence, ensuite nous justifierons nos choix des outils

employés au cours de ce travail. Enfin, nous détaillerons les processus de sélection des

marqueurs sélectionnés. Dans la partie III, nous ferons une démonstration du résultat final,

ainsi que les difficultés et les limites de notre approche.

44

Page 45: memoire_M2_TALN

Figure 8 : Organigramme d'analyse et d'annotation

45

Page 46: memoire_M2_TALN

PARTIE II – MÉTHODOLOGIE

46

Page 47: memoire_M2_TALN

Chapitre 4. Le corpus de référence

4.1. Préambule

Un corpus de référence est une grande collection des données textuelles qui sert à

effectuer des traitements automatiques des langues.

« A collection of naturally occurring language text, chosen to characterize a state or

variety of a language. » (SINCLAIRE 1991)

L'acquisition des connaissances à partir d'un corpus part du principe que les textes

constituent la source de connaissances. La mise en place de méthodes d'analyse approfondie

sur le corpus permet d'accéder aux connaissances recherchées.

Pour la constitution d'un corpus, il est important de définir les critères de sélection, de

connaître la taille souhaitée, et de garder une trace des données sélectionnées. Ce chapitre est

consacré à une description détaillée de la constitution du corpus, son pré-traitement ainsi

qu'une présentation des caractéristiques de documents en question.

4.2. Construction du corpus

Le corpus est constitué de cent brevets d'invention rédigés en anglais. Nous avons opté

de travailler sur la langue anglaise en raison de la disponibilité des textes. Néanmoins, il est à

noter que notre approche est transposable dans les autres langues.

D'après les statistiques de Wordsmith, le corpus contient 1,148,548 mots.

47

Page 48: memoire_M2_TALN

Il est homogène en ce qui concerne le genre des textes. Néanmoins, les domaines

d'inventions concernés dans les brevets sont hétérogènes. Cette qualité découle du fait que les

notions recherchées dans les textes sont générales.

Les brevets sont des brevets électroniques sur la toile. Ils sont d'abord sélectionnés selon

des critères différents associés aux lectures de chaque brevet. Ils sont ensuite assemblés dans

un seul fichier au format brut24.

Pour la sélection des brevets, nous avons opté pour le choix des brevets publiés entre

2000 et 2009 en espérant que nous ne nous sommes pas trop éloigné des développements

technologiques de ces dernières années. Les brevets sont recherchés sur le site de

http://www.google.com/patents et http://www.patents.com . N ous avons exclu ceux concernant

les compositions des médicaments, les ADN, les plantes, car ils ne représentent que peu

d’informations utiles pour notre thème de recherche. De plus, nous souhaitons prendre

seulement en compte les brevets qui reflètent des nouveautés. Par conséquent, nous avons

sélectionné les brevets à l'aide de mots clés, tels que: discovery, discovered surprisingly,

novel, new. Les informations concernant les notions de la TRIZ, les effets physiques ou

chimiques constituent également un critère de sélection. Par exemple des brevets qui

contiennent des informations sur : electro-hydraulic, porous, pressure, catalytic, polymer,

light, the Curie point, etc. Enfin, une lecture approfondie est effectuée afin d'éliminer les

brevets qui ne donnent pas suffisamment d'information concernant le thème de la recherche.

4.3. Le pré-traitement du corpus

Ensuite, le corpus est traité en lui appliquant des balisages XML25. Un document DTD26

est défini pour le fichier XML, et la source de tous les brevets est notée dans un fichier à part.

L'intérêt de balisages XML consiste à faciliter la réutilisation, la navigation du corpus ainsi

24 En informatique, un fichier texte brut est un fichier dont le contenu représente uniquement une suite de caractères imprimable d'espace et de retour à la ligne.

25 Extensible Markup Language, un langage informatique qui définit une syntaxe générique pour formater les données avec des balises simples et compréhensibles par l'homme.

26 Définition de type de document en français. C'est un document qui permet de décrire le modèle de document , par exemple, pour XML.

48

Page 49: memoire_M2_TALN

que l'extraction des données dans le corpus. Celui-ci est balisé selon les parties différentes

présentes dans les brevets telles que les informations bibliographiques, l'abrégé, les

descriptions et les revendications.

Les balisages définis pour le corpus sont :

• <pats> est le balisage d'entête; il contient les 100 brevets sélectionnés ;

• <pat> est la balise pour chaque brevet entier. Elle contient des sous-parties comme

<title> pour le titre, <patinfo> pour les informations bibliographiques, <abstract>

pour la partie « abrégé », <claims> pour la partie de revendications, et <description>

pour la partie de descriptions ;

• dans la sous-partie de la balise <patinfo> on trouve des balisages comme <id> pour

le numéro d'identification, et <date> pour la date de publication ;

• dans la sous-partie de la balise <descriptions>, il existe <field> qui représente

l'indication du domaine, <background> qui représente l'art antérieur du domaine,

<drawings> qui représente la présentation des figures, et <detailed_description> qui

représente la description précise de l'invention .

4.4. Les caractéristiques du document en question

Le document de brevets est structuré et son texte possède des traits particuliers. En vue

de cette propriété de document en question, il nous paraît capital d'exposer ces particularités

en les distinguant: les caractéristiques de la structure et les caractéristiques de textes.

4.4.a. Les caractéristiques de la structure

Dans le cadre d'une recherche non applicative en matière de textes de brevets, Brigitte

GUYOT, en matière de sociologie de l’information, et Sylvie NORMAND, dans le domaine

la linguistique (BRIGITTE 2004) ont montrées qu'un document de brevet possède plusieurs

couches qui s’ajoutent les unes aux autres. C'est pourquoi un tel document peut être considéré

comme revêtant en même temps une valeur scientifique, inventive et juridique. Dans notre

49

Page 50: memoire_M2_TALN

observation, un texte de brevet est généralement structuré en six thématiques:

1) le titre, il s'agit souvent d'une phrase introductive de la description de l'invention. Il

donne une vague indication du sujet ;

2) le résumé, où l'on expose la description des utilisations et les caractéristiques

techniques essentielles de l'invention. Il comporte généralement moins de 250 mots ;

3) l'état de l'art de l'artefact, il décrit les problèmes techniques et les solutions partielles

existantes afin de révéler les besoins de l'invention actuelle ;

4) l'objectif de l'invention pour exposer la solution ou une améliorations technique

appropriée par le brevet ;

5) une description détaillée de l'invention (un document technique) où l'on précise les

composants, leurs fonctions et les caractéristiques de l'invention ;

6) les revendications sont un document juridique qui définit les protections légales pour

l'inventeur. Dans la plupart des cas, la première revendication est identique au résumé

et elle revendique la caractéristique la plus importante de l'artefact .

En fonction du thème traité, chaque partie dispose de traits linguistiques spécifiques d'où

provient l'importance de la définition des notions de recherche. De plus, cette caractéristique

peut être utile pour la classification thématique de documents.

4.4.b. Les caractéristiques de textes

La spécificité de textes de ce type de documents demeure la variété de domaines. Les

textes peuvent contenir des termes peu fréquents dans le langage général et ils sont très

spécifiques au domaine. Cette dépendance du domaine constitue la difficulté majeure de

l'analyse de brevets. Au niveau de la linguistique, les textes comportent des phrases longues

et parfois elles évoquent plusieurs thèmes. Il n'est pas rare de rencontrer un paragraphe de

centaine de mots qui est composé d'une seule phrase. Les noms composés complexes sont

fréquemment employés pour exprimer le maximum d'informations avec un minimum de mots.

Les verbes sont généralement des participes à l'usage adjectival (l'attribut ou l'épithète27). On

note également que les adjectifs sont coutumièrement des épithètes. Ainsi, la juxtaposition

des adjectifs ou des adverbes est récurrente. La complexité linguistique défavorise l'analyse

27 Il apporte au nom qui suit une qualité particulière sans avoir besoin de l'intermédiaire d'un élément verbal.

50

Page 51: memoire_M2_TALN

basée sur la syntaxe. En outre, les répétitions, les énumérations, les symboles, les

abréviations sont des formes usitées. Cela rend encore plus difficile le traitement des textes en

ce qui concerne la segmentation, l'indexation ou le calcul statique.

Cette observation nous a permis d'orienter l'analyse vers le repérage de marqueurs

linguistiques lié à la conception inventive.

En effet, les marqueurs doivent être autonomes du domaine. Ils doivent représenter une

des notions recherchée dans notre étude et être présents d'une façon générale dans les textes.

Nous sommes convaincu que l'approche adaptée nous permettra de résoudre les problèmes

posés au niveau de l'analyse des textes de brevets.

4.5. Bilan

En partant de l'hypothèse que les notions et les marqueurs linguistiques demeurent

indépendants du domaine traité, la caractéristique de notre corpus réside ainsi dans la diversité

des domaines abordés.

Nous procéderons dans les chapitres 5 et 6 à l'analyse de corpus en nous appuyant sur

l'étude et l'observation des textes. Cette analyse démontrera que cette autonomie de domaine

est parfaitement réalisable.

51

Page 52: memoire_M2_TALN

Chapitre 5. L'analyse préliminaire des textes

5.1. Préambule

Lorsque le corpus est prêt, il convient d'entamer la phase de l'analyse. Dans ce chapitre,

nous présenterons les notions exprimées dans les textes. Nous exposerons les démarches

adaptées pour l'analyse. Nous justifierons notre choix d'outils appliqués, et nous détaillerons

le procédé pour une première sélection de marqueurs linguistiques.

5.3. Les notions recherchées exprimées dans les textes de brevets

Nous recherchons dans les textes les marqueurs linguistiques pour localiser des

contradictions de la TRIZ. De ce fait, nous avons besoin de localiser les paramètres, les

valeurs et les éléments.

Pour ce faire, nous avons décidé d'effectuer un travail collectif:

− une partie du travail consiste à chercher les marqueurs. C'est l'objectif du présent

mémoire ;

− l'autre vise à localiser les paragraphes intéressants en utilisant les marqueurs et les

méthodes de la classification automatique. C'est la mission qui incombe à l'équipe de LGéco.

Le travail de l'équipe LGéco vise à filtrer les paragraphes, à localiser les paragraphes qui

contiennent des informations pertinentes et à réduire la quantité de texte à analyser. Diviser le

travail en deux tâches permet de renforcer la fiabilité de l'extraction et de faciliter la recherche

des contradictions. Elles sont complémentaires.

52

Page 53: memoire_M2_TALN

La recherche de marqueurs est le travail concerné par ce mémoire. A première vue, on

constate que dans les textes de brevets :

- les éléments sont exprimés par groupes nominaux ( l'usage des pronoms est

généralement exclu afin d'éviter toute ambiguïté) ;

- les valeurs par des adjectifs, des verbes ( il s'agit le plus souvent de participes à l'usage

adjectival, et rarement de verbes) et des adverbes ;

- les paramètres sont traduits soit par des noms, soit par des verbes.

Les marqueurs de relation partie_tout peuvent éventuellement nous aider à les identifier

les éléments. Cependant, les paramètres et les valeurs sont plus difficiles à repérer du fait

qu’ils sont formulés par des formes grammaticales différentes.

Les paramètres sont généralement désignés par des verbes. Certains noms peuvent

également traduire les paramètres (velocity, resistance). Les valeurs sont désignées

généralement par des adjectifs. Mais on constate l'existence de certains noms qui reflètent les

valeurs (augmentation, concentration), de même que des adverbes (inexpensively, forcedly),

ou encore des valeurs numériques et des verbes (reduced, increased). Parfois une valeur peut

indiquer concomitamment un paramètre (dans steady performance, l'adjectif steady peut

indiquer un paramètre steadiness). Afin de repérer les notions, nous envisageons de

commencer par la constitution des listes de marqueurs signalant les notions recherchées.

Les contradictions sont exprimées par des oppositions (les valeurs opposées) qui se

manifestent au niveau grammatical, lexical ou syntaxique. Cela ne semble pas évident à

repérer. Les valeurs opposées attachées au même paramètre sont soient incomplètes, soient

très distancées ( plusieurs paragraphes ). De plus, il existe très peu de brevets qui expriment la

totalité d'une contradiction. Dans la plupart des cas, on retrouve seulement une valeur d'un

certain paramètre à la fois ( eg. une amélioration ou une détérioration ). Il nous semble que la

solution consiste à construire un dictionnaire d'oppositions.

Bien que le risque de perdre beaucoup d'information existe, nous conserverons

seulement les marqueurs sûrs et validés par les experts. Il est inutile de feindre disposer des

listes complètes de marqueurs. En effet, une liste préparée manuellement ne jamais complète.

53

Page 54: memoire_M2_TALN

Notre modeste objectif tend d'une part à alléger les travaux des experts, et d'autre part à

prévoir la faisabilité d'une projection des marqueurs sur d'autres corpus à afin de repérer un

maximum desdits marqueurs. Il faut évidemment prendre en considération que cette méthode

produira de faibles résultats au niveau du rappel si elle est appliquée aux textes hors corpus de

référence.

De même, il convient de souligner que selon la TRIZ, il existe des éléments différents

dans un système technique. Les éléments intéressants sont ceux qui subissent un

changement. Celui-ci se réalise sur ses paramètres (deux paramètres entrent en jeu : le

paramètre d'action et le paramètre d'évaluation). Les paramètres ont leurs valeurs qui

peuvent avoir des influences soit positives soit négatives. Appliquer une certaine action sur le

paramètre d'action, provoque l'amélioration ou la détérioration du paramètre d'évaluation d'où

la venue de la contradiction. En conséquence, pour l'annotation et l'extraction, nous nous

intéressons seulement aux marqueurs montrant des interactions entre les trois notions de

recherche (des changements, des actions, ou des influences positives ou négatives).

Afin de mieux cerner l'analyse, nous allons entreprendre les démarches suivantes :

1) l'identification des marqueurs potentiels au cours de l'analyse préliminaire ;

2) l'analyse approfondie basée sur les contextes afin de raffiner les marqueurs. Cette

étape nous permettra d'affirmer les rôles sémantiques de marqueurs et d'établir des

relations entre eux ;

3) l'annotation à l'aide de l'outil NOOJ et l'affichage de résultats en couleurs pour une

meilleure visualisation.

5.2. Choix des outils

L'analyse est assistée par des outils informatiques. Chacun dispose de ses propres

avantages et ses propres désavantages. De ce fait, d'après une analyse des besoins, nous avons

choisi quatre outils différents que nous avons estimé utiles pour accomplir cette étude.

54

Page 55: memoire_M2_TALN

LInguistic and Knowledge Engineering Station

LIKES (LInguistic and Knowledge Engineering Station) est une station de travail

destinée aux linguistes. Elle possède de nombreuses fonctionnalités : normalisation, les

segments répétés, concordancier, etc. LIKES est capable de traiter aujourd'hui un gros corpus

d'un million de mots. Ses fonctions les plus intéressantes sont la possibilité de retourner dans

le corpus pour voir le contexte28 ainsi que le calcul de segments répétés. Ceux-ci présentent

les segments qui ont même tête29 dans une structure arborescente. Pour nous, LIKES est

l'outil principal pour effectuer l'observation de marqueurs linguistiques, mais il est restrictif

pour les annotations. Cette limitation dans la phase de formalisation, nous a amené à opter

pour NOOJ.

NOOJ

NOOJ a été développé en particulier pour répondre aux besoins linguistiques et

pédagogiques. C'est un environnement de développement linguistique capable de définir des

dictionnaires, des grammaires électroniques30 et de réaliser des annotations sur un texte donné.

C'est un outil pour construire et gérer des descriptions formalisées des langues naturelles. Il

est choisi pour sa fonctionnalité de graphes et la fonctionnalité d'annotations automatiques en

format XML.

Oxford WordSmith Tools

Oxford WordSmith Tools est un ensemble d'outils permettant étudier le "comportement "

des mots dans les textes. Les outils sont essentiellement utilisés par des lexicologues31, ainsi

que des professeurs, des chercheurs et des étudiants. Ce qui nous a intéressé dans l’Oxford

Wordsmith Tools est sa fonction de tri dans l'outil concordancier. Cette fonction nous permet

de trier les résultats de concordances par ordre alphabétique. Elle peut trier concomitamment

le contexte gauche et le contexte droit. Cette fonction a permis d'étudier les comportements de

nos marqueurs linguistiques d'une façon claire et nette.

28 Le contexte est la phrase, le paragraphe et le texte contenant l'occurrence.29 Une tête est un mot ou une suite de mots communs à plusieurs segments répétés différents.30 Modélisation de la grammaire en construisant des descriptions formelles.31 La lexicographie consiste à étudier, définir, classer les mots ou les expressions afin de constituer un

dictionnaire.

55

Page 56: memoire_M2_TALN

TREETAGGER

TREETAGGER est un étiqueteur32 qui prend en entrée un texte et fournit en sortie des

informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules,

ou des informations de lemmatisation33). TREETAGGER nous a permis l'étiquetage de notre

corpus afin d'y étudier les catégories lexicales. Par exemple, il aide à déterminer les

distributions lexicales ou encore il permet d'appliquer des scripts afin d'extraire les listes

d'adjectifs, d'adverbes et de verbes. Notre dictionnaire dans le NOOJ est également constitué

de résultats de TREETAGGER. Cependant, l'étiqueteur fonctionne sur les calculs

probabilistes34. Il conduit inévitablement à des fautes d'étiquetage. C'est pourquoi il convient

d'utiliser par ailleurs des indices linguistiques afin d'éviter d'être trop dépendant de

l'étiquetage.

5.4. Premières collections des marqueurs candidats

Avant de procéder à une analyse du corpus par des outils, il nous paraît judicieux

d’étudier d'abord toutes les catégories lexicales du corpus. A l'aide de l'outil TREETAGGER,

le corpus de 100 brevets a été étiqueté.

L'exemple ci-dessous illustre les résultats d'étiquetage:Magnetic JJ magnetic

random JJ random

access NN access

memory NN memory

having VHG have

digit NN digit

lines NNS line

and CC and

bit NN bit

32 Dispositif linguistique qui associe des informations (étiquettes) à des mots.33 La lemmatisation d'une forme d'un mot consiste à en prendre sa forme canonique. 34 Pour résoudre les ambiguïtés de la langue, il calcule la probabilité qu'un mot appartienne à une classe donnée

dans un certain contexte.

56

Page 57: memoire_M2_TALN

La première colonne consiste en unités lexicales qui apparaissent dans le corpus. La

deuxième colonne révèle la catégorie grammaticale des unités lexicales. La troisième colonne

indique les lemmes, c'est-à-dire les formes canoniques d'un mot. Par exemple, pour un nom,

son lemme est sa forme singulière. Les trois colonnes sont séparées par des tabulations.

Basés sur le résultat, les collègues au LGéco ont effectué des calculs statistiques TF, IDF

et TF-IDF afin de nous aider à la première sélection. C'est une méthode de pondération qui est

utilisée souvent dans la fouille de textes pour mesurer l'importance d'un mot à un document

extrait d'un corpus. Le calcul est basé sur les mots qui sont apparus au minimum deux fois

dans le corpus et qui possèdent des catégories comme noms (exception: les noms propres),

verbes, adjectifs et adverbes.

Tableau 1 : Les résultats d'un calcul statistique TF, IDF et TF-IDF sur le corpus

Sur le tableau ci-dessus, la première colonne représente la catégorie grammaticale, la

deuxième le lemme, la troisième la fréquence de termes (TF qui mesure la fréquence du terme

dans le document), la quatrième la fréquence inverse de document (IDF qui mesure

l'importance du terme dans l'ensemble), la cinquième le calcul de tf-idf (TF-IDF qui calcule le

poids d'un mot en multipliant les deux mesures), la sixième le nombre de brevets contenant le

terme calculé et la dernière montre l'existence de terme sur le WordNet (1=vrai, 0=faux).

57

JJ cross-sectional0.000583771161704612 1.70043971814109 0.000992667669667888 nb of pats = 40 WNet1 NN description 0.000486475968087177 0.04508788952853822.19341747074033e-005 nb of pats = 126 WNet1 VVN position 0.000389180774469741 1.04508788952854 0.000406728114235664 nb of pats = 63 WNet1 NN angle 0.000583771161704612 1.34994247105696 0.000788057484563315 nb of pats = 51 WNet1 VVN understand 0.000291885580852306 0.64732838168153 0.000188945820689296 nb of pats = 83 WNet1 NN bit 0.00700525394045534 4.21501289097085 0.0295272356635436 nb of pats = 7 WNet1 NNS term 0.000389180774469741 1.49880585697144 0.00058330642419593 nb of pats = 46 WNet1 NNS magnitude 0.000486475968087177 4.70043971814109 0.0022866509623181 nb of pats = 5 WNet1 VV deposit 0.000291885580852306 4.4374053123073 0.00129521462705992 nb of pats = 6 WNet1 JJ perpendicular 0.00233508464681845 2.37851162325373 0.00555402597373901 nb of pats = 25 WNet1 NN reference 0.000194590387234871 0.127550049720511 2.48200135669412e-005 nb of pats = 119 WNet1 JJ additional 0.0033080365829928 0.812914447399505 0.00268915073084094 nb of pats = 74 WNet1 VVZ decrease 0.000194590387234871 2.49880585697144 0.000486243599332836 nb of pats = 23 Wnet1

JJ uniaxial 0.00116754232340922 5.02236781302845 0.00586382698543894 nb of pats = 4 WNet0 NN transverse 0.000583771161704612 4.4374053123073 0.00259042925411985 nb of pats = 6 WNet0 NNS multi-state 0.000291885580852306 7.02236781302845 0.00204972790806435 nb of pats = 1 WNet0 NN generating 0.00707628581290991 2.63005039024969 0.0186109882637621 nb of pats = 21 WNet0

Page 58: memoire_M2_TALN

Les résultats de statistique ont démontré que plus les termes sont fréquents dans les

brevets (eg, description, reference), moins ils sont importants. D'après notre observation, il

s'agit effectivement des termes spécifiques à la rédaction d'un texte de brevets. Ainsi, les

termes qui sont importants et qui sont non existants dans le WordNet sont intéressants

(comme uniaxiale, transverse, multi-state, ...) et méritent d'être vérifiés dans le corpus.

Il est à noter que le collectage final de marqueurs est lié à une analyse linguistique basée

sur le contexte. Les statistiques à ce stade constituent seulement une aide supplémentaire pour

établir une première sélection.

Pour notre part, nous avons extrait35 tous les verbes, les adjectifs, les adverbes et les

noms de corpus afin de construire d'abord des listes élémentaires à partir de catégories

lexicales. Dans cette étape, toutes les catégories sont considérées comme étant des candidats

potentiels de marqueurs. Pour que les candidats termes soient corrects, ils devront être

analysés avec soin dans leurs contextes.

En raison de la taille de notre corpus qui contient plus d'un million de mots, il est

impossible d'étudier successivement tous les termes. Il est impératif de disposer d'outils

d'analyse susceptibles de nous permettre de raffiner de façon optimale nos listes. L'outil

LIKES est employé dans ce but. Nous avons déjà évoqué la fonction de segments répétés de

LIKES. Elle nous a permis de voir globalement les structures et les contextes des candidats

termes.

L'exemple suivant de l'analyse sur le verbe « cause » illustre concrètement les processus

de la première sélection :

L'étape un consiste à examiner tous les segments répétés de ce terme dans les textes.

35 le script nommé extrairecat.pl pour l'extraction des unités grammaticales est inclus dans l'annexe3.

58

Page 59: memoire_M2_TALN

Figure 9 : Un aperçu de segments répétés de terme « cause » dans LIKES

Ensuite, à l'aide de segments répétés, il faut vérifier dans les textes l'existence des

informations profitables. Le terme « cause » se révèle productif, il fonctionne non seulement

comme un pointeur de paramètres, mais également comme un pointeur de valeurs :

• les noms qui suivent le terme « cause » tant que deformation, load, increase, changes,

breakdown, compression, damage, deposition, fluctuation, injury, instability,

movement of, polarization, seperation, reflection, refraction, sont des candidats termes

pour paramètres.

• Les verbes qui suivent « cause » peuvent également indiquer des changements, donc

des valeurs. Eg: cause sth to rise; fall; flex; accelerate; move up and down; absorb

and radiate; oscillate; occur; get bigger, etc.

• Les noms qui suivent « caused by » sont susceptibles de mentionner des paramètres

changes, roughness, load, factor, activation, current flowing, loss, force, time,

variation, upwelling, heating, ...

• quand les noms suivent directement « causing », ils sont souvent des paramètres

breakdown, degradation, initiation,...

L'étape suivante est de regrouper les termes analysés et détectés avant de consulter les

autres collègues et les spécialistes de la TRIZ lors de la réunion hebdomadaire. Dans

l'hypothèse où les termes sont confirmé par les spécialistes précités qui valident l'existence

59

Page 60: memoire_M2_TALN

d'informations assez intéressantes, ils sont retenus dans notre première collection de

marqueurs.

Une ébauche de cette collection se dessine comme suit :

− les noms retenus qui sont porteurs de paramètres : pressure, rate, speed, capacity,

consumption, efficiency, ratio, stability, temperature, length, weight, width, emission, noise,

cost, effect, loss, stability, strength, time, discharge, resistance, resistivity, performance,

velocity, etc.

− les adjectifs retenus qui sont porteurs de valeurs : rapid, sudden, abrupt, gradual,

rotational, torsional, significant,slight,large, small, excessive, exceeded, substantial,drastic,

great, greater, dramatic,expensive, inexpensive, sharp, angular, three-dimensional, radial,

linear, pivotal, outward, lateral, upper, lower, rearward, upward, vertical, transverse, inward,

liquid, solid, fluid, axial, vertical, longitudinal, unidirectional, etc.

− les verbes retenus qui sont porteurs de valeurs et pointeurs de paramètres en même

temps : cause, increase, decrease, avoid, control, detect, effect, achieve, permit, prevent,

produce, provide, require, request, restrain, sense, result, suppress, accomplish, allow, attain,

catalyze, enable, experience, obtain, promote, realize, cover, illustrate, undergo, show, have,

assist, convert, limit, reduce, minimize, maximize, inhibit, resist, receive, execute, absorber,

acquire, etc.

− les adverbes retenus qui sont porteurs de valeurs et pointeurs de paramètres :

significantly, slightly, highly, effectively, substantially, expensively, inexpensively, simply ,

differently , efficaciously, easily, effectively, drastically, erroneously, efficiently, elaborately,

effectually, exceedingly, etc.

− les termes retenus qui indiquent des relations entre les éléments : comprises,

comprising, consisting of, includes, including, consisting, consists of, consisting essentially

of, characterized by, containing, having, which consists of, which comprises, which contains,

constituting, adapted to, configured to, etc.

Les vérifications sur le corpus et le repérage d'autres marqueurs à l'aide de termes

sélectionnés nous ont donné la possibilité de construire les premières listes de marqueurs

(verbes, adjectives, adverbes et noms). Seuls les termes qualifiés de pointeurs ou porteurs des

informations intéressantes pour la TRIZ sont retenus.

60

Page 61: memoire_M2_TALN

5.5. Bilan

Les premières listes établies ont favorisé la diminution de panorama d'investigation de

marqueurs. Mais ils ont apporté des informations excessivement redondantes. Il faut trier le

collectage de marqueurs en gardant ceux qui fournissent des informations précises. L'analyse

méticuleuse du contenu permettra ce raffinement. Dès que les marqueurs sont définitifs, il

conviendras de procéder à l'annotation et d'effectuer une évaluation préliminaire. Lesdites

tâches sont détaillées dans le chapitre suivant.

61

Page 62: memoire_M2_TALN

Chapitre 6. L'analyse approfondie

6.1. Préambule

L'analyse approfondie vérifie les comportements des marqueurs sélectionnés tout en se

basant sur l'observation du corpus. Quand tous les marqueurs sont confirmés, l'annotation du

corpus doit être réalisée. L'annotation dépend de trois éléments:

• les marqueurs ;

• l'existence de certains indices ;

• l'accompagnement de notions de recherche avec au minimum deux notions.

Le présent chapitre est dédié à une démonstration des procédés de l 'analyse approfondie

en représentant séparément les marqueurs collectés.

6.2. Les procédés de l'analyse approfondie

L'analyse approfondie constitue un stade central parce que dans cette phase les

connaissances linguistiques sont primordiales, notamment une bonne connaissance

linguistique en anglais est requise. C'est une étape fastidieuse et complexe parce que

l'observation et le collectage des marqueurs linguistiques sont principalement basés sur

observations humaines et la tâche demande des compétences multiples (informatique36 ,

manipulation d'outil, etc.). Ainsi, les résultats d'analyse dépendent en grande partie de la

bonne interprétation et parfois le recours aux connaissances de l'expert en TRIZ est

nécessaire.

L'utilisation concomitante de l'outil LIKES et l'outil Oxford Wordsmith Tools est

exercée pour cette analyse plus fine. Dans cette phase, les listes des termes candidats se sont

36 Parfois le langage Perl doit être appliqué pour traiter certaines tâches automatiquement. Perl est un langage de programmation. Il est appliqué couramment par les linguistes pour l'extraction d'informations à partir de textes.

62

Page 63: memoire_M2_TALN

affinées par une observation minutieuse de sens et de comportements de chaque terme dans

son contexte.

Figure 10 : Un aperçu des concordances triées de gauche et de droite dans Wordsmith Tools

Compte tenu du fait que nous nous intéressons seulement aux paramètres qui subissent

des changements et qui disposent des valeurs ou des éléments dans les contextes, l'analyse

entamée a révélé que les paramètres sont les plus faciles à repérer parmi les trois notions. De

plus, nous disposons d'une liste de paramètres physiques fournis dans la littérature de la TRIZ,

elle nous facilitera la recherche. Corollairement, nous avons choisi de détecter les marqueurs

de valeurs ou d'éléments grâce à la liste de paramètres établie à partir de la première sélection

et réciproquement.

Dans la mesure où les catégories lexicales peuvent avoir des propriétés de plusieurs

notions à l'unisson, il devient difficile de classer directement les marqueurs selon leurs critères

sémantiques. De ce fait, nous avons préféré les classer d'abord en fonction de leurs catégories

lexicales. Ainsi, les marqueurs qui sont susceptibles d'être localisés par d'autres sont exclus de

la liste. Dans l'étape de l'annotation, au fur et à mesure de l'accompagnement de notions, nous

attribuerons des valeurs sémantiques : éléments, valeurs, paramètres.

Dans notre analyse, nous avons retenu 60 verbes, 137 adverbes, 473 adjectifs, 273 noms

et d'autres marqueurs discursifs que nous avons jugé utiles.

63

Page 64: memoire_M2_TALN

6.2.a. Les marqueurs verbaux

Les recherches entreprises ont démontré que les verbes utilisés dans les brevets sont,

dans la plupart des cas, des verbes d'action. Dans notre cas de étude, ce sont les verbes de

changements ou les verbes indiquant un changement de statut qui nous intéressent. Il nous

semble qu'ils sont le plus productifs comme porteurs de valeurs et pointeurs de paramètres.

Il existe déjà des travaux sur les verbes. Voir à ce titre le Framenet37 et le Verbnet38. Les

chercheurs travaillent sur les structures des verbes (appelés aussi « agents » quand il s'agit de

sémantique). Les structures montrent que les placements des arguments de verbes ne sont pas

dus au hasard. Il y a un ordre à respecter. Avec une liste exhaustive de verbes (les agents), il y

a moyen de localiser les arguments (les paramètres, les valeurs ou les éléments dans notre

terminologie) en fonction de leur ordre dans une structure syntactique. Cependant, ces travaux

sont basés sur l'étude de la langue générale. Nous ne pouvons pas bénéficier pleinement de

leurs travaux tenir compte de la spécificité du langage de brevet. Par exemple, le terme

« explode » est encadré dans la classe de « Change_position_on_a_scale » avec les autres

termes comme « increase, decrease, ... », mais dans notre corpus, le terme « explode » est

utilisé pour la description de figures, il est en participe comme un épithète adjective, et sa

structure est « FIG.XX is an/a <RB> exploded view/drawing of ELEMENT39 », comme :

1) [0014]FIG. 5 is a partially exploded, isometric view of a portable electronic device with the

latching mechanism shown in FIG. 1;

2) FIG. 22 is an exploded view of socket 2158 according to some embodiments.

Bien que les travaux mentionnés ci-dessus soient une source d'inspiration, il n'est pas

envisageable de localiser les arguments (les éléments, les valeurs ou les paramètres) selon

leurs classifications. Dans notre étude, il importe de collecter d'abord les arguments, ensuite

d'établir leurs relations avant de pouvoir profiter de leurs structures syntaxiques.

37 http://framenet.icsi.berkeley.edu/ 38 http://verbs.colorado.edu/~mpalmer/projects/verbnet.html 39 RB indique la catégorie adverbe. Il est optionnel dans cette structure. ELEMENT représente les composants

de système.

64

Page 65: memoire_M2_TALN

Nous avons tout d'abord élaboré une liste élémentaire de verbes. Dans cette phase

d'analyse, nous examinons le contexte de verbes. Nous exploitons en même temps la liste de

paramètres afin de repérer d'autres marqueurs verbaux. Dans les exemples suivants apparaît le

déroulement de l'opération.

Exemple 1: Voici un extrait de concordances de « reduce » qui démontre les

déroulements de l'observation basée sur les concordances. (le terme en gras, les paramètres en

bleu)

a shape anisotropy of approximately one hundred Oe would be reduced to approximately 75 Oe

a predetermined moving plane or two-dimensional rotational forces can be reduced to almost 0.

the sum of reaction forces acting on the base can be reduced to almost 0. T

These measurements can be reduced to equilibrium vapor and liquid compositions in the cell by

the vacuum pressure can be reduced to 20 torr and the microwave power can be raised to about 3

then the number of gages per seat can be reduced to three providing a good model of ...

The mud turbine can utilize a gearbox to reduce the revolutions per minutes.

The ESP process treats water to reduce the conductivity of the water to reduce the leakage current.

The overall objective is to reduce the unnecessary biopsies and interventions, and increase the ....

energy can be trapped around the resonator to reduce the radiation loss in the resonator

materials were mixed in a glove box under a flow of dry nitrogen after the pressure was reduced

Nous avons repéré 496 concordances pour ce terme. Après l'étude de contexte, il échet

de souligner que ce terme nous indique en règle générale l'existence de paramètres. Il

mentionne parfois des limitations numériques de valeurs par l'indice « to » dans la structure

« MD be + reduced + to + valeurs numériques ». Il indique également les oppositions. Les

termes « increase » et « raise » sont des oppositions qui accompagnent « reduce » à maintes

reprises. En conséquente, nous avons gardé ce terme dans notre liste.

Exemple 2 : Certains verbes en passif sont employés pour indiquer les relations entre

les éléments ou les fonctions d'un élément. Dans ce cas, ils sont suivis par des groupes

nominaux (les relations) ou des verbes à infinitif (les fonctions).

65

Page 66: memoire_M2_TALN

Dans le corpus, pour la structure « GN_Element + V_passive + to », nous avons

recensé 230 concordances pour « adapted », 297 pour « attached », 456 pour « connected »,

305 pour « coupled », 115 pour « configured » et 60 pour « mounted »... ...

3) A system, comprising: at least one processor adapted to be supported by a user while the user is

in locomotion on foot, on a surface, the at least one processor being configured to identify an amount of

force exerted by at least one foot of the user on the surface during at least one footstep taken by the user .

29. The system of claim 28, wherein the at least one processor is configured to identify an average amount

of force exerted by the at least one foot of the user on the surface during the at least one footstep .

Ce groupe de verbes ne suscite l'intérêt que dans le cas où ils sont suivis par des verbes

indiquant les fonctions d'éléments. Toutefois, ce sont des marqueurs discutables (ils

n'indiquent pas de changements). Dès lors, nous les avons gardé à part dans la liste de

marqueurs incertains.

Exemple 3 : Ici, il ne s'agit plus de changements, mais d'un empêchement de

changement. D'après l'expert, l'existence de paramètres « rotational position, volume

capacity » indique des informations intéressantes. Elle est conforme à la logique de la TRIZ

( if ... then ... ) : si la capacité de volume est achevée, il y aura un changement de la position.

Pour cette raison, le verbe « maintain » est retenu comme un marqueur, et son indice est

défini comme « until ».

4) The moment created by the counterbalance weight about the axis of rotation maintains the static

filling rotational position until the specified volume capacity is achieved.

Paramètre: static filling rotational position

valeur: maintain

paraphrase possible: when the specified volume capacity is achieved, the rotational position will

change.

Cependant, le marqueur « maintain » n'indique pas dans tous les cas des paramètres. Il

indique quelquefois des éléments. Par conséquent, il posera des problèmes dans l'étape

d'annotation en ce qui concerne l'attribution de valeurs sémantiques. Cet exemple démontre

les difficultés au cours de l'étude qui concernent l'identification de notions et la décision de

66

Page 67: memoire_M2_TALN

l'attribution de valeurs sémantiques. De telles situations sont pléthores et l'avis d'expert est

primordial.

Exemple 4 : Ce cas de figure signale l'utilisation d'oppositions de verbes dans les textes

de brevets. Cette caractéristique s'applique non seulement pour les verbes, mais également

pour les adverbes et les adjectifs.

6) That is, even if at least one of the first and second stages move, the center of gravity of the stage

device does not move, and the reaction force are reliably canceled.

Étant donné que cet usage concerne plus fréquemment l'utilisation adjectivale de verbes

et que les adjectifs sont les plus représentatifs de l'usage d'opposition, nous détaillerons cette

caractéristique dans les paragraphes consacrés aux marqueurs adjectifs.

Conformément à ce qui a été illustré par les exemples précités, les repérages de

marqueurs se déroulent par référence au contexte, et corrélativement par référence à

l'existence d'autres marqueurs. Les conseils de l'expert sont également décisifs. A partir de

l'analyse illustrée, une liste de verbes contenant principalement les verbes de changements est

élaborée. Toutefois, il faut être conscient que cette liste de verbes est seulement une liste

restreinte, des futurs recherche sur les verbes et leurs synonymes seront plus productives.

La liste des 60 verbes :

increase decrease release damageraise change yield sizemeasure shape form enablemaximize augment minimize diminishkeep differentiate modify remove create produce yield procreatetransfer transmit enhance ameliorateobtain cause deflect stopmaintain deteriorate degrade eliminateemit enlarge extrude facilitateallow permit stop haltresist intensify stabilize restrictretain save spend segmentdeform separate combine detect

displace preserve disable prevent

67

Page 68: memoire_M2_TALN

6.2.b. L'utilisation de verbes modaux

Nous avons également remarqué l'utilisation fréquente des verbes modaux dans les

textes. Grammaticalement, les verbes modaux sont généralement encodés de sens de degrés

(nécessité ou certitude). Par « modaux », on entend ici les modaux centraux qui sont can,

could, may, might, will, shall, would, should, must. Dans notre corpus les modaux sont suivis,

dans la plupart des cas, par des verbes (passifs ou actifs) ou des adjectifs.

Par exemple, le marqueur de paramètre d'évaluation se manifeste par la structure

suivante : les modaux accompagnés de « be » et d'adjectifs, et des indices « for » ou « to ».

Dans cette structure, ce qui est placé entre « be » et « les indices » représente les valeurs, et ce

qui est suivi d'indices représente les paramètres d'évaluation. À noter que cette structure

figure seulement dans la partie de « description ». En appliquant l'expression régulière

<MD> 40(<RB>+<E>) <JJ> (to+for), on obtient :

1) In a factory installation having multiple gravity conveyors, it may be desirable to have controller

38 or 38' control more than one of the gravity conveyors. In this manner, changes in the timing or control

logic for each conveyor can be accomplished by making changes to a single controller.

Paramètre d'évaluation: multi control

2) FIGS. 3 and 4 with the sole exception that the time is changed from 20 seconds to 30 seconds. The

length of time for timer B03 is a matter of preference, although it may generally be desirable to increase

this time for conveyors having greater length.

Paramètres d'action: time & length

Valeurs: increased & greater

Toutefois, les adjectifs ne sont pas tous profitables dans cette structure. Il faut prédéfinir

les adjectifs placés devant « to, for ».

Cette structure peut sûrement nous indiquer l'existence de paramètres, nous avons

décider d'attribuer la valeur sémantique « paramètre » à tous ce qui suivent « to, for » dans

l'étape d'annotation. Cependant, les autres notions (éléments, valeurs) existantes dans cette

structure ne seront pas annotées.

40 <MD>=modal, <RB>=adverbe, <JJ>=adjectif, etc. Pour plus de détail, voir annexe4.

68

Page 69: memoire_M2_TALN

En ce qui concerne les verbes modaux, nous avons décidé de nous limiter à la rétention

de quelques structures en fonction de l'indice qui les suit. Le surplus nous semblait peu

exploitable.

6.2.c. Les verbes qui marquent la relation « partie_tout »

Nous avons aperçu le phénomène de relations « partie_tout » exprimé habituellement

dans les textes par certains verbes. Les relations « partie_tout » indiquent qu’un élément fait

partie de l'autre. D’où son nom : partie_tout. La plupart de marqueurs de cette relation que

nous avons identifiés sont :

− be comprised of/comprises/comprising/comprised − characterized by comprising − includes/including/further including − has/having − be provided with/provides for+v-ing/for+Noun− defining − containing− consisting/consist of

Les marqueurs de relation « partie_tout » sont fortement intéressants si l'on veut

seulement découvrir les relations hiérarchiques des composants. Comme nous l'avons signalé,

dans notre contexte de l'étude, un élément est intéressant s'il subit des changements. En

conséquence, il faut que ces marqueurs soient accompagnés dans leurs contextes par des

paramètres ou des valeurs. Dans les exemples suivants, l'existence des valeurs (en rouge) ou

des paramètres (en bleu) rend les éléments intéressants (en soulignage).

1) A connection assembly having a first connector and a second connector which can be connected

to or disconnected from one another by being adjusted along a longitudinal axis, wherein the first

connector comprises a first housing which is provided with an elastically deformable locking arm

comprising an end connected to the first housing and a free end, as well as a first stop; the second

connector comprises a second housing which is provided with a second stop;

2) There is provided a cochlear implant for improving the hearing ability of a patient suffered from

hearing impairment comprising an internal receiving unit implanted into the body, which comprises a

receiving part for receiving external signal, an active electrode and a reference electrode, characterized in

that the active electrode is constructed with a single electrode wire having different thickness in at least

two different regions.

69

Page 70: memoire_M2_TALN

Les éléments se limitant à une description sont exclus de la sélection, comme les

suivants :

3) A latching mechanism (10) for a portable electronic device (30) includes a main body (12), a

latching member (16), a resilient member (14), and an operating member (18).

4) One embodiment of the invention provides an electrical submersible pump that includes a motor

section and a centrifugal pump section. A seal section and rotary gas separator may also be included.

Les marqueurs de relation partie_tout sont également répétitifs. Ils nous donneront trop

de bruit. Nous avons préféré annoter les éléments basés sur l'existence d'autres marqueurs.

Ainsi, les marqueurs de « partie_tout » sont supprimés de la sélection. .

6.2.d. Les marqueurs adverbiaux

Dans cette catégorie, les adverbes sont souvent à la fois pointeurs de paramètre et

porteurs de valeurs. Les adverbes forment une catégorie très productive et difficile à traiter

dans le TALN, notamment quand le sens de l'énoncé dépend de la portée de l'adverbe.

Il existe certains travaux qui visent à la classification d'adverbes afin de faciliter les

tâches de TALN. D'après certains chercheurs, la classification d'adverbes peut aider à définir

des restrictions concernant la préférence d'accompagnement des autres catégories lexicales.

C'est un moyen utile pour provoquer la désambiguïsation de la langue naturelle.

Huang S. F. (HUANG 1975) fournis une classification semblable d'adverbes basés sur

leurs usages sémantiques. Il distingue :

• les adverbes qui indiquent l'état d'esprit comme « carefully, willingly »

• les adverbes qui expriment une évaluation de la participation de l'acteur dans des cas

comme « clumsily » dans « he clumsily stepped on the snail » ;

• les adverbes qui décrivent les aspects du résultat d'un événement comme dans « he

spelled the word correctly » ; ...

70

Page 71: memoire_M2_TALN

Il a également décrit un certain nombre de restrictions d'accompagnements entre les

adverbes et d'autres parties du discours, dont quelques exemples :

• les adverbes de manière ou de direction peuvent modifier des verbes de mouvement ;

• les adverbes de résultat sont nécessaires aux verbes de réalisation et

d'accomplissement ;

• le temps et les adverbes locatifs se produisent d'habitude dans les phrases d'action et

spécifient les circonstances temporelles et spatiales des événements ;

• les adverbes de degré expriment l'intensité et ils sont souvent accompagnés par des

adjectifs d'intensité ;

• les adverbes conjonctifs sont utilisés presque de la même façon que les conjonctions ;

Nous avons adapté cette classification mentionnée ci-dessus.

Les extraits suivants montrent les utilisations d'adverbes (en gras) dans les textes :

1) EP0978609 shows a rotatable claw that can be held in a closed position by a pawl. The pawl is

mounted on a cam and during an initial part of opening of the latch, the cam rotates relative to the pawl

thereby initially slightly increasing and then significantly reducing the seal load.

2) Thus, the undercut can be resiliently deformed within the space there around when the injection

core mold is released. As a result, the injection core mold can be forcedly released from the molded

preform.

3) A heat sink/heat spreader structure utilizing thermoelectric effects to efficiently transport thermal

energy from a variety of heat sources including integrated circuits and other electronic components.

4) The sidewalls of the conveyor define an upper edge which is above a conveying surface of the

loader to prevent packages from being laterally dislodged therefrom.

5) The magnetic fields are typically generated by conducting currents through electrically

conductive lines.

6) The ferromagnetic cladding layer 320 can have a thickness of approximately twenty-five

nanometers.

Dans les exemples 1) – 3), les adverbes d'évaluation sont suivis par des verbes (présent,

progressive ou passive) et cette combinaison indique des valeurs. Ce cas de structure est

intéressant.

71

Page 72: memoire_M2_TALN

Dans les textes de brevets, on se sert également des adverbes locatif pour indiquer la

proximité. Ainsi, les adverbes de l'intensité sont placés devant les verbes pour les rapports ou

les connexions entre deux éléments, ou les restrictions fonctionnelles. Dans cette

circonstance, ces adverbes ne sont pas intéressants pour nous, car ils ne reflètent pas les

notions que nous cherchons comme dans l'exemple 4) – 6).

Pour arriver à la précision d'extraction, il faut disposer d'une liste d'adverbes. Dans cette

étude, nous avons cantonné la sélection de marqueurs adverbiaux aux adverbes d'évaluation

suivants :

advantageously appreciably arbitrarily arguablybeneficially characteristically considerably conveniently correctly cost-effectively critically dangerously deliberately desirably distinctly dramaticallydifferently efficaciously easily effectively ... ...

Les adverbes conjonctifs sont traités séparément étant les marqueurs discursifs retenus.

Les autres classes comme les adverbes de manière ou de direction, les adverbes de résultat, les

adverbes de degré sont aussi très présentes dans les textes sans qu'on puisse mesurer leurs

véritables importances sauf à être expert.

6.2.e. Les marqueurs adjectivaux

Les adjectifs sont souvent les porteurs des valeurs de la TRIZ. Nous avons collecté ceux

qui sont utilisés pour décrire le degré, la qualité, la taille, la température, la durée, le volume,

la forme, la vitesse, la tension, etc.

Exemples de marqueurs adjectifs ( en gras) :

1) The system and method verifies not only the steady state performance of instruments, but also the

dynamic performance of instruments and the transient behavior of the processes. In one embodiment, the

system performs testing of the wiring system connecting the end devices located at the process.

Paramètre: performance

72

Page 73: memoire_M2_TALN

valeurs: steady & dynamic

2) The present invention is a dynamic transient pressure detection system for detecting and recording

variations in pressure inside operating fluid chambers. One or more dynamic pressure sensors are installed

inside an operating fluid chamber. Pressure is continuously measured and recorded with a high degree of

accuracy.

Paramètre: accuracy

valeur: high

L'utilisation comparative indique également des valeurs. Les adjectifs simples ont leurs

propriétés morphologiques (rajoute de -er à la fin de terme) et ils sont pré-définis dans le

dictionnaire comme JJR (adjectif comparatif). Pour les adjectifs complexes, leurs indicateurs

sont « more, less, worse, better,». L'indice « than » qui suit les adjectifs en comparative nous

indique parfois un paramètre, parfois un élément. La variation de notions qui sont placées

après l'indice « than » rendra difficile l'étape d'annotation en ce qui concerne l'attribution de

valeurs sémantiques.

Exemple:

3) The width of the illumination area in the longitudinal direction is larger than that of the pattern

area on the reticle R and smaller than the maximum width of a light-shielding area.

Les adjectifs sont souvent utilisés pour des restrictions en négative. On se sert alors des

formes négatives des adjectifs, par exemple, colorless, non-magnetic, etc. Il est possible de

localiser les valeurs dans les textes grâce à ces marqueurs morphologiques (-less, non-). Nous

avons extrait des listes d'adjectifs en sens négatif de textes en exploitant cette caractéristique

morphologique. Cependant, il ne nous est pas permis de décider s'il s'agit d'une valeur

positive ou négative; cette prérogative est réservée aux experts.

Exemple :

4) Subsequently, the solution is dispersed or circularized helically upward between cathode 20a and

anode 21a via low profile, disk shaped, non conductive, electrode spacing, vortical flow inducing elements

40a and 41a.

73

Page 74: memoire_M2_TALN

5) For soft ferromagnetic materials the permeability is a strong non-linear function of the applied

magnetic field.

Nous avons également noté l'usage fréquent des oppositions d'adjectifs dans le corpus.

L'usage antonymie d'adjectifs a fait l'objet d'études par différents auteurs. La constatation

découle de l'étude de Gross, Fischer et Miller (GROSS et al. 1989) qui concerne la

cooccurrence des paires antonymies. Selon eux, les paires antonymies ont tendance à

apparaitre dans la même phrase, contrairement aux opposées sémantiques. Celles-ci sont

dénommés par les auteurs « antonymes indirects ».

Dans notre étude, nous avons retrouvé des cooccurrences phrastiques des paires

antonymies fréquemment exprimées par des adjectifs, ainsi que des oppositions sémantiques

distancées qui sont exprimées par des marqueurs discursifs ou par des patrons syntaxiques.

Il est à noter que le phénomène d'antonyme concerne dans de nombreux cas les

adjectifs, mais il n'est pas rare de relever ce phénomène dans les catégories d' adverbes, de

verbes (y compris les verbes participes à l'usage adjectif), et de noms.

À notre connaissance, cette particularité d'utilisation des oppositions dans les textes de

brevets n'a pas encore été étudiée. Pour nous, ce décèlement de l'usage est fortement

intéressant parce qu'il permet de localiser les valeurs et leurs opposés. Cela a conduit à

construire un dictionnaire d'oppositions. Nous avons évité d'employer le terme « antonyme »

du fait que les valeurs peuvent être parfois sémantiquement opposées sans être des paires

antonymies comme nous l'avons signalé plus haut.

Nous avons collecté des termes avec leurs oppositions dans le dictionnaire

( majoritairement des adjectifs ), auxquels nous avons rajouté en outre leurs propriétés.

Voici un extrait de dictionnaire:accurate,JJ+anti=inaccurate

inaccurate,JJ+anti=accurate

big,JJ+anti=little

little,JJ+anti=big

74

Page 75: memoire_M2_TALN

big,JJ+anti=small

small,JJ+anti=big

Voici un extrait des adjectifs de la liste:

effective efficient effluent erasableerroneous excessive expensive extremefatty feasible flammable flatflexible flowable frictional hardharmful harmless hazardous immense

Parmi les marqueurs adjectivaux, nous avons collecté également certains participes de

verbes à l'usage adjectival s'agissant dans la généralité des cas des épithètes. En revanche,

ceux qui sont des attributs et qui peuvent être repérés par l’intermédiaire d'autres marqueurs

ne sont pas listés. Par exemple, la structure « verbe modal + be + adverbe + participe », nous

donne des valeurs comme « automated, adapted, replaced, etc », ce sont des attributs

généralement repérables par d'autres moyens et ils sont exclus de la liste.

6) On a four level stack mold, space is at a premium and ejector assemblies should therefore be of a

design that consumes as little of the available space as possible and which can be readily adapted to the

central set of cavities.

Il existe d'autres structures qui favorisent l'indication de l'information recherchée (deux

adverbes suivis par un adjectif, par exemple). L'exploitation plus fine d'adjectifs est

effectivement envisagée prochainement.

6.2.f. Les marqueurs nominaux

Les usages des noms dans les brevets sont complexes. Les agents de brevets utilisent des

noms composés très complexes afin de véhiculer un maximum d'information dans une phrase.

Exemple des noms composés :

1) a microwave plasma CVD reactor

2) a biased enhanced nucleation treatment

75

Page 76: memoire_M2_TALN

3) a uniform temperature distribution

4) The stationary and movable mold members

De ce fait, il faut choisir seulement les noms qui sont les porteurs des paramètres ou des

valeurs. Les 39 paramètres de la TRIZ nous ont déjà fourni une liste sûre de paramètres. Nous

avons également extrait d'autres marqueurs à l'aide de marqueurs verbaux.

Les noms qui sont sémantiquement liés à la quantité, la qualité ou l'intensité sont en

règle générale des porteurs de valeurs :

accession accretion accumulation aggrandisementaggrandizement amplification appreciation augmentationbroadening complement concentration decrementdiminution elevation enlargement escalationexaggeration expansion gain growth

Exemples:

5) The alloy coated single crystal substrate is positioned in a microwave plasma CVD reactor and

upon being subjected to a biased enhanced nucleation treatment in the presence of a gaseous mixture of

methane, hydrogen, and other optional gases with a biased voltage of negative 100 to 400 volts supports

the growth of a large single crystal diamond on its coated surface.

Valeurs; growth (getting bigger)

Les noms dérivationnels qui portent des suffixes « ity » ou « ness » constituent dans la

majorité des cas des paramètres. Néanmoins, la sélection basée sur les caractéristiques

morphologiques peut conduire à des tempéraments (eg. ability, generality, reality ...), de sorte

qu'il faut toujours procéder à une sélection :

deformity density diffusivity dimensionalitydiscontinuity ambiguity durability ellipticityeccentricity elasticity emissivity flammabilityflexibility fluidity homogeneity humidityimmunity impermeability indivisibility instabilityinstrumentality integrity intensity interconnectivityirregularity lethality liability linearity

76

Page 77: memoire_M2_TALN

7) In addition, the balance between the gates including two gates or more is maintained by

regulating the temperature of the body of the probe assembly by means of the body heater. Further, instead

of the disadvantage of varying the dimension of the gate diameter itself as performed conventionally,

merely the extent of opening of the valve pin may be regulated or narrowed, so as to narrow the vicinity of

the fit bore corresponding to the gradually curved region.

Paramètre: vicinity

valeur: narrow

Ils peuvent parallèlement indiquer des valeurs parce qu'ils sont formés à leur base

adjective indiquant sémantiquement « avoir la caractéristique ou le statut d'être + la base

adjectivale». Le problème qui se pose est de décider comment attribuer des valeurs

sémantiques quand à l'unisson les marqueurs indiquent des notions différentes ?

Exemples: 6) It is difficult to get a good seal between the nozzle outlet or tip and the adjacent gate surfaces

because the surface area of the mating components must be kept small to avoid too much heat loss.

Further, the mating components are subject to wear because of thermal expansion and contraction during

the molding process.

Valeurs: expansion (high temperature) &. contraction (low temperature) On peut également annoter le paramètre: thermal expansion & thermal contraction

Le phénomène de l'opposition entre deux noms est également constaté.

L'enrichissement du dictionnaire de l'opposition nous semblent une direction non négligeable.

6.2.g. Les marqueurs discursifs retenus

Des marqueurs discursifs figurants dans les textes de brevets méritent également d'être

exploités. Au terme de l'analyse, lesdits marqueurs sont inclus dans les graphes de NOOJ pour

l'annotation. Nous citerons, dans cette partie, quelques marqueurs parmi d'autres.

77

Page 78: memoire_M2_TALN

1) Le marqueur if

2) Le marqueur : thus

78

Le marqueur thus est un marqueur de conséquence. Il est utilisé comme indication de paramètres.

Exemple: thus, + paramètre

Thus, during impact most of the energy is lost as a result of the high stresses and deformations of the golf ball (0.001 to 0.20), as opposed to the small deformations of the metallic club face (0.025 to 0.050 inch).

Le marqueur if est un marqueur de condition. Il nous fournit dans une même structure les valeurs et les paramètres. Nous avons repéré 1217 concordances de if dans notre corpus. Cependant, la structure syntactique de if est très variée. Nos observations sur le corpus nous ont permis de retenir certaines structures de if .

Exemple:

la structure if xxx (élément) be adj (valeur), then xxx (paramètre)If water use is low, then the system is sized on loading rate and is loading rate limited. If water use is high, then the system will be HRT limited and will be comparatively much larger than a loading rate limited system.If the seat is unoccupied, then the interrogation frequency can be substantially reduced in comparison to when the seat is occupied.

Page 79: memoire_M2_TALN

3) Le marqueur : however

4) Les marqueurs: so that / so as to / in order to

Compte tenu du fait que l'intérêt de cette étude ne porte pas sur l'organisation du

discours, nous n'avons pas exploité tous les marqueurs discursifs. Cependant, ceux-ci peuvent

être utiles à l'avenir pour procéder aux pré-traitements du corpus par le filtrage du contenu.

79

Le marqueur however est un marqueur de contraste qui nous éclaire sur les problèmes posés.

Exemple :

There is general agreement that, in the laminar flow regime characteristic of microfluidic channels, mixing is limited to diffusion. Because of the dimensions involved, wherein diffusional free path lengths are roughly equal the device dimensions, diffusional mixing can be very effective for solutes. This condition enables ribbon flow, T-sensor, and other useful microfluidic phenomena. However, for larger analytes such as cells, bacteria, viral particles, and for macromolecular complexes and linear polymers, diffusional mixing is slow and processes for capture or depletion of these species require prolonged incubation.

Ils nous indiquent le but d'une action. Il s'agit en l'espèce des marqueurs des paramètres.

Exemple:

These outside electrodes are permanently magnetized so that the magnetizations of the magnetic layers next to the junction and the interconnection layer are both oriented in the same direction.The solution is quickly cooled down to an intermediate temperature between dissolution and gelling temperatures, where a special additive can be added to the solution in order to improve bead porosity.

Page 80: memoire_M2_TALN

6.2.h. Les autres marqueurs propres aux textes de brevets

Comme les textes de brevets représentent également une protection pour les inventeurs,

ils sont considérés comme des documents juridiques, principalement quand il s'agit de

revendications. Kristen Osenga (OSENGA 2006) a décrit en détail la façon dont la

linguistique est impliquée dans la rédaction de revendications. L'étude précitée et une analyse

de sous-parties de textes de brevets ont permis de découvrir que chaque partie dispose de

marqueurs linguistiques pour marquer les rôles engagés dans les paragraphes.

A titre d''illustration :

1) L'indication du domaine

2) L'introduction d'un problème

80

Et « A problem with ... is that ... » est souvent utilisé pour marquer l'introduction d'un problème.

Exemple:A problem with this form of distal end emplacement through the bladder wall is that it is only unidirectional; that is, it only resists the inadvertent pulling out of the tip of the catheter from the method used to place the transaxle into neutral gear to enable movement of the tractor without the motor running.

Dans la partie « description », l'indication du domaine se fait généralement par « The present invention relates (generally) to ..., (more particularly / more specifically / but not exclusively ) ».

Exemple:This invention relates to pollution control and more specifically, to an improved anaerobic digester system for animal waste treatment with biogas production and recovery

Page 81: memoire_M2_TALN

3) L'introduction d'aspects d'utilisation d'un artefact

4) Pour marquer les protections revendiquées

81

Une illustration caractéristique des phrases pour introduire des exemples d'utilisation d'un artefact est : The following examples ... illustrate/illustrative....

Exemple:The following examples are illustrative of various aspects of the invention, and do not limit the broad aspects of the invention as disclosed herein.

Dans la partie de « revendication », on trouve des marqueurs comme comprising; wherein; characterized in that, qui introduisent les protections revendiquées ou les caractéristiques d'inventions. Ajoutons que ces marqueurs deviennent plus intéressants quand il s'agit de la première revendication.

Exemple:

The wind generator as claimed in claim 3, characterized in that the wind generator comprises two blades 11, each of them being integral with a bellcrank lever 12.

The system of claim 1, wherein the vapor generating chamber and the fluid ducts are surrounded by lagging materials.

Page 82: memoire_M2_TALN

L'usage du langage « means+function »

L'utilisation du langage « means+function »41 apparaît intéressant. Il est représenté par la

structure syntaxique: GN for V_ing GN. (GN est le groupe nominal et V_ing est le verbe en

progressive). Celle-ci représente les éléments (GN), et les valeurs (V_ing) du point de vue de

la TRIZ. Néanmoins, c'est seulement lorsqu'elle est suivie d'un verbe de changement qu'elle

est exploitable dans le cadre de notre étude.

Pour pouvoir profiter de cette structure, il faut donner des restrictions contextuelles en

définissant la liste de verbes suscitant la préposition for. Par exemple, GN for V_ing

(optimizing, directing, verifying, determining, detecting, preventing, sensing, applying,

treating, generating, emitting, removing) GN:

1) A system and method for treating bone abnormalities

2) a model for optimizing the transport fluid

3) a broad load-distributing layer within cancellous bone for applying retraction forces

4) a light emitting device chip for emitting light from near ultraviolet to blue light

5) The anchor valve includes a check valve with a flapper for preventing a contaminant from

entering the fluid supply system

Les marqueurs de la précision et la restriction

Quand il s'agit de la précision, des marqueurs comme « sufficient to, at least » sont

utilisés pour indiquer une restriction. On utilise également des restrictions numériques dans

les brevets. Il est conseillé, par les agents de brevets, d'utiliser les restrictions numériques

quand la différenciation de la mesure est critique par rapport à celle mentionnée dans « l'art

antérieur ».

Dans certaines conditions, il y a même des résultats inattendus par les changements de

chiffres. On remarque la structure « about/from XX to (about) XX » pour les restrictions

41 U.S. Department of Commerce & United States Patent and Trademark Office (2007) Manual of patent examining procedure (MPEP) Revision 6 of the Eighth Edition, http://www.uspto.gov/web/offices/pac/mpep/index.htm (dernière consultation : le 29 aout 2009)

82

Page 83: memoire_M2_TALN

numériques. Cette structure peut signaler un changement de valeurs, mais il est délicat de

déterminer si elle est positive ou négative. 1) The glass particles preferably comprise about 0.5 to about 40 weight percent of the mixture.

L'adverbe « at least » est parfois employé pour la restriction numérique, mais

uniquement dans la partie des revendications afin d'agrandir les protections. 2) The model train of claim 22, wherein the42 at least one command designates a desired direction of

travel of the model train.

Quant à l'emploi de la préposition « without », elle ne doit pas indiquer d'ambiguïtés : il

faut toujours être précis. Une structure « verbe modal + be + verbe passif » suivit de l'indice

« without » (la restriction est que la structure et l'indice doivent être dans la même phrase)

présente de l'intérêt. Elle peut nous indiquer les paramètres d'évaluations. Cependant, elle

produit parfois des bruits.

Exemple utile :3) The operation of the third embodiment will now be described. A skin layer resin 26 is injected into

the cavity C as shown in the drawings, and then the stepped portion 36a of the valve member 36 is pressed

against a seat 10c to thereby finish the injection of the skin layer resin 26 into the cavity, C. A core layer

resin 28 is injected from a resin passage 36b of the valve member 36 slightly before, or simultaneously

with, this pressing operation. By doing so, sandwich molded product 38 can be produced without

hesitation marks on its surface. In this third embodiment, the core layer resin 28 can be positively injected

into the inside of the skin layer resin 26 and, therefore, a phenomenon (called a burst-through

phenomenon), wherein the core layer resin 28 breaks through the skin layer resin 26 to the outer surface, is

prevented.

Exemple inutile : 4) [0026] While specific configurations and arrangements are discussed, it should be understood

that this is done for illustrative purposes only. A person skilled in the pertinent art will recognize that other

configurations and arrangements can be used without departing from the spirit and scope of the present

invention. It will be apparent to a person skilled in the pertinent art that this invention can also be

employed in a variety of other applications.

42 L'article placé devant at least constitue soit une faute de grammaire soit une faute de frappe. Des fautes de ce genre sont fréquentes dans les textes. Ceci représente également un problème pour le traitement automatique des langues.

83

Page 84: memoire_M2_TALN

En raison de la spécificité de l 'utilisation de « without » dans les brevets, cette structure

est tolérée comme un marqueur en dépit de fait qu'elle fournisse quelquefois des informations

redondantes.

6.3. Bilan

Le collectage des marqueurs constitue un processus dont l'élaboration nécessite un fort

coût au niveau des ressources humaines. Ainsi, il est complexe parce qu'il nécessite non

seulement les connaissances linguistiques, mais également l'expertise en conception

inventive.

Cette méthode linguistique appliquée sur les textes de brevets a attesté notre hypothèse

qu'à l'aide de marqueurs linguistiques, il est possible localiser les informations souhaitées

(paramètres, valeurs, éléments) sans restriction du domaine.

Cependant, au cour de l'analyse, nous avons ressenti que l'attribution de valeurs

sémantique dans la phase d'annotation sera extrêmement difficile compte tenu du fait que les

marqueurs expriment parfois plusieurs notions synchroniquement.

L'étape suivante prendra part à l'extraction des connaissances. Nous y présenterons

l'extraction et les résultats, ainsi qu'une évaluation pour valider cette étude.

84

Page 85: memoire_M2_TALN

Chapitre 7. L'annotation et l'extraction

7.1. Préambule

Nous détaillerons la réalisation des annotations, et illustrerons le travail à l'aide de

quelques graphes représentatifs. Ensuite l'extraction et l'affichage des textes seront mis en

évidence. Nous présenterons également une évaluation préliminaire et nous terminerons en

exposant les difficultés rencontrées et les limites de cette approche.

7.2. L'annotation et l'extraction

Les brevets présentent des inventions, des artefacts qui sont inventés, modifiés,

améliorés. Néanmoins, toutes les modifications ne sont pas utiles et vouloir extraire toutes les

notions liées aux changements risque d'aboutir à des redondances. L'efficacité de notre travail

nous amène à adapter les principes de l'exploration contextuelle en nous fondant non

seulement sur les marqueurs, mais également sur l'existence de certains indices pour attribuer

une valeur sémantique. L'attribution de valeurs sémantiques n'est pas une tâche triviale.

7.2.a. Les procédés d'annotation

Initialement, il fût envisagé d'effectuer les annotations en LIKES. Mais, ce procédé se

révèle parfois instable. De plus, il reconnait seulement les expressions régulières, ce qui

oblige parfois d'annoter les textes manuellement. C'est pourquoi que nous avons adopté l'outil

NOOJ nonobstant le fait que cela impliquât des tâches supplémentaires comme la

construction de dictionnaires ou encore l'édition des graphes. NOOJ représente un outil sur

lequel il est possible de définir une grammaire en graphe et d'annoter le texte en utilisant

lesdits graphes. Si la grammaire syntaxique est bien définie avec des contraintes contextuelles

85

Page 86: memoire_M2_TALN

précises, le texte est susceptible d'être annoté semi-automatiquement.

Le dictionnaire est construit à partir des résultats de TREETAGGER. Pour ce faire, il

suffit de changer le format après avoir corrigé manuellement lesdits résultats et de les

importer dans le NOOJ.

Voici un extraire de dictionnaire construit pour le NOOJ:abandoned,abandon,VVN

abasis,abasis,NN

abate,abate,VV

Abbas,Abbas,NP

abbreviated,abbreviate,VVD

abbreviated,abbreviate,VVN

À partir de nos travaux précédents, nous avons tout d'abord élaboré des graphes à l'aide

de listes des adjectifs, noms, verbes et adverbes préalablement recueillis et triés.

Dans la mesure où le plus souvent les éléments, les valeurs et les paramètres ne sont pas

trop éloignés les uns des autres, la priorité dans l'annotation consistera à annoter d'abord ceux

qui sont accompagnés. La difficulté sera d'attribuer des valeurs sémantiques. Dans le cas où

les phrases contenant des notions variées sont complexes, nous prendrons le parti d'accorder

la valeur sémantique la plus sûre pour toute la phrase. Nous risquerons de perdre d'autres

notions à l'intérieur de la phase, mais nous arriverons à signaler la notions la plus pertinente.

7.2.b. L'extraction d'informations à l'aide de graphes

Le graphe suivant explique la façon d'annoter.

86

Page 87: memoire_M2_TALN

Figure 11 : Exemple de graphe ItisJJtothat.nog

Il impose l'existence des valeurs et des paramètres dans une même phrase pour aboutir à

l'annotation. Les indices servent des contraintes syntactiques à respecter. Ainsi, lorsque les

indices « It is » ou « it is », « this makes it » ou « This makes it », « It makes it » ou « it

makes it » se trouvent à gauche de la liste de marqueurs adjectifs, la partie intermédiaire est

annotée value. De même, si l'on repère dans le contexte droit de la liste d'adjectifs les indices

« to » ou « that », alors celles qui les suivent sont intitulées parameter. Les adjectifs peuvent

être modifiés ou non par des adverbes. Comme nous l'avons signalé dans 7.2.a, nous avons

opté pour l'annotation parameter pour toute la partie suivant « that, to », malgré le fait de

perdre les autres notions à son intérieur.

Ce graphe aboutit au résultat suivant :

87

Page 88: memoire_M2_TALN

Figure 12 : Les résultats du graphe ItisJJtothat.nog

Dans les résultats de graphes, les lignes 4, 5, et 6 produisent des bruits : same effects as

in the proceding embodiments . Il est possible d'améliorer les résultats en imposant la non-

existence de certains termes spécifiques à la rédaction de brevets (embodiment, figure, view,

invention, etc).

En raison de l'usage fréquent des oppositions d'adjectifs dans le corpus, nous avons

construit le dictionnaire d'opposition (nommé opposition.dic). Une sélection des termes avec

leurs oppositions est incluse dans le dictionnaire, auquel nous avons rajouté en outre leurs

propriétés . Pour pouvoir localiser les valeurs opposées, nous avons édité un graphe qui

recherche dans une ou deux phrases le terme et son opposition correspondante. Ce graphe et

le dictionnaire ont donné des résultats encourageants, car les valeurs opposées, et par

conséquent, la contradiction, ressortent clairement.

88

Page 89: memoire_M2_TALN

Figure 13 : Le graphe générique pour retrouver les valeurs opposées

Ce graphe va relever dans le dictionnaire la catégorie OPP43, ensuite il cherchera dans

les chaines suivantes l'existence de l'opposition prédéfinie dans le dictionnaire. En cas de

succès, il annote la partie contradiction, et les deux oppositions des valeurs. Cette annotation

pourra chercher l'existence d'opposition dans une ou deux phrases.

Ce graphe nous donne l'annotation suivante :

Figure 14 : L'annotation du graphe générique

43 Cette catégorie est définie par nous même, et elle représente « les oppositions ».

89

Page 90: memoire_M2_TALN

L'outil NOOJ permet d'appliquer les grammaires définies (les graphes) au corpus et

ensuite de l'annoter. Cependant, l'annotation s'avère difficile lors de la rencontre de marqueurs

qui sont à la fois porteurs et pointeurs de notions. Pour éviter la perte d'informations

pertinentes, les valeurs sémantiques sont accordées aux notions les plus sûres. Le risque réside

dans le fait qu'à l'extraction, les résultats de rappel seront fortement influencés.

Pour pouvoir mieux visualiser les annotations, les démarches suivantes consisteront à

exporter et afficher le corpus annoté.

7.2.c. L'exportation des textes annotés

Dès l'application de l'outil pour l'annotation, le texte annoté en format XML est

susceptible d'être exporté. Ensuite, un programme Perl est en mesure de le changer en format

HTML et de le colorier 44.

En premier lieu, le texte annoté est exporté. Ci après un exemple de texte annoté et

exporté en format XML.

The degree of mixing was quantified by statistically analyzing the <PARAMETER

TYPE="Parameter"><VALUE TYPE="Value">concentration</VALUE> of the liquid from one of the

inlets at all cells</PARAMETER> in a cross-section 0.5 mm downstream of the confluence. The base flow

rate from both inlets is set to be the same so that the ideal <VALUE

TYPE="Value">concentration</VALUE>, i.e. for a completely mixed solution, was 0.50 in every cell.

The present invention provides <ELEMENT TYPE="Element">an injection mold having an

injection core mold</ELEMENT> for <PARAMETER TYPE="Parameter">defining the inner wall of a lip

portion in a preform having an undercut</PARAMETER>, <OPP TYPE="opposite">a first lip cavity

mold for defining the outer wall of the lip portion <VALUE TYPE="Value">having no</VALUE>

undercut, and <ELEMENT TYPE="Element">a second lip cavity mold</ELEMENT> for <PARAMETER

44 Les couleurs dans l'annotation représentent:• Les paramètres en bleu;• Les valeurs en rouge;• Les éléments en vert;;• Les paramètres d'évaluation en violet;• La contradiction en jaune;

90

Page 91: memoire_M2_TALN

TYPE="Parameter">defining the outer wall of the lip portion <VALUE

TYPE="Value">having</VALUE> the undercut</PARAMETER></OPP>.

Ensuite, un script Perl est appliqué afin d'afficher le texte en couleur. L'intérêt d'une

présentation des résultats colorés permet une meilleure visualisation pour les concepteurs.

L'utilisation de format HTML est d'un emploi moins fastidieux que le format XML dès lors

que la manipulation est réalisée par une simple application d'un script Perl, tandis que dans le

format XML, il faut systématiquement définir à chaque annotation les couleurs choisies.

Voici un aperçu de l'affichage en couleurs :

The degree of mixing was quantified by statistically analyzing the concentration of the liquid from

one of the inlets at all cells in a cross-section 0.5 mm downstream of the confluence. The base flow rate

from both inlets is set to be the same so that the ideal concentration , i.e. for a completely mixed solution,

was 0.50 in every cell.

The present invention provides an injection mold having an injection core mold for defining the inner

wall of a lip portion in a preform having an undercut , a first lip cavity mold for defining the outer wall of

the lip portion having no undercut, and a second lip cavity mold for defining the outer wall of the lip

portion having the undercut .

A partir des résultats, nous avons constaté que certaines annotations sont fausses. C'est

dû à la complexité de textes de brevets. Les symboles, les chiffres, les formules ont influencé

les résultats d'annotation. L'autre faute d'annotation que nous avons constaté est liée au fait

que le NOOJ effectue l'annotation en cascade. Donc, si l'ordre de grammaires n'est pas bien

défini, certaines annotations ne peuvent pas être effectuées. L'ordre de grammaires joue un

rôle important.

Nous avons raffiné les annotations et nous avons défini l'ordre de grammaires à exécuter

par le NOOJ. Pour valider notre travail, nous avons procédé une évaluation.

91

Page 92: memoire_M2_TALN

7.3. Évaluation préliminaire

Cette évaluation est préliminaire en raison du manque de disponibilité de validation

d'expert à ce stade.

Pour ce faire, 10 brevets hors corpus tirés des références de trois brevets différentes ont

été sélectionnés. Nous les présenterons en trois groupes:

Pat_Gp1 contient trois brevets qui sont tirés de références de brevet US7470405

Microchannel reactor with active oscillatory forcing, que sont:

01: US20040221902: Microfluidic mixing using flow pulsing

02: US20070183935: Microfluidic mixing and analytical apparatus

03: US20050161326: Microfluidic treatment method and device

Pat_Gp2 contient quatre brevets qui sont tirés de références de brevet US7046713

Discharge laser with porous layer covering anode discharge surface, que sont:

01: US20040022292: High rep-rate laser with improved electrodes

02: US20040071178: Anodes for fluorine gas discharge lasers

03: US20040165638: Electrodes for fluorine gas discharge lasers

04: US20050018737: Discharge laser with porous insulating layer

covering anode discharge surface

Pat_Gp3 contient trois brevets qui sont tirés de références de brevet US7372041B1

Neutron detectors and related methods, que sont:

01: US20060131503: X-ray detector

02: US20060258766: Irradiated butene-1 polymer compositions

03: US20060285627: Use of boron or enriched boron 10 in UO2

Nous avons procédé au repérage manuel des paramètres, des valeurs et des éléments sur

la partie de résumé et la première revendication des brevets cités. Ensuite, les paramètres, les

valeurs et les éléments ont fait l'objet d'un repérage automatique. A partir de l'ensemble des

résultats obtenus, nous avons évalué la pertinence de notre recherche par les critères de

mesure des performances qui sont le rappel et la précision.

92

Page 93: memoire_M2_TALN

Le rappel est défini par le nombre de notions retrouvées pertinentes par l'annotation

automatique au regard du nombre de notions retrouvées pertinentes manuellement dans les 10

brevets.

Nombre de paramètres retrouvés pertinents automatique Rappel de paramètre = -------------------------------------------------------------------------------

Nombre de paramètres retrouvés pertinents manuellement

La précision est le nombre de notions retrouvées pertinents par l'annotation automatique

au regard du nombre total de notions proposées par l'annotation automatique.

Nombre de paramètres pertinents retrouvés automatiquement Précision de paramètre = ---------------------------------------------------------------------------------

Nombre total de paramètres proposés automatiquement

RAPPEL PRECISIONPARAMETRE 46,00% 75,00%ELEMENT 13,00% 60,00%VALEUR 26,00% 79,00%

Tableau 2 : Les résultats d'évaluation

Cette évaluation a montré que les taux de rappel ne sont pas satisfaisants. En revanche,

les taux de précision sont encourageants. C'est dû au fait que nous cherchons les notions qui

ont des interactions entre elles, donc les structures linguistiques de celles-ci sont fortement

contraintes.

Ainsi, le fait d'opter pour la précision de localisation d'informations afin d'éviter le

maximum de bruits nous a conduit à attribuer des valeurs sémantiques seulement en cas de

certitude. Nous avons inévitablement perdu beaucoup d'autres informations qui sont

ambiguës.

93

Page 94: memoire_M2_TALN

De plus, l'annotation se termine avant d'aboutir aux notions concernées. Elle a été

fortement influencée par le manque de structures linguistiques, par l'existence de symboles,

par des chiffres et des tirets, etc. De ce fait, beaucoup d'informations n'ont pas été annotées.

Les résultats montrent également que les trois notions ne présentent pas les mêmes

difficultés. Cette différence de degré de difficultés est due au fait que nous avons privilégié

d'accorder des valeurs sémantiques parameter dans la situation où nous rencontrons des

structures complexes contenant plusieurs notions.

Il est primordial d'élaborer des schémas d'annotation et d'extraction plus fins même si

cela implique une tâche longue et fastidieuse. Ainsi, des futures analyses minutieuses sur le

comportement des marqueurs sur d'autres corpus nous permettront d'obtenir davantage des

résultats satisfaisants. Il faut également noter qu'il est nécessaire d'avoir une annotation

manuelle d'un corpus effectuée par les experts pour pouvoir améliorer les résultats.

7.4. Les difficultés et les limites

Cette étude a permis de relever que l'analyse des textes de brevets n'est pas une tâche

évidente. Elle demande des connaissances multidisciplinaires. Par exemple, la constitution de

corpus, les expressions régulières, les scripts Perl, la construction des dictionnaires, l'édition

des graphes, nécessitent la mise en œuvre de compétences multiples.

Une difficulté majeure concerne l'embarras de l'identification de notions et l'attribution

de valeurs sémantiques. Les notions recherchées, claires pour un expert, ne sont pas

forcément évidentes pour un linguiste. Il est capital d'avoir les conseils d'experts de la TRIZ

tout au long de l'analyse. De plus, les paramètres, les valeurs et les contradictions sont

exprimés par des formes grammaticales différentes. Cette caractéristique pose des problèmes

pour l'identification des notions. Les phénomènes linguistiques dans les textes sont complexes

et parfois difficiles à traiter. A titre d'exemple, on notera que dans le cas d'adjectifs, certaines

paires d'oppositions jouent un rôle spécifique dans les brevets, comme : inner/outer,

94

Page 95: memoire_M2_TALN

upper/lower, right/left. Ce sont les paires utilisées pour distinguer un même composant

d'artefact. Quelle est importance de ces paires pour les concepteurs ? Convient-il de les

annoter ? Dans l'affirmative, leur répétition fréquente peut forcément influencer la précision

d'extraction.

En certains cas, les paramètres, les valeurs et leurs opposés ne sont pas toujours

indiqués dans les brevets. Il convient de faire appel aux spécialistes du domaine lesquels

peuvent constituer les valeurs afin d’arriver à la contradiction. De plus, nous sommes

contraint de bénéficier systématiquement d'une validation de spécialiste pour être en mesure

de poursuivre l'analyse et l'annotation.

Les brevets complexes qui évitent intentionnellement l’utilisation des termes du

domaine pour garder leur secret d'invention ne sont pas faciles à traiter. Les contradictions ne

sont pas toujours marquées dans les brevets. Comment savoir si un brevet est inventif et s’il a

résolu une contradiction ?45

Il est clair que disposer de listes exhaustives de marqueurs ne semble pas réaliste. Notre

souhait était d'avoir la possibilité de recourir à des marqueurs qui peuvent servir à localiser

avec certitude les notions de la TRIZ recherchées. La difficulté majeure réside dans le fait de

pouvoir construire une base de marqueurs qui donnent peu de silence et peu de bruit.

45 Selon la TRIZ, il existe cinq niveaux d'inventivité. Le niveaux 1 s'applique aux solutions apparentes, le niveau 2 concerne des améliorations mineures , le niveau 3 a un lien avec des améliorations fondamentales, le niveau 4 démontre un nouveau concept et le niveau 5 est la découverte. Les brevets inventifs sont ceux de niveaux 4 et 5, mais ils ne sont pas nombreux et ils sont difficile à localiser.

95

Page 96: memoire_M2_TALN

7.5. Bilan

Ce travail constitue une matière dense. Cependant, malgré les difficultés et les limites

inévitables, cette expérience nous a prodigué des résultats encourageants. Dans le cadre de

cette étape d'annotation, nous avons élaboré deux dictionnaires et édité 46 graphes dans le

NOOJ. Nous avons eu la possibilité de localiser les valeurs et leurs opposés grâce à

l'utilisation d'un dictionnaire d'opposition et d'un graphe générique. Le projet mériterait d'être

approfondi et affiné. C'est pourquoi nous présenterons dans la partie suivante une conclusion

générale ainsi que les perspectives pour consolider cette étude.

96

Page 97: memoire_M2_TALN

PERSPECTIVES ET CONCLUSION

L'analyse des textes est soit restreinte à un domaine, soit limitée dans sa pertinence.

C'est une discipline qui a besoin non seulement des connaissances linguistiques, mais aussi de

connaissances extralinguistiques. La complexité de l'analyse des textes réside dans l'encodage

correct de l'ensemble de ces connaissances. Quant à l'analyse des textes de brevets, le grand

défi de celle-ci réside dans la dépendance de domaine et la définition de notions de

recherches.

Nous avons procédé à la fouille dans les textes de brevets en nous appuyant de la

connaissance de la TRIZ. Les notions de recherche sont les concepts liés à la contradiction, à

savoir éléments, paramètres et valeurs. L'accès au contenu des brevets est basé sur une

méthode linguistique: le repérage des marqueurs. Nous avons réalisé l'annotation et

l'extraction des connaissances à l'aide de marqueurs linguistiques. Nous avons également

constitué des dictionnaires spécifiques. Profiter des marqueurs linguistiques dans les textes

permettent d'en extraire les informations recherchées avec pertinence.

Au cours de l'étude, nous avons noté l'importance de verbes comme marqueurs dans les

textes de brevets. Cependant, il faut définir toutes les constructions syntactiques possibles de

tous les verbes choisis. C'est en définissant les structures syntactiques de ces verbes que nous

pouvions annoter correctement les éléments, les valeurs ou les paramètres. Une direction

envisageable est de se référer à la façon dont Beth Levin (LEVIN 1993) a effectué la

classification des verbes. D'après son travail, il existe des verbes qui séparent, qui

désassemblent, qui coupent, qui obtiennent, qui combinent, ... Nous avons effectué une

expérimentation sur les verbes « increase, decrease, reduce », et nous avons eu dans leurs

contextes des paramètres qui sont en rapport avec des changements de quantité, de qualité ou

de concentrations comme : densification, deformation, degradation, hydrogenation,

magnetization, quantification, consumption, deflection, emission, accuracy, life

expectancy, complexity, porosity, uniformity, luminance, resistance, depth, hardness, yield,

charge, energy, heat, loss, ratio, temperature, volume, etc. Il sera intéressant de réfléchir si

l'on peut éventuellement raffiner les verbes en procédant à leur classifications selon des

verbes qui changent la densité, qui changent la quantité, qui changent la qualité, etc. Un

97

Page 98: memoire_M2_TALN

travail plus pointu sur tous les verbes (y compris les potentiels candidats de marqueurs)

donnera vraisemblablement dans le futur des résultats nettement plus précis.

Le dictionnaire d'oppositions nous a fourni l'un des résultats les plus encourageants. Il

sera envisageable de l'élargir afin d’améliorer le repérage des oppositions. Si l'on réussit à

constituer un dictionnaire exhaustif des oppositions, la localisation de valeurs opposées nous

indiquera directement les contradictions. Notre essai a déjà montré l'efficacité de cette

méthode. Il faut également réfléchir sur les oppositions syntaxiques (eg. so as to et so as not

to, however, even if, etc.). Nous n'avons pas traité ce phénomène. Toutefois, il est à noter que

l'opposition syntaxique est également fréquente dans les textes. C'est une direction non

négligeable parce que les contradictions qui sont évidentes dans les brevets sont repérables

par le biais de cette recherche.

Dans les brevets, nous avons remarqué que beaucoup d'informations se répètent. Dans la

plupart de brevets, la partie « abstract » correspond à la première revendication. Dans la

partie « description », on remarque également des répétitions. Ainsi, dans la partie

« background », on trouve surtout les problèmes techniques et les solutions apportées. Cette

partie applique les quarante principes de la TRIZ. Dans la partie « claims », on repère les

caractéristiques d'invention qui montrent les nouveautés de l'invention. Il est clair que pour

pouvoir vraiment localiser les informations utiles et économiser le temps de lecture, il faut

d'abord réaliser un filtrage du contenu. Une des hypothèses avancées consiste à combiner

l'analyse statistique avec l'analyse linguistique. Par exemple, par une classification de brevets,

nous pouvons d'abord localiser les parties de textes qui sont susceptibles de relever des

informations souhaitées. Une fois, cette partie validée, il est possible d'y effectuer une 'analyse

fine permettant de localiser des informations demandées par les concepteurs. Une autre

hypothèse réside toujours dans le repérage des marqueurs pour sélectionner préalablement les

zones d'argumentation. Cette méthode est proposée par Simone Teuffel dans sa thèse

(TEUFFEL 1999). Grâce aux marqueurs linguistiques, l'auteur arrive à sélectionner les

régions d'argumentation dans les articles scientifiques afin de localiser les questions posées,

les solutions apportées,... Cette méthode reste une manière intéressante pour filtrer le contenu

des brevets avant de procéder à leur analyse approfondie.

98

Page 99: memoire_M2_TALN

Pour l'instant, nous avons seulement travaillé sur les textes en anglais, mais dès que

nous disposerons des listes exhaustives des marqueurs, nous pourrons effectivement utiliser

d'autres langues (comme le français ou le chinois) basées sur nos listes déjà établies L'usage

d'autres langues permettra vraisemblablement d'identifier de nouveaux marqueurs. De plus,

aujourd'hui, beaucoup d'entreprises préfèrent déposer leurs brevets dans des pays comme la

Chine ou le Japon afin d'en préserver les secrets d'invention. L'idée de travailler sur le chinois

est donc séduisante pour découvrir de nouvelles connaissances.

On notera enfin l'importance de s'abstraire du domaine et de localiser les brevets qui

résoudront le même problème d'invention apparaissant lors d’un domaine différent.

Ce travail est une expérience exploratoire. Comme nous l'avons vu, l'utilisation des

connaissances linguistiques pour le repérage des notions génériques est effectivement une

direction de recherche pour l'analyse des brevets ainsi que la réorganisation des connaissances

de la TRIZ. En effet, le repérage de marqueurs linguistiques est souvent employé dans le

traitement automatique des langues pour l'extraction d'informations. Cependant, cette

technique n'a pas été utilisée pour l'analyse des textes de brevets ou l'extraction de

connaissances liées à la TRIZ. Elle induit effectivement une façon très originale de fouiller le

contenu de textes dans les brevets.

La recherche nous a fourni des résultats encourageants. Des études et des analyses

approfondies de brevets nous permettront prochainement d'améliorer notre approche. Les

futures recherches nous amèneront forcément à des résultats plus concrets. Il est clair que

nous ne pouvons pas réaliser l'automatisation totale d'analyse (il y aura toujours des bruits et

des silences). Notre modeste objectif est d'extraire le maximum d'informations utiles dans les

textes de brevets afin que le programme permette d’aider à mieux préparer le travail du

concepteur.

99

Page 100: memoire_M2_TALN

BIBLIOGRAPHIE

Altshuller G. (2004) Et soudain apparut l'inventeur : Les idées de TRIZ . Paris, Ed. Seredinski 166p. (The art of Inventing – And Suddenly the Inventor Appeared, Moscow: Detskays Literatura, 1st edition: 1984) ISBN-10: 2952139415

Altshuller G. (1998). 40 Principles: TRIZ keys to technical innovation. (Lev Shulyak & Steven Rodman, Trans.). Worcester, MA: Technical Innovation Center, INC. 141p. (1st edition 1998) ISBN-10: 0964074036

Bereau P. et Dou H. (1997) La classification neuronale pour la détection de nouvelles tendances de recherche et le développement de nouveaux produits (CIFRE ANRT et CRRM), accessible en ligne http://crrm.u-3mrs.fr/sfba/ile-rousse/1997/defsession.html

Brigitte G., Sylvie N. (2004) Le document brevet, un passage entre plusieurs mondes, Paris. Accessible en ligne http://archivesic.ccsd.cnrs.fr/sic_00001096/en/

Bouhafs Hafsia A. (2005) Utilisation de la méthode d'exploration contextuelle pour une extraction d'information sur le web dédiées à la veille. Réalisation du système informatique JavaVeille. Thèse de doctorat, Université Paris IV – Sorbonne, disponible en ligne sur http://www.lalic.paris4.sorbonne.fr/Theses/These-Asma-BOUHAFS-HAFSIA.pdf

Bultey A., Bertrand de Beuvron F., Rousselot F. (2007) A substance-field ontology to support the TRIZ thinking approach IJCAT 30 (1/2) Pages: 113-124

Cascini G., Russo D., Zini M. (2007) Computer-aided patent analysis: finding invention pecularities Proceedings of the 2nd IFIP Working Conference on Computer Aided Innovation, Brighton (MI), USA, 8-9 October,, published on “Trends in Computer-Aided Innovation”, Springer, ISBN 978-0-387-75455-0, pp. 167-178. Cascini G., Russo D. (2007) Computer-aided analysis of patents and search for TRIZ contradictions International Journal of Product Development, Special Issue: Creativity and Innovation Employing TRIZ, Vol. 4, Nos. 1/2, pp. 52-67.

Cavallucci D. (1999) Contribution à la conception de nouveaux systèmes mécaniques par intégration méthodologique Thèse de Doctorat, Université Louis Pasteur Strasbourg, France

Chomsky N. (1965) Aspects of the theory of syntax MIT Press, USA. Pages 261, ISBN-10: 0-262-53007-4, ISBN-13: 978-0-262-53007-1

Desclés J-P. et al. (1991). Exploration Contextuelle et sémantique : un système expert qui trouve les valeurs sémantiques des temps de l'indicatif dans un texte. In Knowledge modeling and expertise transfer, pp.371-400, D. Herin-Aime, R. Dieng, J-P. Regourd, J.P. Angoujard (éds), Amsterdam.

Desclés J-P. (1997). Systèmes d'exploration contextuelle. Co-texte et calcul du sens. (ed Claude Guimier), Presses Universitaires de Caen, pp.215-232.

100

Page 101: memoire_M2_TALN

Dou H., Leveille V., Manullang S., Dou JM Jr. (2005) Patent analysis for competitive technical intelligence and innovative thinking Data Science Journal, Volume 4, Pages: 209-236

Fillmore C. J. (1968) The Case for Case In: Bach & Harms (Ed.): Universals in Linguistic Theory. New York: Holt, Rinehart, and Winston, Pages: 88.

Garcia D. (1998) Analyse automatique des textes pour l'organisation causale des actions, système COATIS. Thèse de doctorat, Paris-Sorbonne (Paris IV)

Ghoula N., Khelif K. et Dieng-Kuntz R. (2007) Supporting Patent Mining by using Ontology-based Semantic Annotations. Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence, Silicon Valley, USA

Ghoula N., Khelif K., Dieng-Kuntz R. (2008) Vers une fouille sémantique des brevets : application au domaine biomédical Actes de 8èmes Journées Francophones: Extractioin et Gestion des Connaissances, INRIA Sophia Antipolis - Méditerranée, pp 19-30

Goujon B. (2000) Utilisation de l'exploration contextuelle pour l'aide à la veille technologique, Thèse de doctorat, sous la direction de Jean-Pierre Descles, Paris-Sorbonne (Paris-IV), 2000-04-01 Gross D., Fischer U. et Miller G. A. (1989). Antonymy and the representation of adjectival meanings Journal of Memory and Language,28(1) pp.92-106.

Grabar N. et Hamon T. (2004) Repérage de relations sémantiques entre termes : sur la piste de la morphologie Actes des 15ème Journées Francophones d'Ingénierie des Connaissances (IC'2004) pages 237-248. Lyon. Presses Universitaires de Grenoble.

Hearst M. (1992) Automatic Acquisition of Hyponyms from Large Text Corpora. In Proceedings of the 14th international Conference On Computational Linguistics (COLING), pp 539-545. Nantes.

Huang S. F. (1975) A Study of Adverbs. Mouton, the Hague. 96p. ISBN 9027933634

Lebart L., Salem A. (1994). Statistique textuelle, Paris, Dunod, 342 p.

Levin B. (1993) English Verb Classes and Alternations: A Preliminary Investigation, University of Chicago Press, Chicago, IL.

Liang Y. H., Tan R. H. (2007) A text-mining-based patent analysis in product innovative process IFIP International Federation for Information Processing, Volume 250, Trends in Computer-Aided Innovation, ed. Leon-Rovira N. p.89-96

Liu S. H., Liao H. L., Hsieh C. C. (2006) Development of a patent matching system using a hybrid approach Advances in Intelligent Systems Research, JCIS-2006 Proceedings, ISBN

101

Page 102: memoire_M2_TALN

978-90-78677-01-7

Mann D., Dewulf S. (2003 ) Updating TRIZ: 1985-2002 Patent Research Findings (CREAX Belgique) TRIZCON2003: 5th Annual International Conference of Altshuller Institute for TRIZ Studies, Philadelphia, PA, USA

Mann D., Dewulf S. (2003) Updating the Contradiction Matrix (CREAX Belgique) TRIZCON2003: 5th Annual International Conference of Altshuller Institute for TRIZ Studies, Philadelphia, PA, USA

Osenga K. (2006) Linguistics and Claim Construction. 38 Rutgers University Law Journal 61. Abstract available at http://papers.ssrn.com/sol3/papers.cfm?abstract_id=882431.

Rousselot F., Cavallucci D. (2008) Extraction et d'exploitation des connaissances utiles à la conception contenues dans les textes (Rapport intern) LGéco, L'insa, Strasbourg

Séguéla P. (2001) Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques. Thèse de Doctorat en Informatique, Université Tou-louse III Paul Sabatier.

Sinclair J. (1991) Corpus, Concordance, Collocation, Oxford, Oxford University Press

Soo V. W. et al. (2005) A cooperative multi-agent platform for invention based on ontology and patent document analysis Computer Supported Cooperative Work in Design, Proceedings of the Ninth International Conference, Page(s): 411 - 416 Vol. 1, ISBN 1-84600-002-5

Teufel S., Moens M. (2002) Summarizing Scientific Articles -- Experiments with Relevance and Rhetorical Status In Computational Linguistics, 28 (4): 409-445, 2002

Teufel S. (1998) Meta-discourse markers and problem-structuring in scientific articles Workshop on Discourse Structure and Discourse Markers, ACL 1998, Montreal

Teufel S. (1999) Argumentative Zoning: Information Extraction from Scientific Text Ph.D. thesis, School of Cognitive Science, University of Edinburgh, UK CitRAZ (citation relations and Argumentative Zoning)

Trippe A.J. (2003) Patinformatics: tasks to tools World Patent Information, Volume 25, Number 3, Pages 211-221

Zanni C., Cavallucci D., Rousselot F. (2009) An ontological basis for computer aided innovation Computers in Industry, ISSN 01663615

Zanni C., Rousselot F., Cavallucci D. (2008) KAID: a tool for conducting the use of inventive conception in leading complex studies Actes de SKIMA 08, Katmandu, Nepal

102

Page 103: memoire_M2_TALN

GLOSSAIRE

L'ambiguité : est la propriété de certains énoncés qui présentent plusieurs sens. (i.e. à une même forme, on peut associer plusieurs interprétations). Cette propriété est due à l'absence de certaines informations qui permettent normalement d'ôter toutes ambiguïtés. http://www.limsi.fr/Individu/gendner/analyse_texte/2002/03-ambiguite.html

Analyse textuelle : Analyser un texte est une manière de le comprendre. Il faut passer d'une forme (un ensemble de graphes) à une représentation conceptuelle (les idées exprimées par le texte). Lorsqu'il s'agit d'analyse automatique, cela revient à représenter les informations présentes dans les textes formellement et de les traiter automatiquement. Cette représentation passe par l'identification des parties du textes et l'étude des relations qu'elles entretiennent. Des méthodes qui permettent d'extraire des informations des données textuelles sont : pattern matching, méthodes statistique, méthodes mixtes, etc.http://www.limsi.fr/Individu/gendner/analyse_texte/2002/01-introduction.html

L'anaphore : Il y a anaphore lorsqu'une unité ne désigne pas un référent par elle-même, mais seulement par le biais d'un élément antérieur, qui est donc, en termes traditionnels, son “antécédent”. Dans le cas prototypique de l'anaphore (avec le pronom il par exemple), on observe une relation de coréférence entre l'expression anaphorique et son antécédent (i.e. ils désignent le même référent). ex. : Pierre est content : il a été reçu à son examen. Cependant, une anaphore n'est pas nécessairement coréférentielle. Le référent d'une expression anaphorique n'est pas toujours dénoté explicitement par un terme antérieur, mais peut s'appuyer sur son contexte. http://www.limsi.fr/Individu/gendner/analyse_texte/2002/03-ambiguite.html

Contexte : signifie "ce qui entoure un élément". Il peut désigner suivant les cas, le contexte temporel, géographique, culturel, social (comme c'est le cas ici) ou un contexte linguistique comme par exemple le contexte syntaxique (les catégories syntaxiques qui entourent un élément) ou le contexte lexical (les mots qui entourent un élément - dans ce cas, parfois appelé co-texte.) http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Document Type Definition (DTD), ou Définition de Type de Document : est un document permettant de décrire un modèle de document SGML ou XML. Une DTD indique les noms des éléments pouvant apparaître et leur contenu, c'est-à-dire les sous-éléments et les attributs. En dehors des attributs, le contenu est spécifié en indiquant le nom, l'ordre et le nombre d'occurrences autorisées des sous-éléments. L'ensemble constitue la définition des hiérarchies valides d'éléments et de texte. Une DTD peut être divisée en 2 parties : le sous-ensemble « interne », placé dans le document SGML ou XML lui-même, est une modification, une extension ou un paramétrage s'appliquant au sous-ensemble « externe ». Le sous-ensemble interne est optionnel.

103

Page 104: memoire_M2_TALN

http://fr.wikipedia.org/wiki/DTD

Expression régulière : permet de matcher (repérer) un ensemble de formes. Les expressions régulières utilisent des caractères génériques qui permettent de faire des généralisations sur les formes recherchées. http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

HTML (Hypertext Markup Language): est le format de données conçu pour représenter les pages web. C’est un langage de balisage qui permet d’écrire de l'hypertexte. HTML permet aussi de structurer sémantiquement et de mettre en forme le contenu des pages, d’inclure des ressources multimédias dont des images, des formulaires de saisie, et des éléments programmables tels que des applets. Il permet de créer des documents interopérables avec des équipements très variés de manière conforme aux exigences de l'accessibilité du web. Il est souvent utilisé conjointement avec des langages de programmation (JavaScript) et des formats de présentation (feuilles de style en cascade).http://fr.wikipedia.org/wiki/Hypertext_Markup_Language

Langue isolante : est en typologie morphologique une langue qui est extrêmement analytique, c'est-à-dire où tous les mots restent invariables quelle que soit leur fonction syntaxique. Les langues isolantes sont traditionnellement opposées aux langues agglutinantes, aux langues fusionnelles ou flexionnelles, et surtout aux langues polysynthétiques. Des exemples typiques de langues isolantes sont le chinois et le vietnamien. Les nuances y sont généralement rendues par le contexte et l'intonation.http://fr.wikipedia.org/wiki/Langue_isolante

Lexicologie : étude du lexique, du vocabulaire d'une langue, dans ses relations avec les autres composants de la langue phonologique et surtout syntaxique. Etude de la structure du lexique: relation entre les mots: synonymie, antonymie, mots apparentés ou non ...(ex: influence / influencer vs infirme <- infirmus: faible / infirmier <- enfermier puis refait sur infirme.http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Morphologie : Étude de la structure des mots (étymologiquement: étude de la forme) .http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Occurrence : Toute les fois qu'un élément linguistique figure dans un texte, on parle d'occurence.http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Perl ( Practical Extraction and Report Language ) : est un langage de programmation créé par Larry Wall en 1987 et reprenant des fonctionnalités du langage C et des langages de scripts sed, awk et shell. Perl est né du besoin de disposer d'un langage optimisé pour

104

Page 105: memoire_M2_TALN

l'extraction d'informations de fichiers textes et la génération de rapports. http://fr.wikipedia.org/wiki/Perl_(langage)

Phonétique : Description des unités sonores de base. http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Phonologie : Étude du rôle des sons dans le système linguistique.http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Sémantique : Étude de la signification (lien avec les réalités dont on parle). http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Syntaxe : Étude des combinaisons et des relations entre les formes qui composent la phrase. Elle s'occupe de constituances, de dépendances et de séquencialités (i.e. ordre des mots).http://www.limsi.fr/Individu/gendner/analyse_texte/2002/02-meth-connaissances.html

Texte brut: En informatique, un fichier texte brut est un fichier dont le contenu représente uniquement une suite de caractères imprimables d'espace et de retour à la ligne. On peut l'appeler également un fichier texte simple ou fichier ASCII.http://fr.wikipedia.org/wiki/Fichier_texte

Veille technologique: Surveillance de l'environnement industriel et commercial de l'entreprise permettant son adaptation simultanée aux changements de ce dernier.http://www.cnrtl.fr/definition/veille

105

Page 106: memoire_M2_TALN

Annexe 1 Listes des marqueurs sélectionnés

La liste des verbes (60 verbes)

increase decrease release damage

raise change yield size

measure shape form enable

maximize augment minimize diminish

change differentiate modify remove

create produce yield procreate

transfer transmit enhance ameliorate

obtain receive deflect stop

maintain deteriate degrade eliminate

emit enlarge extrude facilitate

allow permit stop halt

resist intensify stabilize restrict

retain save spend segment

deform seperate combine detect

displace preserve disable prevent

106

Page 107: memoire_M2_TALN

La liste des adjectifs (437 adjectives)

accurate adequate allowable bulky

cheap circumferential cleanable cold

complex costly defective deformable

disastrous distinct drastic durable

effective efficient effluent erasable

erroneous excessive expensive extreme

facile fast fatty feasible

flammable flat flexible flowable

frictional great hard harmful

harmless hazardous heavy high

hollow hot ignitable immense

impure inaccurate inadequate incapable

incompressible inductive ineffective inevitable

inexpensive infeasible intense large

largescale lengthy limitless liquid

long loose low maximal

maximum minimal minimum molten

narrow noisy novel obscure

opaque optimal optimum poor

precise protectable protective pure

qualitative quantitative quick rapid

rare raw rechargeable recyclable

reliable remarkable renewable resilient

resistant resistive retractable reuseable

reversible rewritable rigid rigorous

robust rough sacrificial safe

serious severe shallow sharp

107

Page 108: memoire_M2_TALN

short significant simple slight

slow small smooth soft

solid soluble stable static

steady stiff straight strong

sudden thick thin threatening

tight unsafe unstable unsteady

unusable unusual usable useable

useful useless weak wet

wide antiferromagnetic anti-parallel anti-wrinkle

antimicrobial antistatic anti-short water-based

satellite-based lead-based carbon-based userbased

ceramic-based land-based ground-based alcohol-based

zero-dimensional one-dimensional two-dimensional three-dimensional

multi-dimensional 3-dimensional non-dimensional glutamine-free

leak-free artifact-free acid-free dicy-free

shockfree stainless endless motionless

colorless leadless electroless keyless

coreless powerless limitless brushless

harmless dimensionless odorless useless

constantless frameless tankless oilless

lifeless gearless stainless noiseless

napless less-expensive less-specialized less-concentrated

plate-like chocolate-like film-like wavelike

azeotrope-like trapezoid-like wave-like delta-like

gel-like bolt-like solid-like chemo-mechanical

shell-like wire-like rectangle-like petal-like

powder-like spring-like drum-like rubber-like

star-like semicircle-like disc-like crystal-like

nonmagnetic non-reactive nonconductive non-monomeric

108

Page 109: memoire_M2_TALN

non-conductive non-parallel non-ionomeric non-uniform

non-rotational non-ionic non-photosensitive non-linear

non-circular non-aromatic non-metallic non-specific

non-rotatable non-integral non-woven non-destructive

non-symmetrical non-automotive non-flammable non-toxic

nonlinear non-hazardous non-selective non-intrusive

non-repetitive non-porous non-stoichiometric non-corrosive

non-productive non-manual non-trained non-flat

non-ideal non-photosensitive nonmetallic nontoxic

non-standard non-invasive noncoherent non-strained

non-negligible non-vibratory non-fibrous non-redundant

non-transient non-variable non-damaging nonselective

non-selected nonhazardous non-deformable non-volatile

non-simple non-dimensional non-radiative non-stringent

non-food non-fatty non-crosslinked non-removable

non-limitative nonhomogenous non-polar non-permanent

non-restrictive non-azeotropic nonwoven non-shape-selective

non-smooth non-neuronal non-flowable non-identical

non-tropical non-athletic non-polymeric non-exclusive

non-edible non-nonomeric non-limiting non-obvious

non-ionomeric non-parallel non-integral non-absorbable

non-coaxial non-sticking non-liquid non-ferrous

non-sticky nutrient-poor heat-resistant tamper-resistant

impact-resistant anion-selective cation-selective shape-selective

mass-selective non-selective color-selective univalentcation-selective

nonselective u-shaped ion-selective univalention-selective

fan-shaped hook-shaped disk-shaped non-shape-selective

plate-shaped toroidally-shaped fan-shaped cup-shaped

109

Page 110: memoire_M2_TALN

l-shaped triangular-shaped disc-shaped doughnut-shaped

helical-shaped pillow-shaped rod-shaped cylindrically-shaped

s-shaped anisotropic-shaped v-shaped punctured-disk-shaped

winged-shaped slit-shaped rod-shaped tubeshaped

ring-shaped pyramidal-shaped pre-shaped blob-shaped

cubically-shaped spiral-shaped chevron-shaped ringshaped

funnel-shaped nanometer-sized different-sized small-sized

large-sized chestnut-sized pressure-tight fluid-pressure-tight

fluid-tight gas-tight air-tight undesirable

unstable unable unavailable uncomfortable

unpredictable unreliable unusable unfavorable

undetectable unavoidable unsaturated uncured

unexpected unaffected unoccupied unreacted

unauthorized untreated unpolarized unmodified

unblocked unfractured unactuated uncontrolled

unpredictable uncomplicated unpaired unpatterned

unconnected unconverted untensioned unfocused

unanticipated unpublished unskilled unforced

unauthorized un-wanted unperturbed unsigned

unmeasured unattended uncoked unrestrained

unshared unaltered unchallenged unchanged

unwanted unbalanced unintended undisturbed

unappreciated unmarked unexamined uninflated

undated unheated uncompressed unaided

uninterrupted unsynchronized unsolved unexposed

undrained

110

Page 111: memoire_M2_TALN

La liste des noms (273 noms)

accession accretion accrual accruement

accumulation aggrandisement aggrandizement amplification

appreciation augmentation boost broadening

complement concentration decrement diminution

elevation enlargement escalation exaggeration

expansion gain growth hike

inclusion increment intensification leap

maximation maximisation maximization maximum

minimalisation minimalization minimum multiplication

proliferation pullulation reduction relaxation

rise segmentation split split-up

step-down step-up strengthening supplement

supplementation surge upsurge widening

removal adherence fluorescence prevalence

adhesion compression consumption deflection

decomposition deposition dimension distribution

emission expansion extension fraction

function interaction resolution position

precision production proportion protection

refraction suction tension necessity

utility multiplicity impurity functionality

facility security vicinity purity

absorptivity acceptability accessability adaptability

affinity affordability availability biodegradability

functionality capability capacity clarity

cohesivity commodity compatibility complexity

compressibility concentricity conductivity conformity

111

Page 112: memoire_M2_TALN

continuity controllability crystallinity deformability

deformity density diffusivity dimensionality

discontinuity ambiguity anelasticity durability

eccentricity elasticity electronegativity ellipticity

emissivity excitotoxicity extrudability flammability

flexibility fluidity homogeneity humidity

immunity impermeability indivisibility instability

instrumentality integrity intensity interconnectivity

irregularity lethality liability linearity

longevity lubricity manufacturability mobility

monochromaticity monodispersity morbidity mortality

mutagenicity neurotoxicity nonlinearity obscurity

opacity osmolality paraselectivity permeability

permittivity periodicity playability polarity

polydispersity porosity portability praticality

predictability printability processability productivity

propensity quality quantitativity radioactivity

redispersibility reflectivity relexivity reliability

reproducibility resistability resistivity retentivity

reversibility rigidity salinity scalability

scarcity selectivity sensitivity serviceability

severity shape-selectivity simplicity solubility

specificity stability suitability susceptibility

superconductivity toxicity trackability transportability

turbidity unavailability uniformity variability

velocity versatility viscosity visibility

volatility wettability accuracy buoyancy

efficiency frequency life expectancy solvency

transparency vibrancy acidness brightness

112

Page 113: memoire_M2_TALN

cleanliness closeness compactness completeness

drowsiness dryness fineness fitness

flatness fluid-tightness evenness hardness

heaviness insanitariness lightness openness

preciseness richness robustness roughness

scratchiness shallowness skewness slipperiness

smallness smoothness softness soundness

steepness stickiness stiffness straightness

thickness thinness tightness toughness

unevenness weakness wetness whiteness

wholeness depth length strength

width difficulty non-extensivity safty

variety

113

Page 114: memoire_M2_TALN

La liste des adverbes (137 adverbes)

abnormally abruptly absolutely acceptably

accurately acutely additionally adequately

advantageously appreciably arbitrarily arguably

beneficially brightly characteristically cheaply

circumferentially clearly considerably conveniently

correctly cost-effectively critically dangerously

deeply deliberately desirably differently

distinctly dramatically drastically early

easily effectively effectually efficaciously

efficiently elaborately erroneously exceedingly

excessively explicitly extremely favourably

finely firmly forcefully forcibly

greatly hard hardly heavily

high highly identically impermissibly

importantly increasingly incrementally indiscriminately

inevitably inexpensively inherently initially

intentionally interestingly invariably irreversibly

largely lightly little long

markedly maximally measurably minimally

mutually necessarily negligibly newly

optimally phenomenally poorly potentially

precisely promptly properly purposefully

qualitatively quantitatively quite radially

randomly rapidly rarely readily

reasonably reliably remarkably resiliently

roughly safely satisfactorily securely

seriously severely sharply short

114

Page 115: memoire_M2_TALN

shortly significantly slightly specularly

stably steadily strictly strongly

suddenly sufficiently suitably surprisingly

tenaciously thin tightly totally

unacceptably unconditionally undoubtedly unevenly

unexpectedly unfortunately uniquely unnecessarily

unusually uselessly valuably vastly

weakly

115

Page 116: memoire_M2_TALN

Annexe 2 Les graphes utilisés et leurs ordres définis dans le préférence d'outil NOOJ

1. oppositions.nog

2. asBecomesJJR.nog

3. Asvirgule.nog

4. atinDTJJRnn.nog

5. BY(the)useof.nog

6. transmit.nog

7. ParametCause.nog

8. Cause2.nog

9. ifVVNvirgule.nog

10. itisJJtothat.nog

11. itsnecessaryfor.nog

12. JJRRBR.nog

13. madeofFrom.nog

14. MDbeWF.nog

15. mdRBved.nog

16. NNofNN.nog

17. No1inorderto.nog

18. No2inorderto.nog

19. ParametMDRB.nog

20. protect.nog

21. RBVVG.nog

22. remove.nog

23. required.nog

24. sufficiently.nog

25. THEuseof.nog

26. TOavoidDoing.nog

27. wherein.nog

28. without.nog

29. tendency.nog

116

Page 117: memoire_M2_TALN

30. List VVchange.nog

31. ValueRBVVd.nog

32. VVNbywithNN.nog

33. VVD.nog

34. WHICHisTOveVed.nog

35. characterized.nog

36. VVchangINGVED.nog

37. VVChangSING.nog

38. suchthat.nog

39. ABSableto.nog

40. ABSfor-ing.nog

41. AbsNNof.nog

42. being.nog

43. Hasinthat.nog

44. NPincreasedNP.nog

45. vibrationV.nog

46. VchangIN.nog

117

Page 118: memoire_M2_TALN

Annexe 3 Les scriptes Perl

extraire.pl

#! /usr/bin/perl -wuse strict;use locale;

my $paragraphe; my $a = "<abstract>";my $b = "<\/abstract>";

open (F, "corpus_brevet.txt"); #open le dossier pour analyseropen (G, ">extr_abstract.txt"); #pour afficher les resultat dans un fichier txt;

$/ = "<pat>"; # standard input separator

while($paragraphe = <F>){chomp $paragraphe;

if ($paragraphe =~ /$a(.+)$b/s) { print "$a $1";print (G $a, $1, "\n")}else {print "die\n";}

};

close (F);close (G);

extrairecat.pl

use locale;my ( @formes, @categories, @lemmes );open (F, "output_brevet.txt"); #open le dossier pour analyser

while (my $ligne = <F>){ chomp $ligne; my @t = split ( /\t/, $ligne ); push ( @formes, $t[0] ); push ( @categories, $t[1] ); push ( @lemmes, $t[2] );}for ( my $i = 0 ; $i <= $#formes ; $i++ ){ if($categories[$i] eq "RB"){

print $formes[$i], "\n" }};

118

Page 119: memoire_M2_TALN

change_style.pl

#! /usr/bin/perl -wuse strict;use locale;open (F, "output_brevet.txt"); #open le dossier pour analyseropen (G, ">change_brevettag.txt"); #pour afficher les resultat dans un fichier txt; my $ligne; #ligne de fichier my @temp; my @form; #stocke les formesmy @cat; #stocke les catégoriemy @lemme; #stocke les lemmes my $indice; #indice pour parcourir le tableau

while ($ligne = <F>) {chomp $ligne;@temp = split (/\t/, $ligne);push (@form, $temp[0]);push (@cat, $temp[1]);push (@lemme, $temp[2]);}for ($indice=0;$indice<=$#form;$indice++){ print ( G "$form[$indice],$lemme[$indice],$cat[$indice] \n"); };

color.pl

open (OUT, ">$ARGV[0].html");

while (<>) {chomp;$x = $_;$x =~ s/<.DOCTYPE .+/\n<html>\n<body>/;$x =~ s/<.xml version.+/<\!DOCTYPE html PUBLIC>/;$x =~ s/<S>/<br>/g;$x =~ s/<\/S>/<\/s><br>/g;$x =~ s/>/> /g;$x =~ s/</ </g;$x =~ s/(<VALUE TYPE=\"Value\".+?<\/VALUE>)/<span style=\"background-

color:red\">$1<\/span> /gs;$x =~ s/(<PARAMETER TYPE=\"Parameter\".+?<\/PARAMETER>)/<span style=\"background-

color:skyblue">$1<\/span> /gs;$x =~ s/(<ELEMENT TYPE=\"Element\".+?<\/ELEMENT>)/<span style=\"background-

color:lime">$1<\/span> /gs;$x =~ s/(<PA TYPE=\"Pa\".+?<\/PA>)/<span style=\"background-color:skyblue">$1<\/span> /gs;$x =~ s/(<PE TYPE=\"Pe\".+?<\/PE>)/<span style=\"background-color:violet">$1<\/span> /gs;$x =~ s/(<OPP TYPE=\"opposite\".+?<\/OPP>)/<span style=\"background-

color:yellow">$1<\/span> /gs;print OUT "\n<html>\n<body>$x\n";

}

print OUT "\n</body>\n</html>";

119

Page 120: memoire_M2_TALN

Annexe 4 Les sources du corpus

No. Titre ID Date de publicationpat001 Magnetic random access memory having

digit lines and bit lines with shape and induced anisotropy ferromagnetic cladding layer and method of manufacture

US6430085 August 06, 2002

pat002 Alcohol vapor dryer system US6161300 December 19, 2000pat003 controlled gravity accumulation conveyor US6640953 November 04, 2003pat004 Control and motor arrangement for use

in model train US7307394 December 11, 2007

pat005 Anaerobic digester system for animal waste stabilization and biogas recovery

US7320753 January 22, 2008

pat006 Golf ball covers and mantles comprising glass particles

US7297075 November 20, 2007

pat007 Liquid flow meter US7313955 January 01, 2008pat008 Stage device and exposure apparatus US6417914 July 09, 2002pat009 Magnetic memory US6831855 December 14, 2004pat010 Extendable gravity loader US6484862 November 26, 2002pat011 Multiple material golf club head US6491592 December 10, 2002pat012 Monitoring activity of a user in

locomotion on footUS6611789 August 26, 2003

pat013 Antiparallel magnetoresistive memory cells

US6777730 August 17, 2004

pat014 Closed loop control of the induction heating process using miniature magnetic sensors

US6566636 May 20, 2003

pat015 Connection assembly US7381085 June 03, 2008pat016 Electrochemical water purifier US7374655 May 20, 2008pat017 Fiber optic sensor for detecting multiple

parameters in a harsh environmentUS7336862 February 26, 2008

pat018 Heat sink/heat spreader structures and methods of manufacture

US6686532 February 03, 2004

pat019 Means for removing unwanted ion from an ion transport system and mass spectrometer

US7339163 March 04, 2008

pat020 Methods and systems for automated fingerprint recognition

US7327859 February 05, 2008

120

Page 121: memoire_M2_TALN

pat021 Nanostructured thermoelectric materials and devices

US6605772 August 12, 2003

pat022 Predictive maintenance and management of aging of installed cables

US7319939 January 15, 2008

pat023 Snap lock connector US7189097 March 13, 2007pat024 System and method for determining the

flow rate of blood in a vessel using doppler frequency signals

US6167765 January 02, 2001

pat025 Thermoelectric generators US6620994 September 16, 2003pat026 Vortexer US7296924 November 20, 2007pat027 Architecture for electric machine US6965183 November 15, 2005pat028 Combined occupant weight and spatial

sensing in a vehicleUS7359527 April 15, 2008

pat029 Dielectric resonator device, dielectric filter, duplexer, and high-frequency communication apparatus

US7274273 September 25, 2007

pat030 Eyeglasses preset for connection to cellular telephones for transmitting and receiving calls

US7073905 July 11, 2006

pat031 Flow measurement apparatus having strain-based sensors and ultrasonic sensors

US7237440 July 03, 2007

pat032 High throughput darkfield/brightfield wafer inspection system using advanced optical techniques

US7259844 August 21, 2007

pat033 Refrigeration system including thermoelectric module

US7310953 December 25, 2007

pat034 Steering damper for a hydraulic power-assisted steering system

US6467392 October 22, 2002

pat035 Thermoelectric-cooling temperature control apparatus for semiconductor device fabrication facility

US6334311 January 01, 2002

pat036 Use of miniature magnetic sensors for real-time control of the induction heating process

US6455825 September 24, 2002

pat037 Weight measuring systems and methods for vehicles

US7330784 February 12, 2008

pat038 Monolithic ceramic capacitor with barium titinate dielectric curie point optimized for active implantable medical devices operating at 37.degree. C.

US6567259 May 20, 2003

121

Page 122: memoire_M2_TALN

pat039 Neutron detectors and related methods US7372041 May 13, 2008pat040 Dynamic transient pressure detection

systemUS7357034 April 15, 2008

pat041 Passive sensors for automatic faucets and bathroom flushers

US7396000 July 08, 2008

pat042 Method of fracturing a subterranean formation at optimized and pre-determined conditions

US20080190603 August 14, 2008

pat043 Composites and methods for treating bone

US20060095138 May 04, 2006

pat044 Methods of decoupling diffusion effects from relaxation times to determine properties of porous media containing fluids

US6833698 December 21, 2004

pat045 Ethylene/Tetrafluoroethylene/fluorinated vinyl monomer copolymer powder and molding method therefor

US6589597 July 08, 2003

pat046 Magnetorheological polymer gels US6527972 March 04, 2003pat047 Phyllosilicate Slurry For Papermaking US20070131372 June 14, 2007pat048 Method of making heat-resistant

chocolate and chocolate-like compositions with reduced apparent viscosity

US6488979 December 03, 2002

pat049 Ultrasonic probe and inspection apparatus equipped with the ultrasonic probe

US20090005685 January 01, 2009

pat050 Rotate-to- advance catheterization system US20090005645 January 01, 2009pat051 Bye receptive polymer coating for

graphic decorationUS20090005244 January 01, 2009

pat052 Turret fusing apparatus US20090003899 January 01, 2009pat053 Sheet Type Phosphors, Preparation

Method Thereof, And Light Emitting Devices Using These Phosphors

US20090002810 January 01, 2009

pat054 Biological information imaging apparatus, biological information analyzing method, and biological information imaging method

US20090002685 January 01, 2009

pat055 Process of manufacturing para-xylene US20090000988 January 01, 2009pat056 Azeotrope Compositions of

Octafluorocyclobutane and Uses ThereofUS20090005618 January 01, 2009

pat057 Shaped Body Comprising a Microporous US20090005600 January 01, 2009

122

Page 123: memoire_M2_TALN

Material and at Least One Silicon-Containing Binding Agent Method for Production and Use Thereof as Catalyst in Particular in a Method for Continuous Synthesis of Methylamines

pat058 Composites comprising elastomer, layered filler and tackifier

US20090005493 January 01, 2009

pat059 Extruded Personal Washing Bars With Plate-Like Inclusions

US20090005290 January 01, 2009

pat060 Replacement Solvents Having Improved Properties and Methods of Using the Same

US20090005282 January 01, 2009

pat061 Catalytic Oxidative Dehydrogenation and Microchannel Reactors for Catalytic Oxidative Dehydrogenation

US20090004076 January 01, 2009

pat062 Packaging system with hollow package US20090002961 January 01, 2009pat063 Anchor Valve for Security US20090000666 January 01, 2009pat064 Low moisture absorptive circuitized

substrate with reduced thermal expansion, method of making same, electrical assembly utilizing same, and information handling system utilizing same

US7470990 December 30, 2008

pat065 Direct epoxidation process using a mixed catalyst system

US7470801 December 30, 2008

pat066 Diene elastomers with cyclic vinyl units and processes for obtaining same

US7470760 December 30, 2008

pat067 Microchannel reactor with active oscillatory forcing

US7470405 December 30, 2008

pat068 System for production and purification of biofuel

US20080318763 December 25, 2008

pat069 Cochlear Implant US20090005836 January 01, 2009pat070 Hydrocratic generator US20070152452 July 05, 2007pat071 Production of purified water and high

value chemicals from salt water US7083730 August 01, 2006

pat072 Production of oriented material or composite material through centrifugal burning

US7459178 December 02, 2008

pat073 Cooling bearings, motors and other rotating heat generating components

US20070157749 July 12, 2007

pat074 Hydrodynamic bearing runner for use in US20070110561 May 17, 2007

123

Page 124: memoire_M2_TALN

tilting pad thrust bearing assemblies for electric submersible pumps

pat075 Latching mechanism for portable electronic device

US20090002955 January 01, 2009

pat076 Mechanism of astroicyte-neuron signaling

US20080299109 December 04, 2008

pat077 Driving Mechanism US20090000408 January 01, 2009pat078 Apparatus and method for producing

porous polymer particles US7207499 April 24, 2007

pat079 Wind generator of the type with automatic power regulation

US7198469 April 03, 2007

pat080 Centrifugal engine US20070014669 January 18, 2007pat081 Tunnel junction type josephson device US6157044 December 05, 2000pat082 Method of manufacturing oxide

superconductors US6034036 March 07, 2000

pat083 Hydrostatic transmission US6014861 January 18, 2000pat084 Pressurized electro-hydraulic processing

meansUS20030201167 October 30, 2003

pat085 Coaxial cable US7105739 September 12, 2006pat086 Thin layered micro optics polarization

converterUS20060193048 August 31, 2006

pat087 Discharge laser with porous layer covering anode discharge surface

US7046713 May 16, 2006

pat088 Ion source for a mass spectrometer US20080048107 February 28, 2008pat089 Solar augmentation system US20080314436 December 25, 2008pat090 Electroactive polymer electrodes US7468575 December 23, 2008pat091 Supersonic diffuser US7469710 December 30, 2008pat092 Method and apparatus for operating

traveling spark igniter at high pressure US7467612 December 23, 2008

pat093 Virtual Electrode Mineral Particle Disintegrator

US20080277508 November 13, 2008

pat094 Method for the production of semiconductor quantum particles

US6623559 September 23, 2003

pat095 Magnetic Latch Mechanism US20080265588 October 30, 2008pat096 Mobile station and transmission power

control method in mobile station US20080318614 December 25, 2008

pat097 Novel needle driver for magnetic resonance elastography

US20080255444 October 16, 2008

124

Page 125: memoire_M2_TALN

pat098 Injection Molded Article US20090004416 January 01, 2009pat099 Generation of timestamps within field

devicesUS20080079595 April 03, 2008

pat100 Materials and methods for the manufacture of large crystal diamonds

US20090004093 January 01, 2009

125

Page 126: memoire_M2_TALN

Annexe 5 La disponibilité des brevets

Grâce aux développements de la technologie informatique, les brevets sont maintenant

disponibles en base de données. On distingue principalement deux sortes de base de données :

la base de données en CD-ROM et la base de données en ligne.

Sur CD-ROM, il est possible d'accéder aux données de brevet dans son texte intégral

incluant les images. Les bases de données de CD-ROM sont particulièrement adaptées aux

fins de recherches documentaires. La connexion extérieure est superfétatoire et les utilisateurs

peuvent travailler avec simplement un CD-ROM et l'ordinateur.

Les bases de données en ligne sont disponibles pour que tout un chacun puisse accéder à

internet. Les bases de données en ligne peuvent être interrogées via des bases de données

gratuites ou des bases de données commerciales. On peut avoir accès au texte intégral des

documents de brevets publiés.

De nombreux bureaux de brevets nationaux ont lancé des bases de données en ligne

gratuites et ouvertes au public. Les services gratuits sont utiles pour des recherches simples

qui sont basées :

• sur des mots-clefs ;

• sur des numéros de brevets connus ;

• sur des noms du ou des inventeurs ;

• sur des noms du ou des candidats ;

• sur des mots clefs dans les titres, etc.

Parmi lesdites bases en ligne, nous avons sélectionné ceux où les brevets sont

essentiellement disponibles gratuitement :

• L’Office Européen des Brevets (OEB): Contient quelques 30 millions de documents

de brevet, il offre l’accès aux informations sur les brevets du monde entier dans sa

base de données esp@cenet . Chaque bureau national des brevets dispose de son

propre accès pour esp@cenet. ( http://www.epo.org/index_fr.html )

126

Page 127: memoire_M2_TALN

• Institut National de la Propriété Industrielle (INPI): L'INPI propose sur son site le

service de recherche de brevets qui donne accès à toutes les demandes de brevets

français, européens et PCT (Patents Cooperation Treaty) depuis 1978 ainsi que les

brevets français délivrés depuis 1989. Il est possible d'afficher les textes intégraux

dont certains peuvent même être téléchargés en format PDF.

( http://fr.espacenet.com/ )

• US Patent and Trademark Office ( USPTO ) : Il s’agit d’une base de données qui

permet de lister tous les brevets américains publiés dans le monde entier en incluant le

premier brevet américain délivré en 1790.

Concernant la base de données des brevets américains délivrés à compter de janvier

1976, on peut accéder aux données bibliographiques, aux données textuelles et aux

données d'images par un simple clic sur le lien hypertexte. Ainsi, on peut obtenir le

full-page image de chaque page de brevet.

Les brevets délivrés entre 1790 et décembre 1975 : il s’agit de données relatives aux

numéros de brevets, aux dates de délivrance et leurs classifications américaines. Par un

clic sur le lien hypertexte, le full-page image de chaque page de brevet s'affiche.

( http://www.uspto.gov )

• Google Patents : Tous les brevets disponibles sur Google Patents proviennent de

l'USPTO. Actuellement, les brevets internationaux ne sont pas inclus dans cette base

de données. (http://www.google.com/patents )

• Office de Propriété Intellectuelle du Canada (OPIC) : Depuis le 1er octobre 1989,

les brevets canadiens peuvent être interrogés sur ce site. Cette base de données sur les

brevets canadiens contient les brevets canadiens délivrés à partir de 15 août 1978. On

y obtient des données bibliographiques, des données textuelles et des données

d'images.

Elle contient également les brevets canadiens délivrés avant le 15 août 1978 où des

données bibliographiques, des textes, des titres et des images peuvent être consultés.

Cependant, cette base de données ne contient ni des textes d'abrégés, ni des textes de

127

Page 128: memoire_M2_TALN

revendications.

Les documents de brevets canadiens déposés avant le 1er octobre1989 sont classés

selon la classification canadienne des brevets. En revanche, les documents de brevets

déposés depuis le 1er octobre 1989 sont classés selon la classification internationale

des brevets (CIB).

( http://brevets-patents.ic.gc.ca )

• ZHUANLI BAIDU : Zhuanli Baidu est un site chinois lancé le 1er janvier 2008 qui

offre le seul service de recherche de brevets gratuit en ligne. Le moteur de recherche

est le résultat d'une collaboration entre le Centre d'Information des Brevets Chinois, le

Bureau des Brevets Chinois et le moteur de recherche Baidu. Sur cette base de

données, ont été recensés 2.7 millions de brevets chinois. En tapant les mots-clés, les

résultats appropriés apparaîtront sur la page. Un nouveau clic sur le lien hypertexte

concerné donnera accès au brevet recherché. Pour consulter les documents complets

du brevet, il y a lieu de télécharger un logiciel permettant de visualiser le document

complet (en *.tif). ( http://www.zhuanli.baidu.com )

• National Center for Industrial Property Information and Training (INPIT) : Ce

centre national possède une bibliothèque numérique de propriété industrielle laquelle

ouvre l'accès aux brevets dans la base de donnée du Bureau de Brevets japonais.

( http://www.ipdl.inpit.go.jp )

Il existe un certain nombre de bases de données commerciales, où la consultation est

payante. L'offre de service commerciale augmente la valeur des informations de brevets. Les

services sont basés sur l'exigence des clients et les honoraires sont souvent élevés.

128

Page 129: memoire_M2_TALN

129