8
Mémo Notepad++ Notepad++ est un éditeur de code source que nous détournons ici de son usage premier pour en faire un outil de préparation et d'interrogation de textes. Disponible uniquement pour la plateforme Windows, ce logiciel est sous licence GPL 1 . Il est téléchargeable à l'adresse suivante : http://notepad-plus-plus.org/fr/ . De multiples langues sont proposées pour l'interface de travail. Le présent document vaut pour une interface en français. Cet éditeur offre de multiples possibilités que nous ne détaillerons pas ici, nous focalisant sur quelques fonctionnalités : recherche par expression régulière, utilisation de signets, remplacement et tris. Lancement du logiciel : Menu « démarrer » → Tous les programmes → Notepad++ → Notepad++ Découverte de l'environnement de travail : 1 Gnu General Public License http://www.gnu.org/copyleft/gpl.html

Mémo Notepad++ - Site du laboratoire ATILF · On peut alors copier les lignes marquées : Menu « Recherche » → « Signet » → « Copier les lignes marquées » Et l’on peut

Embed Size (px)

Citation preview

Mémo Notepad++

Notepad++ est un éditeur de code source que nous détournons ici de son usage premier pour en faire un outil de préparation et d'interrogation de textes. Disponible uniquement pour la plateforme Windows, ce logiciel est sous licence GPL1. Il est téléchargeable à l'adresse suivante : http://notepad-plus-plus.org/fr/. De multiples langues sont proposées pour l'interface de travail. Le présent document vaut pour une interface en français.

Cet éditeur offre de multiples possibilités que nous ne détaillerons pas ici, nous focalisant sur quelques fonctionnalités : recherche par expression régulière, utilisation de signets, remplacement et tris.

Lancement du logiciel :

Menu « démarrer » → Tous les programmes → Notepad++ → Notepad++

Découverte de l'environnement de travail :

1 Gnu General Public License http://www.gnu.org/copyleft/gpl.html

Intéressons-nous à quelques éléments d'informations disponibles au sujet du document ouvert :

a) Le type de fichier. Par défaut, il est réglé sur fichier texte normal. Pour le modifier, on utilise le menu « Langage ». Différents langages de programmation sont reconnus.

b) La longueur du document, en nombre de caractères (length) et en nombre de lignes (lines). Ici le fichier vide est considéré comme contenant 0 caractère, mais déjà 1 ligne.

c) La position à laquelle se situe le curseur dans le document, en terme de lignes (Ln) et de caractères (Col). Si un ensemble de caractères est sélectionné, le nombre de caractères sélectionné est indiqué (Sel). Ici la position courante est 1ère ligne, 1er caractère.

d) L'encodage des sauts de ligne. En effet, il varie selon les systèmes d'exploitation. Pour le modifier, on utilise le menu « Édition » → « Convertir les sauts de ligne ». Trois formats sont disponibles : Windows, UNIX et Mac.

e) L'encodage de caractère. Pour le modifier, on utilise le menu « Encodage ». À noter que l'on y distingue deux sous-parties :

f) Le menu « Fichier » permet d'ouvrir de nouveaux documents, de les enregistrer, de les imprimer et de les fermer.

g) Le menu « Recherche » permet d'accéder aux différents modes de recherche et de manipuler les signets. Nous nous intéressons ici au 1er mode de recherche et aux signets.

1) une première sous-partie permet de spécifer l'encodage du document courant pour en corriger l'affichage.

2) une seconde sous-partie permet de modifier l'encodage du document courant.

La recherche par expressions régulières :

1) Une zone de saisie textuelle permet d'entrer le motif que l'on recherche.

2) Une case à cocher permet de spécifier si la recherche est, ou non, sensible à la casse. Ce qui signifie qu'elle respectera la différence minuscule/majuscule ou non.

3) Un ensemble de boutons radio permet de spécifier le mode de recherche que l'on souhaite effectuer. Trois modes sont disponibles :

a) Mode normal : on recherche une chaîne de caractères précise.

b) Mode étendu : on recherche une chaîne de caractères précise, mais on dispose de certains métacaractères pour spécifier notamment la présence de saut de ligne (\n), de retour chariot (\r) et de tabulation (\t) dans cette chaîne.

c) Expression régulière : on recherche les chaînes de caractères correspondant à un motif écrit à l'aide de la syntaxe des expressions régulières.

4) Un ensemble de commandes permettant de lancer la recherche :

a) Suivant : à partir de la position actuelle du curseur dans le document courant, recherche la prochaine occurrence du motif. Déplace le curseur à l'endroit de cette occurrence.

b) Compter : Ouvre une fenêtre pop-up précisant le nombre d'occurrences du motif recherché dans le document courant.

c) Rechercher dans tous les documents ouverts : Recherche le motif dans l'ensemble des documents ouverts. (cf. ci-dessous la présentation des résultats en sortie)

d) Rechercher dans le document actuel : Recherche le motif dans le document courant. (cf. ci-dessous la présentation des résultats en sortie)

Présentation des résultats en sortie :

1) Indication du nombre total de résultats. Ici 24 occurrences du motif recherché ont été trouvées.

2) Reprise du motif recherché, du nombre d'occurrences du motif recherché trouvées et du nombre de fichiers sur lesquels la recherche a été effectuée. Ici, le motif « c['e]s? » a été trouvé 24 fois dans un seul fichier.

3) Présentation des résultats par fichier, introduit par l'emplacement du fichier et le nombre d'occurrences propres à ce fichier.

4) Les résultats : numéro de la ligne correspondante dans le document, suivi de la ligne elle-même, où est surlignée l'occurrence du motif recherché. Si le motif apparaît plusieurs fois dans une même ligne, la ligne apparaît plusieurs fois dans les résultats.

Manipulation des résultats, utilisation de signets :

L'utilisation de signets peut s'avérer utile pour la constitution de sous-corpus et de lexique. Nous n'en faisons ici qu'une présentation succincte.

Reprenons l'interface de recherche.

1) Parmi les onglets, un onglet « Marquer » est disponible.

2) Une case à cocher permet de spécifier que l'on souhaite marquer les lignes contenant le motif recherché.

3) Un ensemble de boutons radio permet de spécifier le mode de recherche que l'on souhaite effectuer. Les trois mêmes modes que précédemment sont disponibles.

4) Une commande permet de lancer la recherche de toutes les lignes contenant le motif.

En résultat, on voit apparaître un point bleu dans la marge à côté de chaque ligne contenant une ou plusieurs occurrences du motif. Les occurrences du motif elles-mêmes sont surlignées en rouge. Si l’on ne coche pas la case « Marquer les lignes », seule l'action de surligner est effectuée.

On peut alors copier les lignes marquées :

Menu « Recherche » → « Signet » → « Copier les lignes marquées »

Et l’on peut les coller dans un nouveau document :

Menu « Édition » → « Coller »

Dans le cas présent on vient de créer un fichier contenant l'ensemble des formes étiquetées noms communs dans notre document.

Nettoyage des résultats, utilisation de la fonction remplacer :

Reprenons à nouveau l'interface de recherche.

1) Parmi les onglets, un onglet « Remplacer » est disponible.

2) Deux zones de saisie textuelle sont disponibles :

1) La première permet d'entrer le motif que l'on recherche.

Ici, on recherche, à l'aide d'une expression régulière, les chaînes de caractères débutant par un nombre, suivi d'une tabulation, puis d'un autre nombre et d'une autre tabulation.

Nous utiliser la notation « (.*) » pour capter la suite de la ligne commençant par cette chaîne de caractères.

2) La seconde permet de préciser par quoi l’on souhaite remplacer les occurrences de ce motif.

Ici on utilise la variable « \1 », qui fait référence à la partie entre parenthèses de notre motif de recherche.

3) Un ensemble de boutons radio permet de spécifier le mode de recherche que l'on souhaite effectuer. Les trois mêmes modes sont toujours disponibles.

4) Une commande permet de lancer le remplacement de toutes les occurrences de notre motif.

Nous venons de supprimer les deux premières colonnes de notre fichier texte, qui contenaient des nombres.

Tri avancé des résultats, utilisation d'un outil TextFX :

Notepad++ offre la possibilité de trier un ensemble de lignes par ordre alphabétique en supprimant les lignes identiques.

Pour ce faire, on commence par sélectionner les paramètres de tri :

Menu « TextFX » → « TextFX Tools »

On coche « +Sort ascending » et « +Sort outputs only UNIQUE (at column) lines »

On sélectionne ensuite le texte que l'on souhaite trier. On sélectionne, par exemple, l'ensemble du texte du document courant à l'aide du raccourci clavier Ctrl+A.

On peut alors lancer la commande de tri en respectant la casse :

Menu « TextFX » → « TextFX Tools » → « Sort lines case sensitive (at column) »

Ou sans respecter la casse :

Menu « TextFX » → « TextFX Tools » → « Sort lines case insensitive (at column) »

Ici, on choisit un tri insensible à la casse sur l'intégralité de notre fichier. On obtient alors le sous-lexique des noms communs de notre document :