Traitement Automatique du Langage Naturel: FASTER : Reconnaissance des termes et de leurs variantes

Description

FASTER est un analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée développé par Christian Jacquemin. Il permet de:
• Détecter les variantes des termes en corpus (formes linguistiques differentes)
• Capturer les variations par des métarègles opérant à differents niveaux :

Morpho-syntaxique : flux de sève mesurés est une variation de mesure de flux s’appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure.
Syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination
Syntaxico-sémantique : évaluation de flux est une variante de mesure de flux s’appuyant sur le lien sémantique existant entre les noms évaluation et mesure.

• Reconnaître des variantes terminologiques à trois niveaux :

Premier niveau : mots simples et liens morphologiques et sémantiques
Deuxième niveau : termes construits sur les mots simples
Troisieme niveau : variations qui transforment les règles et termes en règles de variantes

Installation sous Linux

Pour installer FASTER, il faut commencer par le télécharger, ensuite:
1-Créer un répertoire de travail
2-Décompresser l'archive fastr-2.04.tar.gz dans le répertoire crée
3-Compiler FASTR en tapant les commandes:
* ./configure
* make
* make install
4-Installer TreeTagger.

Utilisation

Fastr peut être utilisé en deux modes:
* Indexation contrôlée : l'outil prend en entrée un corpus et une liste de termes.
* Indexation libre : l'outil prend en entrée uniquement un corpus, la liste des termes étant automatiquement acquise à partir du corpus.
Le corpus et la liste des termes sont étiquetés par TreeTagger.

Pour le Français, la syntaxe générale est:
* En Indexation contrôlée :

fastr-controlled-indexing-fr [options] <texte_fr> <liste_termes_fr>

* En Indexation libre :

fastr-free-indexing-fr [options] <corpus_fr>

Pour l'Anglais, la syntaxe générale est:
* En Indexation contrôlée :

fastr-controlled-indexing-en [options] <texte_en> <liste_termes_en>

* En Indexation libre :

fastr-free-indexing-en [options] <corpus_en>

Si on veut essayer FASTR sur le fichier text-fr.txt en utilisant le fichier de termes terms-fr.txt en mode indexation contrôlée, on tape la commande:

fastr-controlled-indexing-fr -c etc/fastr.conf-fr data/text-fr.txt data/terms-fr.txt >résultat.txt

(fastr.conf-fr est le fichier de configuration)

Le contenu de text-fr.txt est: (Le contenu peut être simplement un texte et pas forcément des termes ou des phrases chacune dans une ligne)


catégorie grammaticale.
catégorie des mots grammaticaux.
catégorisation des mots.
étiquette grammaticale.
classe d'un mot de la grammaire.
familles des mots grammaticaux.

Le contenu de terms-fr.txt est:


catégorie grammaticale.
catégories des mots.
catégorisation des mots.

Et voici le contenu du fichier résultat:


catégorie grammaticale .
000001            catégorie grammatical             catégorie grammaticale                        0
catégorie des mots grammaticaux .
000002            catégorie du mot                  catégorie des mots                            0
000002            catégorie grammatical             catégorie des mots grammaticaux               XX,4,Modif
000002            catégorisation du mot             catégorie des mots                            XXX,23,NtoN
catégorisation des mots .
000003            catégorisation du mot             catégorisation des mots                       0
000003            catégorie du mot                  catégorisation des mots                       XXX,23,NtoN
étiquette grammaticale .
classe d un mot de la grammaire .
000005            catégorie du mot                  classe d un mot                               XXX,26,NtoNSHead
familles des mots grammaticaux .
000006            catégorie du mot                  familles des mots                             XXX,26,NtoNSHead

Le fichier de sortie est sous forme tabulaire, il est composé de 4 colonnes séparées par des tabulations sauf la deuxième et la troisième qui sont séparées par un espace et une tabulation. La première colonne représente le numéro de la phrase analysée, la deuxième représente le terme utilisé de la liste des termes, la troisième représente la variante repérée et enfin la dernière représente le type de la variante.

Une étiquette 0 sur le lien signifie qu'il s'agit d'une occurence, éventuellement fléchie, d'un terme donné. Toutes les autres étiquettes dénotent des variantes obtenues à partir de métarègles sachant qu'on dispose de variantes syntaxiques (coordination, modification, permutation), de variantes morpho-syntaxiques (NtoV, ...), de variantes terminologiques (synonymie, antonymie, hyponymie, méronymie) ...

Maintenant, si on veut essayer FASTR sur le fichier corpus-fr.txt en mode indexation libre, on tape la commande:

fastr-free-indexing-en -c etc/fastr.conf-fr data/corpus-fr.txt >résultat.txt

Le contenu de corpus-fr.txt est:


Le REN est la détection d'une zone textuelle correspondant à une entité nommée et l'attribution d'un type à cette entité (nom de personne, nom de lieu, nom d'organisation, et entité numérique (date, pourcentage ou montant financier)). Le REN est une tâche à mi-chemin entre l'analyse linguistique et la consultation lexicale.

Voici le contenu du fichier résultat:


Le REN est la détection d une zone textuelle correspondant à une entité nommée et l' attribution d un type à cette entité ( nom de personne  nom de lieu
nom d organisation  et entité numérique ( date  pourcentage ou montant financier ) ) .

000001            zone textuel            zone textuelle                0
000001            entité numérique        entité numérique              0
000001            entité nommé            entité nommée                 0
000001            nom de personne         nom de personne               0
000001            nom de organisation     nom d organisation            0
000001            nom de lieu             nom de lieu                   0
000001            montant financier       montant financier             0
Le REN est une tâche à mi-chemin entre l' analyse linguistique et la consultation lexicale .
000002            analyse linguistique    analyse linguistique          0
000002            consultation lexical    consultation lexicale         0

La plupart des travaux en TALN pour la recherche d’information sont appliqués en indexation libre (Schwarz, 1990; Sheridan & Smeaton, 1992; Strzalkowski, 1996). Ces analyseurs à large couverture décomposent des structures syntaxiques en dépendances élémentaires qui constituent les index du texte. Au contraire, la finalité de FASTER est l’indexation contrôlée: il s’agit de retrouver, au moyen d’une base de termes et d’une métagrammaire de variations locales, les occurrences de ces termes et de leurs variantes.

Licence

Licence GPL

Références

Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Memoire d’habilitation a diriger des recherches en informatique fondamentale, Universite de Nantes.

JACQUEMIN C., K LAVANS J. L. & T ZOUKERMANN E. (1997). Expansion of multi-word terms for indexing and retrieval using morphology and syntax. In Proceedings, 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics (ACL - EACL’97), Madrid

http://www.limsi.fr/Individu/jacquemi/FASTR/

1 commentaire:

Anonyme4 mars 2022 à 07:00
Wynn Las Vegas and Encore - JTM Hub
Experience the 서귀포 출장샵 hospitality 이천 출장마사지 and excitement of 경기도 출장마사지 Las Vegas with Wynn Las Vegas and Encore. 진주 출장샵 and to ensure you have a memorable stay at the Wynn Tower. 세종특별자치 출장마사지
RépondreSupprimer
Réponses

Ajouter un commentaire

Traitement Automatique du Langage Naturel

vendredi 27 février 2009

FASTER : Reconnaissance des termes et de leurs variantes

1 commentaire:

Libellés

Archives du blog

Contributeurs