vendredi 27 février 2009

FASTER : Reconnaissance des termes et de leurs variantes

Description

FASTER est un analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée développé par Christian Jacquemin. Il permet de:
• Détecter les variantes des termes en corpus (formes linguistiques differentes)
• Capturer les variations par des métarègles opérant à differents niveaux :
  • Morpho-syntaxique : flux de sève mesurés est une variation de mesure de flux s’appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure.
  • Syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination
  • Syntaxico-sémantique : évaluation de flux est une variante de mesure de flux s’appuyant sur le lien sémantique existant entre les noms évaluation et mesure.
• Reconnaître des variantes terminologiques à trois niveaux :
  • Premier niveau : mots simples et liens morphologiques et sémantiques
  • Deuxième niveau : termes construits sur les mots simples
  • Troisieme niveau : variations qui transforment les règles et termes en règles de variantes
      *Dimension syntagmatique : transformations structurales
      *Dimension paradigmatique : liens morphologiques etsémantiques.FASTER est disponible en Anglais et en Français.

Installation sous Linux

Pour installer FASTER, il faut commencer par le télécharger, ensuite:
1-Créer un répertoire de travail
2-Décompresser l'archive fastr-2.04.tar.gz dans le répertoire crée
3-Compiler FASTR en tapant les commandes:
* ./configure
* make
* make install
4-Installer TreeTagger.

Utilisation

Fastr peut être utilisé en deux modes:
* Indexation contrôlée : l'outil prend en entrée un corpus et une liste de termes.
* Indexation libre : l'outil prend en entrée uniquement un corpus, la liste des termes étant automatiquement acquise à partir du corpus.
Le corpus et la liste des termes sont étiquetés par TreeTagger.

Pour le Français, la syntaxe générale est:
* En Indexation contrôlée :
fastr-controlled-indexing-fr [options] <texte_fr> <liste_termes_fr>
* En Indexation libre :
fastr-free-indexing-fr [options] <corpus_fr>
Pour l'Anglais, la syntaxe générale est:
* En Indexation contrôlée :
fastr-controlled-indexing-en [options] <texte_en> <liste_termes_en>
* En Indexation libre :
fastr-free-indexing-en [options] <corpus_en>

Si on veut essayer FASTR sur le fichier text-fr.txt en utilisant le fichier de termes terms-fr.txt en mode indexation contrôlée, on tape la commande:
fastr-controlled-indexing-fr -c etc/fastr.conf-fr data/text-fr.txt data/terms-fr.txt >résultat.txt
(fastr.conf-fr est le fichier de configuration)

Le contenu de text-fr.txt est: (Le contenu peut être simplement un texte et pas forcément des termes ou des phrases chacune dans une ligne)

catégorie grammaticale.
catégorie des mots grammaticaux.
catégorisation des mots.
étiquette grammaticale.
classe d'un mot de la grammaire.
familles des mots grammaticaux.

Le contenu de terms-fr.txt est:

catégorie grammaticale.
catégories des mots.
catégorisation des mots.

Et voici le contenu du fichier résultat:

catégorie grammaticale .
000001 catégorie grammatical catégorie grammaticale 0
catégorie des mots grammaticaux .
000002 catégorie du mot catégorie des mots 0
000002 catégorie grammatical catégorie des mots grammaticaux XX,4,Modif
000002 catégorisation du mot catégorie des mots XXX,23,NtoN
catégorisation des mots .
000003 catégorisation du mot catégorisation des mots 0
000003 catégorie du mot catégorisation des mots XXX,23,NtoN
étiquette grammaticale .
classe d un mot de la grammaire .
000005 catégorie du mot classe d un mot XXX,26,NtoNSHead
familles des mots grammaticaux .
000006 catégorie du mot familles des mots XXX,26,NtoNSHead

Le fichier de sortie est sous forme tabulaire, il est composé de 4 colonnes séparées par des tabulations sauf la deuxième et la troisième qui sont séparées par un espace et une tabulation. La première colonne représente le numéro de la phrase analysée, la deuxième représente le terme utilisé de la liste des termes, la troisième représente la variante repérée et enfin la dernière représente le type de la variante.

Une étiquette 0 sur le lien signifie qu'il s'agit d'une occurence, éventuellement fléchie, d'un terme donné. Toutes les autres étiquettes dénotent des variantes obtenues à partir de métarègles sachant qu'on dispose de variantes syntaxiques (coordination, modification, permutation), de variantes morpho-syntaxiques (NtoV, ...), de variantes terminologiques (synonymie, antonymie, hyponymie, méronymie) ...

Maintenant, si on veut essayer FASTR sur le fichier corpus-fr.txt en mode indexation libre, on tape la commande:
fastr-free-indexing-en -c etc/fastr.conf-fr data/corpus-fr.txt >résultat.txt
Le contenu de corpus-fr.txt est:

Le REN est la détection d'une zone textuelle correspondant à une entité nommée et l'attribution d'un type à cette entité (nom de personne, nom de lieu, nom d'organisation, et entité numérique (date, pourcentage ou montant financier)). Le REN est une tâche à mi-chemin entre l'analyse linguistique et la consultation lexicale.

Voici le contenu du fichier résultat:

Le REN est la détection d une zone textuelle correspondant à une entité nommée et l' attribution d un type à cette entité ( nom de personne nom de lieu
nom d organisation et entité numérique ( date pourcentage ou montant financier ) ) .

000001 zone textuel zone textuelle 0
000001 entité numérique entité numérique 0
000001 entité nommé entité nommée 0
000001 nom de personne nom de personne 0
000001 nom de organisation nom d organisation 0
000001 nom de lieu nom de lieu 0
000001 montant financier montant financier 0
Le REN est une tâche à mi-chemin entre l' analyse linguistique et la consultation lexicale .
000002 analyse linguistique analyse linguistique 0
000002 consultation lexical consultation lexicale 0

La plupart des travaux en TALN pour la recherche d’information sont appliqués en indexation libre (Schwarz, 1990; Sheridan & Smeaton, 1992; Strzalkowski, 1996). Ces analyseurs à large couverture décomposent des structures syntaxiques en dépendances élémentaires qui constituent les index du texte. Au contraire, la finalité de FASTER est l’indexation contrôlée: il s’agit de retrouver, au moyen d’une base de termes et d’une métagrammaire de variations locales, les occurrences de ces termes et de leurs variantes.

Licence

Licence GPL

Références

Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Memoire d’habilitation a diriger des recherches en informatique fondamentale, Universite de Nantes.

JACQUEMIN C., K LAVANS J. L. & T ZOUKERMANN E. (1997). Expansion of multi-word terms for indexing and retrieval using morphology and syntax. In Proceedings, 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics (ACL - EACL’97), Madrid

http://www.limsi.fr/Individu/jacquemi/FASTR/

Aucun commentaire:

Enregistrer un commentaire