jeudi 12 février 2009

WordSeg : Segmentation en mots et en phrases

La segmentation en mots et en phrases consiste à identifier les phrases et les mots dans un texte en exploitant un ensemble d’expressions régulières.

Description

WordSeg est un script awk écrit par Thierry Hamon and Julien Deriviere, au Laboratoire d'Informatique de Paris-Nord (LIPN) pour segmenter des textes français, en modifiant le script awk proposé par Gregory Grefenstette et désigné pour l'Anglais.

Installation sous Linux

Pour installer WordSeg, il faut commencer par le télécharger, puis décompresser l'archive WordSeg.tar.gz à l'endroit de son choix.

Utilisation

Pour utiliser WordSeg, il suffit d'exécuter la commande:
awk [options] <script_awk> <textein>

Par exemple, pour exécuter WordSeg sur le fichier test.txt, il faut saisir la commande :
awk -f words-fr.awk test.txt >seg.txt

Voici un extrait du fichier seg.txt produit:

La
segmentation
en
mots
et
en
phrases
consiste
à
identifier
les
phrases
et
les
mots
en
exploitant
un
ensemble
d'
expressions
régulières
.

Licence

Licence GPL

Références

G REFENSTETTE G. & TAPANAINEN P. (1994). What is a word, what is a sentence ? problems

of tokenization. In The 3rd International Conference on Computational Lexicography, p. 79–

87, Budapest.

1 commentaire: