Description
WordSeg est un script awk écrit par Thierry Hamon and Julien Deriviere, au Laboratoire d'Informatique de Paris-Nord (LIPN) pour segmenter des textes français, en modifiant le script awk proposé par Gregory Grefenstette et désigné pour l'Anglais.
Installation sous Linux
Pour installer WordSeg, il faut commencer par le télécharger, puis décompresser l'archive WordSeg.tar.gz à l'endroit de son choix.
Utilisation
Pour utiliser WordSeg, il suffit d'exécuter la commande:
awk [options] <script_awk> <textein>
Par exemple, pour exécuter WordSeg sur le fichier test.txt, il faut saisir la commande :
awk -f words-fr.awk test.txt >seg.txt
Voici un extrait du fichier seg.txt produit:
La
segmentation
en
mots
et
en
phrases
consiste
à
identifier
les
phrases
et
les
mots
en
exploitant
un
ensemble
d'
expressions
régulières
.
Licence
Licence GPL
Références
G REFENSTETTE G. & TAPANAINEN P. (1994). What is a word, what is a sentence ? problems
of tokenization. In The 3rd International Conference on Computational Lexicography, p. 79–
87, Budapest.
thanks u saved my day .
RépondreSupprimerموقع العاب فلاش