AraMorph

the AraMorph site
 
   

Installation et tests

Construction du code source

Les sources sont livrées avec les bibliothèques Ant nécessaires et un fichier build.xml.

Warning
En l'état actuel du code, qui utilise abondamment les expressions régulières, AraMorph ne peut être construit et utilisé que sur un JDK 1.4 ou supérieur. La modification du code qui permettrait l'utilisation de bibliothèques d'expressions régulières externes compatibles avec un JDK antérieur reste à réaliser.

La construction s'effectue simplement en lançant build.bat suivi du nom de la cible à exécuter.

Fixme (???)
Un grand merci à qui me fournira un script Unix fonctionnel pour la construction.

Les cibles disponibles sont :

CibleAction
compileCompile le code source. Par défaut, le résultat sera généré dans ${dist}/src.
jar Construit le fichier ArabicAnalyzer.jar. Par défaut, le résultat sera généré dans ${dist}.
Selon la valeur de la propriété with.sources (true par défaut), les sources seront incluses dans le fichier.
zipConstruit un fichier ArabicAnalyzer-src.zip contenant les fichiers source. Par défaut, le résultat sera généré dans ${dist}.
distConstruit un fichier ArabicAnalyzer-dist.zip contenant tous les fichiers de la distribution. Par défaut, le résultat sera généré dans ${dist}.
javadocConstruit les javadocs des fichiers source. Par défaut, le résultat sera généré dans ${dist}/javadoc.
site Construit la documentation HTML à l'aide de Apache Forrest.
Par défaut, le résultat sera généré dans ${dist}/html. Vous pouvez définir le chemin de Forrest à partir d'une variable d'environnement FORREST_HOME ou définir la propriété forrest.home dans un fichier ./forrest.properties.
Warning
La cible est conçue pour Forrest version 0.5.1. Un grand merci à qui me fournira un fichier build.xml pour des versions plus récentes.
cleanDétruit le répertoire de construction, par défaut ${dist}
helpAffiche l'aide sur les différentes cibles disponibles (cible par défaut).
Note
Par défaut, ${dist} est égal à ./build.

Test de l'analyseur morphologique

L'analyseur morphologique est utilisé de cette façon :

java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶
	gpl.pierrick.brihaye.aramorph.AraMorph
Warning
Le classpath dépend naturellement de l'endroit où les fichiers ArabicAnalyzer.jar et commons-collections.jar se trouvent.

Utilisé tel quel, c'est à dire sans arguments, le programme renvoie le message d'aide suivant :

Arabic Morphological Analyzer for Java(tm)
Ported to Java(tm) by Pierrick Brihaye, 2003-2004.
Based on :
BUCKWALTER ARABIC MORPHOLOGICAL ANALYZER
Portions (c) 2002 QAMUS LLC (www.qamus.org),
(c) 2002 Trustees of the University of Pennsylvania.
This program is governed by :
The GNU General Public License

Usage :

araMorph inFile [inEncoding] [outFile] [outEncoding] [-v]

inFile : file to be analyzed
inEncoding : encoding for inFile, default CP1256
outFile : result file, default console
outEncoding : encoding for outFile, if not specified use Buckwalter transliterat
ion with system's file.encoding
-v : verbose mode

	

La description du paramètrage ne devrait nomalement poser aucun problème :

ParamètreFonction
inFileLe chemin d'un fichier texte à analyser (obligatoire)
inEncodingL'encodage de ce fichier texte (CP1256 par défaut)
outFileLe chemin du fichier de sortie des résultats de l'analyse morphologique (la console par défaut)
outEncodingL'encodage du fichier de sortie (par défaut, la propriété système file.encoding de la JVM, avec utilisation de la translitération de Buckwalter)
-vUn drapeau indiquant que l'on désire une plus grande verbosité

Voici quelques exemples d'utilisation :

java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶
gpl.pierrick.brihaye.aramorph.AraMorph ¶
src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/cp1256.txt

java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶
gpl.pierrick.brihaye.aramorph.AraMorph ¶
src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/UTF-8.txt UTF-8 -v

java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶
gpl.pierrick.brihaye.aramorph.AraMorph ¶
src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/iso-8859-6.txt ¶
iso-8859-6 results.txt CP1256
		

Test de l'analyseur arabe pour Lucene

Les paramètres sont les mêmes mis à part -v, inutile ici. Il faut cependant inclure le fichier jar de Lucene dans le classpath.

java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar;lib/lucene-1.4.3.jar ¶
gpl.pierrick.brihaye.aramorph.test.TestArabicAnalyzer ¶
src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/cp1256.txt results.txt
		
Warning
Le classpath dépend naturellement de l'endroit où les fichiers ArabicAnalyzer.jar, commons-collections.jar et lucene*.jar se trouvent.

Test de l'analyseur anglais pour Lucene

Note
Oui, on peut analyser un texte arabe pour retourner des tokens en anglais !
Ne pas en attendre de miracles cependant, AraMorph n'ayant pas vocation à jouer le rôle de traducteur automatique.

Les paramètres sont les mêmes mis à part -v, inutile ici. Il faut cependant inclure le fichier jar de Lucene dans le classpath.

java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar;lib/lucene-1.4.3.jar ¶
gpl.pierrick.brihaye.aramorph.test.TestArabicGlosser ¶
src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/cp1256.txt ¶
results.txt
		
Warning
Le classpath dépend naturellement de l'endroit où les fichiers ArabicAnalyzer.jar, commons-collections.jar et lucene*.jar se trouvent.