Installation et tests |
- Construction du code source
- Test de l'analyseur morphologique
- Test de l'analyseur arabe pour Lucene
- Test de l'analyseur anglais pour Lucene
Construction du code source
Les sources sont livrées avec les bibliothèques Ant nécessaires et un fichier build.xml.
Warning
En l'état actuel du code, qui utilise abondamment les expressions régulières, AraMorph ne peut être construit et utilisé que sur un JDK 1.4 ou supérieur. La modification du code qui permettrait l'utilisation de bibliothèques d'expressions régulières externes compatibles avec un JDK antérieur reste à réaliser.
La construction s'effectue simplement en lançant build.bat suivi du nom de la cible à exécuter.
Fixme (???)
Un grand merci à qui me fournira un script Unix fonctionnel pour la construction.
Les cibles disponibles sont :
Cible | Action |
---|---|
compile | Compile le code source. Par défaut, le résultat sera généré dans ${dist}/src. |
jar |
Construit le fichier ArabicAnalyzer.jar. Par défaut, le résultat sera généré dans ${dist}. Selon la valeur de la propriété with.sources (true par défaut), les sources seront incluses dans le fichier. |
zip | Construit un fichier ArabicAnalyzer-src.zip contenant les fichiers source. Par défaut, le résultat sera généré dans ${dist}. |
dist | Construit un fichier ArabicAnalyzer-dist.zip contenant tous les fichiers de la distribution. Par défaut, le résultat sera généré dans ${dist}. |
javadoc | Construit les javadocs des fichiers source. Par défaut, le résultat sera généré dans ${dist}/javadoc. |
site |
Construit la documentation HTML à l'aide de Apache Forrest. Par défaut, le résultat sera généré dans ${dist}/html. Vous pouvez définir le chemin de Forrest à partir d'une variable d'environnement FORREST_HOME ou définir la propriété forrest.home dans un fichier ./forrest.properties. Warning
La cible est conçue pour Forrest version 0.5.1. Un grand merci à qui me fournira un fichier build.xml pour des versions plus récentes.
|
clean | Détruit le répertoire de construction, par défaut ${dist} |
help | Affiche l'aide sur les différentes cibles disponibles (cible par défaut). |
Note
Par défaut, ${dist} est égal à ./build.
Test de l'analyseur morphologique
L'analyseur morphologique est utilisé de cette façon :
java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶ gpl.pierrick.brihaye.aramorph.AraMorph
Warning
Le classpath dépend naturellement de l'endroit où les fichiers ArabicAnalyzer.jar et commons-collections.jar se trouvent.
Utilisé tel quel, c'est à dire sans arguments, le programme renvoie le message d'aide suivant :
Arabic Morphological Analyzer for Java(tm) Ported to Java(tm) by Pierrick Brihaye, 2003-2004. Based on : BUCKWALTER ARABIC MORPHOLOGICAL ANALYZER Portions (c) 2002 QAMUS LLC (www.qamus.org), (c) 2002 Trustees of the University of Pennsylvania. This program is governed by : The GNU General Public License Usage : araMorph inFile [inEncoding] [outFile] [outEncoding] [-v] inFile : file to be analyzed inEncoding : encoding for inFile, default CP1256 outFile : result file, default console outEncoding : encoding for outFile, if not specified use Buckwalter transliterat ion with system's file.encoding -v : verbose mode
La description du paramètrage ne devrait nomalement poser aucun problème :
Paramètre | Fonction |
---|---|
inFile | Le chemin d'un fichier texte à analyser (obligatoire) |
inEncoding | L'encodage de ce fichier texte (CP1256 par défaut) |
outFile | Le chemin du fichier de sortie des résultats de l'analyse morphologique (la console par défaut) |
outEncoding | L'encodage du fichier de sortie (par défaut, la propriété système file.encoding de la JVM, avec utilisation de la translitération de Buckwalter) |
-v | Un drapeau indiquant que l'on désire une plus grande verbosité |
Voici quelques exemples d'utilisation :
java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶ gpl.pierrick.brihaye.aramorph.AraMorph ¶ src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/cp1256.txt java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶ gpl.pierrick.brihaye.aramorph.AraMorph ¶ src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/UTF-8.txt UTF-8 -v java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar ¶ gpl.pierrick.brihaye.aramorph.AraMorph ¶ src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/iso-8859-6.txt ¶ iso-8859-6 results.txt CP1256
Test de l'analyseur arabe pour Lucene
Les paramètres sont les mêmes mis à part -v, inutile ici. Il faut cependant inclure le fichier jar de Lucene dans le classpath.
java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar;lib/lucene-1.4.3.jar ¶ gpl.pierrick.brihaye.aramorph.test.TestArabicAnalyzer ¶ src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/cp1256.txt results.txt
Warning
Le classpath dépend naturellement de l'endroit où les fichiers ArabicAnalyzer.jar, commons-collections.jar et lucene*.jar se trouvent.
Test de l'analyseur anglais pour Lucene
Note
Oui, on peut analyser un texte arabe pour retourner des tokens en anglais !
Ne pas en attendre de miracles cependant, AraMorph n'ayant pas vocation à jouer le rôle de traducteur automatique.
Ne pas en attendre de miracles cependant, AraMorph n'ayant pas vocation à jouer le rôle de traducteur automatique.
Les paramètres sont les mêmes mis à part -v, inutile ici. Il faut cependant inclure le fichier jar de Lucene dans le classpath.
java -cp build/ArabicAnalyzer.jar;lib/commons-collections.jar;lib/lucene-1.4.3.jar ¶ gpl.pierrick.brihaye.aramorph.test.TestArabicGlosser ¶ src/java/gpl/pierrick/brihaye/aramorph/test/testdocs/cp1256.txt ¶ results.txt
Warning
Le classpath dépend naturellement de l'endroit où les fichiers ArabicAnalyzer.jar, commons-collections.jar et lucene*.jar se trouvent.