Télécharger
    Installer
    Présentation
    Configuration
    Indexation
    Recherche
    OAI
    Javadoc
    Référence API-XSP
    Migration
    Schemas
    Performances
       Concepts
       Mesures
          AJLSM - 2003/01
             Serveur
             Application
            +Indexation <-
             Recherche


SDX

Performances en indexation

Voici quelques informations sur les temps d'indexation pour les trois bases de documents.

Base 1 : petits documents

Pour cette base, l'indexation s'est faite sur 1 030 000 documents, par groupes de 10 000 avant optimisation des index. Le temps d'indexation de 10 000 documents en fonction du nombre de documents déjà indexés est fourni dans le tableau suivant :

Table 1. Temps d'indexation de la base 1

No du groupeNb de documents déjà indexésTemps pour 10 000 documentsNb de documents à la seconde
101 758 s.5,7
21200 0001 875 s.5,3
41400 0002 115 s.4,7
62610 0002 476 s.4,2
82810 0002 716 s.3,7
1031 020 0002 998 s.3,3

Ces chiffres nous indiquent que pour indexer les 10 000 premiers documents, environ 30 minutes sont nécessaires, mais pour indexer les 10 000 derniers on a besoin de 50 minutes environ, pour une augmentation de 70 % du temps requis. Le temps total d'indexation a été de 65 heures environ, ce qui est trop important pour une telle collection. Ce chiffre pourrait être diminué en utilisant des groupes plus importants de documents avant optimisation, surtout sur un serveur avec plus de mémoire.

Le volume de documents XML indexés est de 145 Mo environ, soit une capacité d'indexation de 37 Ko à la minute seulement. La taille des index Lucene est de 476 Mo environ.

Base 2 : moyens documents

Pour les moyens documents, l'indexation s'est faite sur 440 000 documents, par groupes de 10 000 également. Le tableau suivant fournit des informations similaires à la première base :

Table 2. Temps d'indexation de la base 2

No du groupeNb de documents déjà indexésTemps pour 10 000 documentsNb de documents à la seconde
101 821 s.5,49
11100 0002 769 s.3,61
21200 0002 396 s.4,17
31300 0002 577 s.3,88
41400 0002 831 s.3,53
44430 0003 167 s.3,16

La première remarque importante à signaler est la plus grande irrégularité dans ces résultats. Cela est dû au fait que pendant certaines périodes d'indexation, le serveur a été utilisé à d'autres fins.

Ces chiffres nous indiquent que pour indexer les 10 000 premiers documents, environ 30 minutes sont encore nécessaires, et pour indexer les 10 000 derniers on a aussi besoin de 50 minutes environ, pour une augmentation de 70 % du temps requis. Ces chiffres sont conformes à la base 1, ce qui semble indiquer que pour cette dernière, les paramètres d'indexation n'étaient vraiment pas optimisés.

Le temps total d'indexation a été de 35 heures environ, pour une taille d'environ 1,1Go de documents XML indexés. La capacité d'indexation est donc de 530 Ko de XML à la minute.

Base 3 : grands documents

Pour les grands documents de type article, nous avons indexé 23 144 documents par groupes de 500. Les 644 premiers documents ont été indexés préalablement et nous n'avons pas d'indication sur les temps nécessaires. Dans le tableau suivant, nous considérons que ces premiers 644 documents ne sont pas présents dans la base.

Table 3. Temps d'indexation de la base 3

No du groupeNb de documents déjà indexésTemps pour 10 000 documentsNb de documents à la seconde
2500260 s.1,92
115 000391 s.1,46
2210 500470 s.1,06
3115 000591 s.0,85
4120 000618 s.0,81
4522 000659 s.0,76

Dans ces résultats, nous n'avons pas pris les groupes 1 et 21 parce que ces derniers présentaient des résultats très atypiques à cause d'autres utilsations du serveur. Nous constatons qu'entre le premier et le dernier groupe, le temps d'indexation augmente de 110 %, ce qui est nettement plus que pour les deux autres bases de documents. Le temps total d'indexation a été de 6,5 heures environ, pour environ 3,12 Go de documents XML, ce qui nous donne un volume d'indexation de 8 Mo à la minute.

La taille des fichiers d'index est de 600 Mo environ, alors que les documents XML eux-mêmes occupent un espace de 3,12 Go dans l'entrepôt MySQL. La taille des index Lucene représente donc seulement 19 % des documents initiaux, ce qui peut se comprendre car un faible nombre de champs est stocké par l'outil de recherche.



Auteur : Martin Sévigny ( AJLSM ) - 2003/02/01