Télécharger Installer Présentation Configuration Indexation Recherche OAI Javadoc Référence API-XSP Migration Schemas Performances Concepts Mesures AJLSM - 2003/01 Serveur Application Indexation Recherche | Performances en indexationVoici quelques informations sur les temps d'indexation pour les trois bases de documents. Pour cette base, l'indexation s'est faite sur 1 030 000 documents, par groupes de 10 000 avant optimisation des index. Le temps d'indexation de 10 000 documents en fonction du nombre de documents déjà indexés est fourni dans le tableau suivant : Table 1. Temps d'indexation de la base 1
Ces chiffres nous indiquent que pour indexer les 10 000 premiers documents, environ 30 minutes sont nécessaires, mais pour indexer les 10 000 derniers on a besoin de 50 minutes environ, pour une augmentation de 70 % du temps requis. Le temps total d'indexation a été de 65 heures environ, ce qui est trop important pour une telle collection. Ce chiffre pourrait être diminué en utilisant des groupes plus importants de documents avant optimisation, surtout sur un serveur avec plus de mémoire. Le volume de documents XML indexés est de 145 Mo environ, soit une capacité d'indexation de 37 Ko à la minute seulement. La taille des index Lucene est de 476 Mo environ. Pour les moyens documents, l'indexation s'est faite sur 440 000 documents, par groupes de 10 000 également. Le tableau suivant fournit des informations similaires à la première base : Table 2. Temps d'indexation de la base 2
La première remarque importante à signaler est la plus grande irrégularité dans ces résultats. Cela est dû au fait que pendant certaines périodes d'indexation, le serveur a été utilisé à d'autres fins. Ces chiffres nous indiquent que pour indexer les 10 000 premiers documents, environ 30 minutes sont encore nécessaires, et pour indexer les 10 000 derniers on a aussi besoin de 50 minutes environ, pour une augmentation de 70 % du temps requis. Ces chiffres sont conformes à la base 1, ce qui semble indiquer que pour cette dernière, les paramètres d'indexation n'étaient vraiment pas optimisés. Le temps total d'indexation a été de 35 heures environ, pour une taille d'environ 1,1Go de documents XML indexés. La capacité d'indexation est donc de 530 Ko de XML à la minute. Pour les grands documents de type article, nous avons indexé 23 144 documents par groupes de 500. Les 644 premiers documents ont été indexés préalablement et nous n'avons pas d'indication sur les temps nécessaires. Dans le tableau suivant, nous considérons que ces premiers 644 documents ne sont pas présents dans la base. Table 3. Temps d'indexation de la base 3
Dans ces résultats, nous n'avons pas pris les groupes 1 et 21 parce que ces derniers présentaient des résultats très atypiques à cause d'autres utilsations du serveur. Nous constatons qu'entre le premier et le dernier groupe, le temps d'indexation augmente de 110 %, ce qui est nettement plus que pour les deux autres bases de documents. Le temps total d'indexation a été de 6,5 heures environ, pour environ 3,12 Go de documents XML, ce qui nous donne un volume d'indexation de 8 Mo à la minute. La taille des fichiers d'index est de 600 Mo environ, alors que les documents XML eux-mêmes occupent un espace de 3,12 Go dans l'entrepôt MySQL. La taille des index Lucene représente donc seulement 19 % des documents initiaux, ce qui peut se comprendre car un faible nombre de champs est stocké par l'outil de recherche. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Auteur : Martin Sévigny ( AJLSM ) - 2003/02/01 |