Télécharger Installer Présentation Configuration Indexation Pipeline Original et usage Paramètres Format de sortie Champs SDX Documents attachés Fragmentation Thésaurus Recherche OAI Javadoc Référence API-XSP Migration Schemas Performances | Aperçu de l'indexationSDX est d'abord et avant tout un outil de recherche pour documents XML. De plus, l'approche utilisée par SDX consiste à utiliser la structure des documents XML au moment de l'indexation et non au moment de la requête. Ainsi, le processus d'indexation consiste à analyser le document XML à indexer, puis à remplir des champs (ou index) avec du contenu (provenant du document ou d'une source externe). Dans le but de demeurer un outil XML complètement générique, SDX ne peut prétendre connaître à l'avance où trouver l'information pour les différents champs définis dans votre base de documents. Le développeur d'une application doit donc prévoir un pipeline d'indexation, soit une ou plusieurs transformations qui vont s'opérer sur le document source pour produire une structure XML simple qui contiendra la liste des champs pertinents et leur valeur. Ce mécanisme d'indexation est le même pour les deux types de documents indexables actuellement supportés par SDX, soit les documents XML et les documents HTML. Ces derniers sont préalablement convertis en format XML pour ensuite être introduits dans le pipeline d'indexation de la même manière qu'un document XML normal. Il est à noter que le processus d'indexation de SDX est fondamental, car, avant d'être indexé, un document n'est pas connu par SDX. C'est également lors de ce processus que des liens vers des documents attachés peuvent être créés, mais aussi qu'un document peut être fragmenté pour créer plusieurs unités documentaires. Pour bien comprendre le processus d'indexation de SDX, la documentation présente séparément ces différents concepts :
|
Auteur : Martin Sévigny ( AJLSM ) - 2003-05-14 |