Télécharger
    Installer
    Présentation
    Configuration
   +Indexation <-
       Pipeline
       Original et usage
       Paramètres
       Format de sortie
       Champs SDX
       Documents attachés
       Fragmentation
       Thésaurus
    Recherche
    OAI
    Javadoc
    Référence API-XSP
    Migration
    Schemas
    Performances


SDX

Aperçu de l'indexation

SDX est d'abord et avant tout un outil de recherche pour documents XML. De plus, l'approche utilisée par SDX consiste à utiliser la structure des documents XML au moment de l'indexation et non au moment de la requête. Ainsi, le processus d'indexation consiste à analyser le document XML à indexer, puis à remplir des champs (ou index) avec du contenu (provenant du document ou d'une source externe).

Dans le but de demeurer un outil XML complètement générique, SDX ne peut prétendre connaître à l'avance où trouver l'information pour les différents champs définis dans votre base de documents. Le développeur d'une application doit donc prévoir un pipeline d'indexation, soit une ou plusieurs transformations qui vont s'opérer sur le document source pour produire une structure XML simple qui contiendra la liste des champs pertinents et leur valeur.

Ce mécanisme d'indexation est le même pour les deux types de documents indexables actuellement supportés par SDX, soit les documents XML et les documents HTML. Ces derniers sont préalablement convertis en format XML pour ensuite être introduits dans le pipeline d'indexation de la même manière qu'un document XML normal.

Il est à noter que le processus d'indexation de SDX est fondamental, car, avant d'être indexé, un document n'est pas connu par SDX. C'est également lors de ce processus que des liens vers des documents attachés peuvent être créés, mais aussi qu'un document peut être fragmenté pour créer plusieurs unités documentaires.

Pour bien comprendre le processus d'indexation de SDX, la documentation présente séparément ces différents concepts :

Pipeline d'indexation

Comment configurer le pipeline d'indexation ? Quels sont les types de transformation possibles ?

Document original, document d'usage

SDX vous permet de gérer non seulement le document original, mais également un document d'usage issu de l'une des transformation du pipeline d'indexation. Que fait exactement SDX de ces documents ?

Paramètres d'indexation

Quels sont les paramètres que SDX fournit à tout pipeline d'indexation ? Comment spécifier vos propres paramètres de pipeline ?

Format de sortie : documents, champs

Quel est le format de sortie d'un pipeline d'indexation ?

Champs SDX

Quels sont les champs définis automatiquement par SDX ? A quoi peuvent-ils servir ? Comment les utiliser ?

Documents attachés

Pourquoi attacher des documents ? Comment spécifier un document attaché ?

Fragmentation des documents

Pourquoi fragmenter des documents XML ? Que fait SDX avec des documents fragmentés ou des fragments de documents ? Comment fournir la source d'un document fragmenté ?

Utilisation de thésaurus

Quel est le rôle d'un thésaurus lors de l'indexation ? Comment configurer un pipeline pour utiliser un thésaurus ? Comment demander à SDX d'utiliser un thésaurus pour ajouter des termes à un champ ?



Auteur : Martin Sévigny ( AJLSM ) - 2003-05-14