Télécharger
    Installer
    Présentation
       Architecture
       Serveur
       Applications
      +Bases de documents <-
       Entrepôt
       Multilinguisme
       Analyseurs
       Débuter
    Configuration
    Indexation
    Recherche
    OAI
    Javadoc
    Référence API-XSP
    Migration
    Schemas
    Performances


SDX

Les bases de documents

Un serveur SDX-2 héberge des applications qui regroupent la logique applicative et l'ensemble des ressources d'une application documentaire. Mais SDX étant d'abord et avant tout un outil de recherche, l'une des ressources fondamentales d'une application sera la base de documents ; c'est-à-dire le lieu virtuel où des documents XML sont indexés et peuvent être recherchés.

Définition

La base de documents définit donc un ensemble de documents qui peuvent être recherchés. Cet ensemble partage des caractéristiques communes, en particulier un certain nombre de champs et leurs caractéristiques. On pourrait donc dire qu'une base de documents est définie fondamentalement par une liste de champs et par le contenu de ces différents champs, produits lors de l'indexation de documents.

Une unité de recherche

Il peut y avoir plusieurs bases de documents dans une application SDX, mais il doit y en avoir au moins une (même si elle reste vide). De plus, il est très facile de faire des recherches simultanément dans plusieurs bases de documents, qu'elles soient définies auprès d'une même application ou dans différentes applications. Cette souplesse nous amène à poser une question similaire à celle posée pour les applications : comment choisir entre la définition d'une seule base de documents ou de plusieurs bases ?

Liste de champs de recherche

Nous avons vu qu'une base de documents est définie par une liste de champs de recherche. Si deux collections de documents XML doivent être indexés par des champs de recherche similaires, il peut être pertinent d'en faire une seule base. A l'opposé, si les champs de recherche sont plutôt différents, deux bases seront peut-être préférables, à la fois pour simplifier l'indexation et pour augmenter les performances.

Définition des ensembles de recherche

SDX possède certains mécanismes permettant de considérer seulement des parties de bases de documents lors de certaines recherches : les filtres. Si des filtres doivent être systématiquement utilisés et si ces filtres sont relativement statiques, il peut être profitable de créer plusieurs bases de documents pour séparer les collections de documents qui donnent lieu à des contextes de recherche spécifiques. Puisque la recherche peut s'effectuer dans plusieurs bases, on pourra toujours offrir une recherche globale même si l'option de scinder les bases a été retenue.

Conclusion

En conclusion, nous voulons attirer l'attention sur le fait que même si la notion de base de documents peut être conceptuellement associée à celle de collection de documents ou de types de documents, SDX n'impose pas de restriction sur les documents qu'il indexe au sein d'une base. Il est par exemple tout à fait possible d'indexer des documents XML respectant différents schémas ou DTD au sein d'une même base.



Auteurs : Martin Sévigny (AJLSM) ; Frédéric Glorieux (AJLSM) - 2003-05-13