Télécharger
    Installer
    Présentation
    Configuration
    Indexation
       Pipeline
      +Original et usage <-
       Paramètres
       Format de sortie
       Champs SDX
       Documents attachés
       Fragmentation
       Thésaurus
    Recherche
    OAI
    Javadoc
    Référence API-XSP
    Migration
    Schemas
    Performances


SDX

Document original, document d'usage

SDX est d'abord et avant tout un moteur de recherche, et dans ce sens il s'intéresse surtout à la transformation des documents originaux pour leur indexation. Toutefois, parmi les fonctionnalités proposées par SDX, il y a l'affichage des documents XML. Pour ce faire, SDX a besoin de connaître ce document, donc de le converver ou d'en garder une adresse. C'est le rôle de l'entrepôt dans l'architecture SDX.

La plupart du temps, le document affiché est le document XML original qui a été indexé. Toutefois, il peut être pratique d'afficher un document qui n'est pas exactement l'original, mais plutôt le résultat d'une transformation de cet original. Par exemple, on peut vouloir simplifier le document pour augmenter les performances, pour supprimer du contenu non public ou pour faciliter l'affichage, ou encore supprimer l'appel à la DTD pour augmenter, encore une fois, les performances.

C'est pourquoi SDX introduit le concept de document d'usage, soit le document qui sera utilisé pour l'affichage, document d'usage qui peut être distinct du document original. Si l'on ne prête pas attention à ce concept, le document d'usage et le document original sont strictement les mêmes pour SDX. Pour introduire un document d'usage, on doit le déclarer spécifiquement.

Par ailleurs, il est également possible de spécifier que SDX ne doit pas garder le document original, mais seulement l'un des documents issus d'une transformation. Dans ce cas, pour SDX, encore une fois document d'usage et document original sont les mêmes, mais cette fois il ne s'agit pas du document tel qu'il lui a été soumis pour indexation.

Puisque les documents d'usage sont issus d'une transformation lors de l'indexation, c'est dans la configuration de cette dernière que l'on peut préciser les informations nécessaires, de même que dans la configuration de la base de documents. Voyons d'abord un exemple complet, en rappelant que les structures XML définitives sont fournies par le schéma de référence :

Exemple 1. Indexation d'un document en deux transformations

  <sdx:pipeline>
    <sdx:transformation id="step1" type="XSLT" src="transform.xsl" keep="true"/>
    <sdx:transformation id="step2" type="XSLT" src="index.xsl"/>
  </sdx:pipeline>

Dans cet exemple, SDX va conserver deux documents :

  1. Le document original soumis pour indexation, c'est-à-dire le document XML qui entre dans le pipeline d'indexation. Ce document devient le document original.

  2. Le document XML issu de la transformation XSLT step1, document qui deviendra le document d'usage. A noter que ce document sera également le document d'entrée de la seconde transformation, step2.

Si l'on ne veut pas que SDX conserve les documents originaux, on doit le spécifier au niveau de la base de documents, en ajoutant l'attribut keepOriginalDocuments="true" à l'élément sdx:documentBase pertinent.

Le document d'usage est utilisé par SDX lorsqu'on lui demande d'inclure ou d'envoyer un document. Ces opérations peuvent être faites de différentes manières :

  • Par l'inclusion d'un document, soit par l'API XSP (sdx:includeDocument) ou par l'API URL (commande get).

  • Par des résultats de recherche où l'on demande d'inclure les documents, en utilisant le paramètre docs="true", que ce soit en API XSP ou en API URL.

Le document original n'est pour l'instant pas utilisé par SDX. Toutefois, il est conservé (par défaut) afin de le restituer si on demande de faire une sauvegarde d'une base de documents (fonction non implantée mais qui le sera prochainement).

Par ailleurs, veuillez noter que lorsqu'un document est supprimé d'une base de documents, le document original et le document d'usage sont supprimés.



Auteur : Martin Sévigny ( AJLSM ) - 2003-05-14