Télécharger
    Installer
    Présentation
    Configuration
    Indexation
       Pipeline
       Original et usage
       Paramètres
       Format de sortie
       Champs SDX
       Documents attachés
      +Fragmentation <-
       Thésaurus
    Recherche
    OAI
    Javadoc
    Référence API-XSP
    Migration
    Schemas
    Performances


SDX

Fragmentation des documents

La fragmentation des documents est une fonctionnalité très utile dans SDX. En effet, certains documents XML sont trop volumineux pour constituer des unités documentaires (unités d'information cherchables) pertinentes. Par exemple, dans une application de consultation de thèses de doctorats, le document XML contient en général une thèse complète, soit dans certains cas l'équivalent de quelques centaines de pages imprimées. Si les résultats de recherche ne font référence qu'à des thèses complètes, l'utilisateur peut avoir de la difficulté à trouver la partie pertinente dans la thèse.

C'est pourquoi il est possible, lors du processus d'indexation d'un document XML, de le fragmenter en plusieurs unités documentaires. Ces unités seront appelées fragments de documents et il est important dès à présent de mentionner qu'un fragment de documents peut lui-même contenir d'autres fragments, ce qui indique que ce processus est récursif.

Un fragment de document sera donc une unité d'information cherchable mais aussi affichable par SDX, comme tout document XML indexé normalement, sans fragmentation. La seule distinction que fera SDX sera de conserver une relation entre un fragment et l'identifiant du document ou fragment dans lequel il se situe. Cette relation doit être conservée car SDX va détruire tous les fragments d'un document qu'il s'apprête à détruire, et de manière récursive. Ainsi, même s'il est possible de détruire individuellement un fragment de document dans SDX, il faut savoir que la destruction de son document ou fragment parent va aussi entraîner sa propre destruction, et ce afin de conserver des relations cohérentes par rapport au moment où ils ont été indexés.

Pour créer des fragments de documents, il suffit d'imbriquer des éléments sdx:document les uns à l'intérieur des autres. Pour les fragments, il est nécessaire de spécifier le contenu du XML en ajoutant ce contenu à l'intérieur même de l'élément sdx:document, en utilisant un espace de nom autre que celui de SDX. Voir l'exemple donnée dans le document sur le format de sortie du pipeline d'indexation.



Auteur : Martin Sévigny ( AJLSM ) - 2003-05-14