Download
    Installation
    Presentation
    Configuration
      +Document base <-


SDX

Configuration of a document base

Documents bases are components of SDX applications 2. The element sdx:documentBases of the file application.xconf contains information which define the document bases of an application; configuration information associated with this element are explained below.

The configuration of an SDX application must also contain an element sdx:userDocumentBase which has exactly the same structure as the element sdx:documentBase with which we are dealing with. All information in this document can also apply to this element sdx:userDoucmentBase. The latter allows to configure the spéciale document base which manages users associated to the application. This document base is special because of the specific role it has for the application, but it can actually be used in the same way as any other document base, which also implies that it can be used for searches.

The SDX architecture has been conceived for the concept of document base to be generic, even though at the moment only one type of document bases can be defined, which are the Lucene document bases. If additional search engines are connected to SDX, other types of document bases will appear.

Relation to repositories

A document base is not enough to build an SDX application including content. Indeed, even if it has all the necessary information to search documents and display them roughly , they do not contain the documents, even not precise references to their location. But, document bases keep a track of the document repository where the indexed document can be found, that allows to find the documents when necessary.

The configuration of a document repository can be located inside (in an XML hierarchy) the configuration of a doucment base or outside, which means at the level of the configuration of an application. When the repository is defined inside a document base, it means that it is accessible only for this base; other document bases of the application cannot stock documents in this repository. On the contrary, when the repository is defined at the level of the application, all document bases can put documents in it. The advantage of this configuration is larger when different types of document bases are integrated into SDX.

The element sdx:documentBases

This element shall only contain the list of document bases associated to an application. It must be inside the element sdx:application.

General information on a document base

L'élément sdx:documentBase contient toutes les informations nécessaires pour définir une base de documents, y compris certaines informations générales. Ces informations générales sont toutes spécifiées en attributs.

Table 1. Attributs de l'élément sdx:documentBase

AttributValeurs possiblesDescription
id (obligatoire)Un identifiant.L'identifiant de la base de documents. Cet identifiant est obligatoire, il devient par la suite la clé d'identification de la base de documents pour toutes les opérations de recherche, d'ajout ou de suppression de documents dans cette base.
defaultUn booléen (true ou false), par défaut c'est false.Si true, cette base est la base par défaut pour cette application. Cela signifie que les opérations de recherche, d'ajout ou de suppression de documents se feront dans cette base sauf si une base est explicitement mentionnée par son identifiant.
typeUne chaîne.Le type de base de documents; pour l'instant, seule la valeur "lucene" est permise.
xml:langUn code de langue selon la norme XML (par exemple fr-CA ou en).La langue par défaut pour le contenu des champs de cette base de documents. Si elle n'est pas spécifiée, c'est la langue par défaut de l'application qui est utilisée.
variantUn code de variante de langue, selon le langage Java.Java permettant de préciser des variantes de langue, le contenu de cet attribut vient préciser la langue donnée par xml:lang.
remote-accessUn booléen (true ou false), par défaut c'est false.Si true, cette base de documents est cherchable par des applications SDX autres que celle où elle est définie.
keepOriginalDocumentsUn booléen (true ou false), par défaut c'est true.Cet attribut n'a de sens que si le tube d'indexation contient plusieurs étapes de transformation. Dans ce cas, une valeur true signifie que le document original fourni à l'indexation est conservé par SDX; dans le cas contraire, SDX ne conserve que les documents issus des étapes de transformation avec un keep=true.
maxFieldLengthUn nombre entier, par défaut 10 000.Le nombre de champs pour un document. La modification de ce nombre peut avoir des impacts sur la performance. Consulter la documentation de la classe IndexWriter de Lucene pour en savoir plus.

Générateur d'identifiants

Tous les documents gérés par SDX doivent avoir un identifiant. Cet identifiant doit être unique dans la base de documents où il se trouve. En général, c'est le processus d'indexation qui est responsable de déterminer cet identifiant qui est fourni par l'attribut id de l'élément sdx:document résultant de ce processus d'indexation.

Toutefois, dans certains cas, il peut être difficile de trouver un identifiant lors du processus d'indexation, et c'est pourquoi SDX 2 offre un moyen d'en générer automatiquement, à l'aide de générateurs d'identifiants. Un générateur d'identifiants est nécessairement une classe Java qui implémente l'interface fr.gouv.culture.sdx.documentbase.IDGenerator; SDX 2 fournit une telle classe nommée fr.gouv.culture.sdx.documentbase.DefaultIDGenerator qui génère des identifiants de manière aléatoire.

Il n'est pas nécessaire de configurer des générateurs d'identifiants, même si on désire en utiliser un. En effet, dans une telle situation, SDX 2 utilisera toujours son propre générateur d'identifiants par défaut. Toutefois, si on veut en utiliser un autre, on doit le déclarer dans le application.xconf, à l'aide d'un élément sdx:idGenerator, qui doit avoir un attribut class qui indique le nom complet de la classe, et peut avoir des attributs idPrefix et idSuffix pour indiquer un préfixe et/ou un suffixe à ajouter aux identifiants générés. Pour utiliser ce générateur d'identifiants ou celui proposé par SDX 2, on doit spécifier l'attribut generateId de sdx:document dans le document retourné par le processus d'indexation, et lui donner une valeur true.

Interprète de requêtes

A faire.

Liste des champs

A faire.

Indexation

A faire.



Auteur : Martin Sévigny ( AJLSM ) - 2003-06-03