- Impression
- SombreClair
- PDF
Extracteurs de métadonnées
1. Les extracteurs de métadonnées
Permets de faire l'ajout d'éléments dans Constellio et d'extraire leurs métadonnées, soit par l'utilisation des styles, des extractions régulières ou des propriétés. L'ordre de priorité pour le peuplement d'une métadonnée est défini dans les configurations du système. Si aucune donnée n'est définie pour les styles et les expressions régulières par l'extracteur de métadonnées, Constellio exportera automatiquement les données des propriétés.
Voici la fiche à remplir pour définir des styles, des propriétés et des expressions régulières pour une métadonnée précise :
Il est utile, pour une métadonnée précise, d'indiquer des informations d'extraction selon les trois méthodes (styles, propriétés et expressions régulières). Toutefois, pour un modèle Word précis avec des styles, il peut également être utile de créer un schéma de métadonnées propres à ce modèle et de définir précisément comment extraire chaque métadonnée avec un ou plusieurs styles ou modèle Word.
2. Créer un extracteur de métadonnée
- Cliquer sur « Pilotage » dans le menu de navigation;
- Cliquer sur « Extracteur de métadonnée »;
- Dans la fenêtre « Extracteur de métadonnée », cliquer sur « Ajouter »;
- Dans la deuxième fenêtre « Extracteur de métadonnée », compléter les métadonnées nécessaires à la création d'un extracteur de métadonnée. Que ce soit avec les styles, les propriétés, les expressions régulières ou seulement les éléments désirés. Cliquer sur « Enregistrer ».
Volet 1 : sélection de la métadonnée | ||
---|---|---|
Nom du champ | Type | Description |
Type de schéma | Obligatoire | Sélectionner un type de schéma. |
Schéma | Obligatoire | Si plusieurs schémas existent pour le type de schéma sélectionné, choisir le schéma précis qui contient la métadonnée pour laquelle l'extracteur doit être créé. |
Métadonnée | Obligatoire | Sélectionner la métadonnée précise (ex. : titre, auteur, description, etc.) |
Volet 2 : définir les styles, propriétés et expressions régulières | |||
---|---|---|---|
Nom du champ | Type | Description | |
Styles | Facultatif | Inscrire le nom donné au style dans Word. Le nom doit être écrit un minuscule et sans espace. (Ex. : si le style est nommé Titre propre, il faut écrire titrepropre). Il est possible d'inscrire plusieurs styles pour une métadonnée. | |
Propriétés | Facultatif | Inscrire le nom de la propriété qui équivaut à la métadonnée. Pour les schémas, document et courriel, les propriétés qui équivalent aux métadonnées sont déjà indiquées par défaut dans l'extracteur de métadonnées. Si vous ajoutez un nouveau schéma, il est possible de vous fier à celles indiquées pour le document. | |
Regexes (expressions régulières) | Facultatif | Permets de définir une ou plusieurs expressions régulières, chacune visant une métadonnée précise. Pour chaque expression régulière, lorsque la métadonnée visée correspond, il est possible de configurer l'extracteur pour qu'il utilise la valeur trouvée, ou une autre valeur qu'on précise. | |
Métadonnée | La métadonnée dans laquelle l'analyse est faite. Pour analyser le texte dans un fichier PDF, Docx, etc.; sélectionner la métadonnée Fichier. | ||
Regex | Permets d'inscrire l'expression régulière. | ||
Type | Permet de déterminer si nous voulons détecter l'information ou si nous voulons l'extraire.
| ||
Valeur |
| ||
Activé seulement à la création | Facultatif | Permet d'indiquer si l'extraction se fait seulement à la création du document, ou à chaque fois qu'il est modifié. |
2.1 Analyseur de propriétés
L'analyseur de propriétés permet de sélectionner le document de votre choix pour analyser ses propriétés et y choisir la métadonnée que vous voulez extraire automatiquement.
- Cliquer sur «Pilotage» dans le menu de navigation;
- Cliquer sur «Extracteur de métadonnée»;
- Dans la fenêtre «Extracteur de métadonnée», cliquer sur «Ajouter»;
- Cliquer sur l'option «Analyseur de propriétés»;
- Sélectionner par le bouton un document ou glisser celui-ci dans la page;
- Les métadonnées de propriétés et de styles sont affichées, cliquer sur la métadonnée de votre choix;
- Une confirmation que la propriété a été ajoutée à la liste apparait;
- Fermer la fenêtre pour revenir à la page d'extraction de métadonnées. La métadonnée «Page Count» a été ajoutée à la métadonnée «Page-Count».
- Vous devez maintenant remplir les autres champs pour déterminer dans quelle métadonnée déjà existante «Page Count» doit s'extraire.
- La métadonnée est maintenant définie comme une métadonnée extraite.
- La métadonnée est maintenant extraite automatiquement dès l'ajout dans Constellio.
3. Modifier un extracteur de métadonnées
- Cliquer sur « Pilotage » dans le menu de navigation;
- Cliquer sur « Extracteur de métadonnée »;
- Dans la fenêtre « Extracteur de métadonnée », cliquer sur le calepin à droite de l'élément à modifier;
- Apporter les modifications et cliquer sur « Enregistrer ».
4. Supprimer un extracteur de métadonnées
- Cliquer sur « Pilotage » dans le menu de navigation;
- Cliquer sur « Extracteur de métadonnée »;
- Dans la fenêtre « Extracteur de métadonnée », cliquer sur le X rouge à droite de l'élément à supprimer;
- Une fenêtre de confirmation apparaît, cliquer sur « Enregistrer ».
5. Configurations
Vous retrouverez dans cette section toutes les configurations du système impactant les extracteurs de métadonnées. Pour en savoir plus sur les configurations, consulter l'article «Configurations du système».
Onglet Avancée | |||
---|---|---|---|
Configuration | Description | Valeurs possibles | Impacts |
Retirer l'extension dans le titre d'un document | Cette configuration permet de retirer l'extension (ex. : .txt, .doc) dans le champ « Titre » d'un document lorsque ce dernier est alimenté à l'aide des extracteurs de métadonnées (extraction par propriétés). | Activé | Le titre de la fiche de métadonnées ne comportera pas l'extension du fichier. |
Désactivé | Le titre de la fiche de métadonnées comportera l'extension du fichier. | ||
Priorité lors du peuplement des métadonnées | Cette configuration permet de déterminer l'ordre de priorisation pour le peuplement des métadonnées lors de l'extraction automatique du titre dans l'importation des documents. | Styles : Pour un document Word sera importé et prit en compte en priorité le style que l'on a créé dans le document Word. | Exemple : Pour le choix Styles -> Expressions réguliers -> Propriétés, Constellio fera l'extraction dans l'ordre suivant si les données sont disponibles :
S'il n'y a aucune donnée dans les styles et expressions régulières, Constellio exportera automatiquement les données des propriétés. |
Nom du fichier : Le nom du fichier sera utilisé. | |||
Propriétés : Le titre défini dans les propriétés sera utilisé. | |||
Priorité lors du peuplement du titre | Cette configuration permet de spécifier l'ordre dans lequel les métadonnées du titre seront extraites lors de l'importation des documents. Pour cela, il faut paramétrer le module d'Extracteurs de métadonnées. | Styles : Pour un document Word sera importé et prit en compte en priorité le style que l'on a créé dans le document Word. | Exemple : Pour le choix Styles -> Expressions réguliers -> Propriétés, Constellio fera l'extraction dans l'ordre suivant si les données sont disponibles :
S'il n'y a aucune donnée dans les styles et expressions régulières, Constellio exportera automatiquement les données des propriétés. |
Nom du fichier : Le nom du fichier sera utilisé. | |||
Propriétés : Le titre défini dans les propriétés sera utilisé. |