Extracteurs de métadonnées
  • 30 Apr 2024
  • 5 Minutes à lire
  • Contributeurs
  • Sombre
    Clair
  • PDF

Extracteurs de métadonnées

  • Sombre
    Clair
  • PDF

Résumé de l’article

1. Les extracteurs de métadonnées

Permets de faire l'ajout d'éléments dans Constellio et d'extraire leurs métadonnées, soit par l'utilisation des styles, des extractions régulières ou des propriétés. L'ordre de priorité pour le peuplement d'une métadonnée est défini dans les configurations du système. Si aucune donnée n'est définie pour les styles et les expressions régulières par l'extracteur de métadonnées, Constellio exportera automatiquement les données des propriétés. 

Voici la fiche à remplir pour définir des styles, des propriétés et des expressions régulières pour une métadonnée précise : 

Il est utile, pour une métadonnée précise, d'indiquer des informations d'extraction selon les trois méthodes (styles, propriétés et expressions régulières). Toutefois, pour un modèle Word précis avec des styles, il peut également être utile de créer un schéma de métadonnées propres à ce modèle et de définir précisément comment extraire chaque métadonnée avec un ou plusieurs styles ou modèle Word.

POINTS DE VIGILANCE
Si aucune donnée n'est définie pour les styles et les expressions régulières par l'extracteur de métadonnées, Constellio exportera automatiquement les données des propriétés.
Informations supplémentaires - Utilisation de modèle word
Il est utile, pour une métadonnée précise, d'indiquer des informations d'extractions selon les trois méthodes (styles, propriétés et expressions régulières). Toutefois, pour un modèle Word précis avec des styles, il peut également être utile de créer un schéma de métadonnées propres à ce modèle et de définir précisément comment extraire chaque métadonnée avec un ou plusieurs styles du modèle Word.

2. Créer un extracteur de métadonnée

  1. Cliquer sur « Pilotage » dans le menu de navigation;
  2. Cliquer sur « Extracteur de métadonnée »;
  3. Dans la fenêtre « Extracteur de métadonnée », cliquer sur « Ajouter »;
  4. Dans la deuxième fenêtre « Extracteur de métadonnée », compléter les métadonnées nécessaires à la création d'un extracteur de métadonnée. Que ce soit avec les styles, les propriétés, les expressions régulières ou seulement les éléments désirés. Cliquer sur « Enregistrer ». 
Volet 1 : sélection de la métadonnée
Nom du champTypeDescription
Type de schémaObligatoireSélectionner un type de schéma.
SchémaObligatoireSi plusieurs schémas existent pour le type de schéma sélectionné, choisir le schéma précis qui contient la métadonnée pour laquelle l'extracteur doit être créé. 
MétadonnéeObligatoireSélectionner la métadonnée précise (ex. : titre, auteur, description, etc.)
Volet 2 : définir les styles, propriétés et expressions régulières
Nom du champTypeDescription
StylesFacultatifInscrire le nom donné au style dans Word. Le nom doit être écrit un minuscule et sans espace. (Ex. : si le style est nommé Titre propre, il faut écrire titrepropre).
Il est possible d'inscrire plusieurs styles pour une métadonnée. 
PropriétésFacultatifInscrire le nom de la propriété qui équivaut à la métadonnée. Pour les schémas, document et courriel, les propriétés qui équivalent aux métadonnées sont déjà indiquées par défaut dans l'extracteur de métadonnées. Si vous ajoutez un nouveau schéma, il est possible de vous fier à celles indiquées pour le document. 
Regexes (expressions régulières)

Facultatif
Permets de définir une ou plusieurs expressions régulières, chacune visant une métadonnée précise. Pour chaque expression régulière, lorsque la métadonnée visée correspond, il est possible de configurer l'extracteur pour qu'il utilise la valeur trouvée, ou une autre valeur qu'on précise. 
MétadonnéeLa métadonnée dans laquelle l'analyse est faite. Pour analyser le texte dans un fichier PDF, Docx, etc.; sélectionner la métadonnée Fichier.
RegexPermets d'inscrire l'expression régulière.
TypePermet de déterminer si nous voulons détecter l'information ou si nous voulons l'extraire.
  • Substitution: Si le renseignement est détecté, écrire dans la métadonnée une valeur prédéfinie, par exemple "Contient un numéro d'assurance social"
  • Transformation: Si le renseignement est détecté, extraire la valeur dans la métadonnée
Valeur
  • Substitution: Saisir une valeur prédéfinie comme "Contient un numéro d'assurance social"
  • Transformation: La valeur écrite est la position de la valeur détectée. Par exemple, si le texte détecte 3 fois une carte de crédit, écrire
    • $0 pour la première correspondance
    • $1 pour la deuxième correspondance
    • $2 pour la troisième correspondance. 
Activé seulement à la créationFacultatifPermet d'indiquer si l'extraction se fait seulement à la création du document, ou à chaque fois qu'il est modifié.

2.1 Analyseur de propriétés

L'analyseur de propriétés permet de sélectionner le document de votre choix pour analyser ses propriétés et y choisir la métadonnée que vous voulez extraire automatiquement.

  1. Cliquer sur «Pilotage» dans le menu de navigation;
  2. Cliquer sur «Extracteur de métadonnée»;
  3. Dans la fenêtre «Extracteur de métadonnée», cliquer sur «Ajouter»;
     
  4. Cliquer sur l'option «Analyseur de propriétés»;
  5. Sélectionner par le bouton un document ou glisser celui-ci dans la page;
  6. Les métadonnées de propriétés et de styles sont affichées, cliquer sur la métadonnée de votre choix;
  7. Une confirmation que la propriété a été ajoutée à la liste apparait;
  8. Fermer la fenêtre pour revenir à la page d'extraction de métadonnées. La métadonnée «Page Count» a été ajoutée à la métadonnée «Page-Count».
  9. Vous devez maintenant remplir les autres champs pour déterminer dans quelle métadonnée déjà existante «Page Count» doit s'extraire.
  10.  La métadonnée est maintenant définie comme une métadonnée extraite. 
  11. La métadonnée est maintenant extraite automatiquement dès l'ajout dans Constellio.
Métadonnées
Vous devez avoir préalablement créé votre métadonnée à laquelle relier l'extraction. Pour en savoir plus sur la création de métadonnées, consultez la page «Ajouter une métadonnée».

3. Modifier un extracteur de métadonnées

  1. Cliquer sur « Pilotage » dans le menu de navigation;
  2. Cliquer sur « Extracteur de métadonnée »;
     
  3. Dans la fenêtre « Extracteur de métadonnée », cliquer sur le calepin à droite de l'élément à modifier;
  4. Apporter les modifications et cliquer sur « Enregistrer ».

4. Supprimer un extracteur de métadonnées

  1. Cliquer sur « Pilotage » dans le menu de navigation;
  2. Cliquer sur « Extracteur de métadonnée »;
     
  3. Dans la fenêtre « Extracteur de métadonnée », cliquer sur le X rouge à droite de l'élément à supprimer;
  4. Une fenêtre de confirmation apparaît, cliquer sur « Enregistrer ».

5. Configurations

Vous retrouverez dans cette section toutes les configurations du système impactant les extracteurs de métadonnées. Pour en savoir plus sur les configurations, consulter l'article «Configurations du système».

Onglet Avancée
ConfigurationDescriptionValeurs possiblesImpacts
Retirer l'extension dans le titre d'un document
Cette configuration permet de retirer l'extension (ex. : .txt, .doc) dans le champ « Titre » d'un document lorsque ce dernier est alimenté à l'aide des extracteurs de métadonnées (extraction par propriétés).
Activé
Le titre de la fiche de métadonnées ne comportera pas l'extension du fichier.
Désactivé
Le titre de la fiche de métadonnées comportera l'extension du fichier.
Priorité lors du peuplement des métadonnéesCette configuration permet de déterminer l'ordre de priorisation pour le peuplement des métadonnées lors de l'extraction automatique du titre dans l'importation des documents.
Styles : Pour un document Word sera importé et prit en compte en priorité le style que l'on a créé dans le document Word. Exemple : Pour le choix Styles -> Expressions réguliers -> Propriétés, Constellio fera l'extraction dans l'ordre suivant si les données sont disponibles :
  • Styles 
  • Expressions régulières
  • Propriétés

S'il n'y a aucune donnée dans les styles et expressions régulières, Constellio exportera automatiquement les données des propriétés.

Nom du fichier : Le nom du fichier sera utilisé.
Propriétés : Le titre défini dans les propriétés sera utilisé.
Priorité lors du peuplement du titreCette configuration permet de spécifier l'ordre dans lequel les métadonnées du titre seront extraites lors de l'importation des documents. Pour cela, il faut paramétrer le module d'Extracteurs de métadonnées.
Styles : Pour un document Word sera importé et prit en compte en priorité le style que l'on a créé dans le document Word.Exemple : Pour le choix Styles -> Expressions réguliers -> Propriétés, Constellio fera l'extraction dans l'ordre suivant si les données sont disponibles :
  • Styles
  • Nom du fichier
  • Propriétés

S'il n'y a aucune donnée dans les styles et expressions régulières, Constellio exportera automatiquement les données des propriétés. 

Nom du fichier : Le nom du fichier sera utilisé.
Propriétés : Le titre défini dans les propriétés sera utilisé. 



Cet article vous a-t-il été utile ?

Changing your password will log you out immediately. Use the new password to log back in.
First name must have atleast 2 characters. Numbers and special characters are not allowed.
Last name must have atleast 1 characters. Numbers and special characters are not allowed.
Enter a valid email
Enter a valid password
Your profile has been successfully updated.