JDONREFv4 plugin GettingStarted : Différence entre versions

De JDONREF Wiki
(Utiliser les synonymes)
(Un alias)
 
(71 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
L'utilisation du plugin JDONREFv3ES nécessite :
 
  +
Cette page est destinée aux utilisateurs confirmés d'ElasticSearch qui souhaitent utiliser JDONREF.
  +
Si des éléments vous échappent dans cette page, je vous invite à revoir la page des [[JDONREFv4_Plugin_BeginnersMode|débutants]].
  +
  +
L'utilisation du plugin JDONREFv4 nécessite :
 
* de disposer d'un cluster [http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/setup.html elasticsearch] !
 
* de disposer d'un cluster [http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/setup.html elasticsearch] !
* d'installer le [[JDONREFv3ES_Plugin|plugin]] JDONREFv3ES
+
* d'installer le [[JDONREFv4_Plugin|plugin]] JDONREFv4 (voir [[JDONREFv4_Plugin#Installation_du_plugin| ici]])
* d'indexer le contenu
+
* de créer le ou les index nécessaires
Vous êtes ensuite libre d'effectuer les recherches souhaitées !
+
* de créer les mappings
L'API elasticsearch peut bien sûr être utilisée, mais le plugin jdonrefv3es fourni un moyen de chercher efficacement des adresses (c'est à dire avec les résultats auquel on devrait s'attendre).
+
* puis d'indexer le contenu
 
===== Création de l'index =====
 
 
Déployez le fichier de synonyme jdonrefv3es_synonym.fr_FR.txt dans le répertoire /etc/elasticsearch ou de manière à ce qu'il soit accessible par le path.
 
 
Puis commencez par vous créer un index en respectant la configuration fournie par le fichier jdonrefv3es-settings.json de la sorte :
 
 
curl -XPUT 'http://localhost:9200/jdonref/' -d '{
 
"index" : {
 
"analysis" : {
 
"analyzer": {
 
"jdonrefv3es_index" : {
 
"type" : "custom",
 
"tokenizer" : "standard",
 
"filter" : ["standard", "lowercase", "jdonrefv3es_synonyme", "jdonrefv3es_nGram"]
 
},
 
"jdonrefv3es_search" : {
 
"type" : "custom",
 
"tokenizer" : "standard",
 
"filter" : ["standard", "lowercase"]
 
}
 
},
 
"filter" : {
 
"jdonrefv3es_metaphone" : {
 
"type" : "phonetic",
 
"encoder" : "metaphone",
 
"replace" : true
 
},
 
"jdonrefv3es_synonyme" : {
 
"type" : "synonym",
 
"synonyms_path": "jdonrefv3es_synonym.fr_FR.txt"
 
},
 
"jdonrefv3es_nGram" : {
 
"type" : "edgeNGram",
 
"min_ngram": 1,
 
"max_gram": 15
 
}
 
}
 
}
 
}
 
}'
 
 
Pour que le plugin jdonrefv3es soit efficace, il s'agit de respecter les [[JDONREFv3ES_Mappings|mappings]] fournis par jdonref. Il est ainsi possible d'indexer du contenu, comme une commune :
 
 
curl -XPUT 'http://localhost:9200/jdonref/commune/1' -d '{
 
"codeinsee" : "75056",
 
"codedepartement" : "75",
 
"codepays" : "1",
 
"commune" : "PARIS",
 
"codepostal" : "75000",
 
"t0" : "22/03/2014",
 
"geometrie" : {
 
"type": "multipolygon",
 
"coordinates" : [
 
[[102.0, 2.0], [103.0, 2.0], [103.0, 3.0], [102.0, 3.0], [102.0, 2.0]],
 
[[100.0, 0.0], [101.0, 0.0], [101.0, 1.0], [100.0, 1.0], [100.0, 0.0]],
 
[[100.2, 0.2], [100.8, 0.2], [100.8, 0.8], [100.2, 0.8], [100.2, 0.2]]
 
]
 
}
 
}'
 
   
ou une voie :
 
  +
Vous êtes ensuite libre d'effectuer les recherches souhaitées ! L'API elasticsearch peut bien sûr être utilisée, mais le plugin jdonrefv4 fourni un moyen de chercher efficacement des adresses (c'est à dire avec les résultats auxquels on devrait s'attendre).
  +
Cette page suppose que le cluster elasticsearch et que le plugin jdonref (et éventuelles dépendances) sont installés.
   
curl -XPUT 'http://localhost:9200/jdonref/voie/1' -d '{
 
  +
==== Création de l'index ====
"numero_min": "1",
 
"numero_max": "192",
 
"typedevoie": "BOULEVARD",
 
"article": "DE",
 
"voie": "HOPITAL",
 
"codeinsee" : "75056",
 
"codedepartement" : "75",
 
"codepays" : "1",
 
"commune" : "PARIS",
 
"codepostal" : "75000",
 
"t0" : "22/03/2014",
 
"geometrie" : {
 
"type": "multipolygon",
 
"coordinates" : [
 
[[102.0, 2.0], [103.0, 2.0], [103.0, 3.0], [102.0, 3.0], [102.0, 2.0]],
 
[[100.0, 0.0], [101.0, 0.0], [101.0, 1.0], [100.0, 1.0], [100.0, 0.0]],
 
[[100.2, 0.2], [100.8, 0.2], [100.8, 0.8], [100.2, 0.8], [100.2, 0.2]]
 
]
 
}
 
}'
 
   
Notez bien que pour que l'indexation de la géométrie se déroule correctement, les mappings auront du être définis au préalable.
 
  +
L'index proposé est du type:
   
===== Utiliser les synonymes =====
 
  +
curl -XPUT 'http://localhost:9200/jdonref/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.5/jdonrefv4-settings.json
   
Le fichier de synonymes a normalement été utilisé à la création de votre index à partir du fichier jdonrev3es_synonym.fr.txt.
 
   
La recherche pourra ainsi par exemple être effectuée avec le type de voie "BD" plutôt que "BOULEVARD".
 
  +
Néanmoins, il est proposé de créer un index par type. Ce découpage est nécessaire car la requête JDONREFv4 se spécialise suivant l'index.
Attention toutefois, si vous modifiez ce fichier, il faut penser aussi à ré-indexer vos données.
 
  +
Plus précisément, il faut que l'index contienne l'un des mots-clés suivant :
  +
# poizon
  +
# adresse
  +
# voie
  +
# commune
  +
# departement
  +
# pays
  +
Si vos données sont présentes dans un index dont le nom ne contient pas l'un de ces mots, la requête ne s'applique pas.
  +
Il est aussi préférable de ne pas mélanger les types au sein de ces index (avec un nom d'index qui contiendrait le nom des deux types !). Pour des raisons de performance le type n'est pas vérifié dans la requête.
   
Une autre stratégie consisterait à inverser le fonctionnement du fichier de synonyme pour l'utiliser durant la requête et non pas l'indexation.
 
  +
D'une manière générale, l'effet de bord de la fréquence d'un type sur un autre n'est pas positif. Par exemple, les communes sont 36 000, mais au sein des adresses, elles sont représentées 18 000 000 de fois.
Le fichier de synonyme contiendrait alors des lignes commme :
 
residence, res => residence
 
   
et la création de l'analyzer serait par exemple:
 
  +
Vous pouvez noter plusieurs choses au sujet de cette configuration d'index :
"analyzer": {
 
  +
* Par défaut, les nGram est les synonymes ne sont pas utilisés.
"jdonrefv3es_index" : {
 
  +
* A noter que le metaphone n'est plus utilisé pour le moment, car combiné au ngram, il introduit un trop grand nombre de faux positifs. Vous pouvez toutefois le mettre en place à votre guise.
"type" : "custom",
 
  +
* Le "french_keywords" peut être rétabli si vous notez quelques mots auxquels l'application du stemmer ne fournis pas de bons résultats.
"tokenizer" : "standard",
 
"filter" : ["standard", "lowercase", "jdonrefv3es_nGram"]
 
},
 
"jdonrefv3es_search" : {
 
"type" : "custom",
 
"tokenizer" : "standard",
 
"filter" : ["standard", "lowercase", "jdonrefv3es_synonyme"]
 
}
 
},
 
   
===== Utiliser l'analyser =====
+
==== Un alias ====
   
Si vous ne voulez pas remplir vous-même les champs "ligne4" et "ligne6", il vous est possible d'utiliser l'[[JDONREFv3ES_Analyzer|analyzer]] fourni par jdonref :
 
  +
Ces remarques signifient surtout que ce plugin n'est qu'un outil. Vous pouvez l'utiliser à votre guise, modifier le fichier de configuration fourni, et adapter les analyzers à votre propre cas de figure.
   
curl -XPUT 'http://localhost:9200/jdonref/' -d '{
 
  +
A titre d'exemple, vous souhaiterez sans doute effectuer des mises à jour de JDONREF. Si vous effectuez une mise à jour en masse de l'ensemble de vos adresses, vous aurez une interruption de service.
"analysis" : {
 
  +
Plutôt que d'utiliser un index, elasticsearch vous propose d'utiliser un [http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/indices-aliases.html alias] :
"analyzer" : {
 
"jdonrefv3es": {
 
"tokenizer": "whitespace"
 
}
 
}
 
}
 
}'
 
   
Si les lignes 4 et 6 ne sont pas spécifiées durant l'indexation, elles sont alors calculées à partir des autres champs disponibles.
 
  +
curl -XPUT 'http://localhost:9200/jdonref_20141201/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.3/jdonrefv4-settings_beginner.json
  +
... indexation ...
  +
curl -XPOST 'http://localhost:9200/_aliases/' -d '{ "actions" : [ {"add" : {"index" : "jdonref_20141201", "alias" : "jdonref"}}]}'
   
===== Indexation =====
 
  +
Ce qui vous permettra d'utiliser l'alias "jdonref" tout comme un index, et de réindexer sous un autre nom pour effectuer une mise à jour :
   
A noter enfin qu'il est conseillé d'utiliser l'API [[http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/docs-bulk.html BULK]] d'ElasticSearch pour procéder à l'indexation d'un très grand nombre d'adresses.
 
  +
curl -XPUT 'http://localhost:9200/jdonref_20141202/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.3/jdonrefv4-settings_beginner.json
  +
... réindexation ...
  +
curl -XPOST 'http://localhost:9200/_aliases/' -d '{ "actions" : [ {"add" : {"index":"jdonref_20141202", "alias":"jdonref"}}, {"remove" : {"index":"jdonref_20141201", "alias":"jdonref"}}]}'
   
Attention, pour que la [[JDONREFv3ES_Query|requête]] du [[JDONREFv3ES_Plugin|plugin]] fonctionne correctement, certains champs doivent être correctement renseignés. L'[[JDONREFv3ES_Analyzer|analyzer]] fourni permet de remplir ce travail automatiquement.
 
   
===== Recherches =====
 
  +
Si vous avez bien compris, il va vous falloir doubler votre DD, soit environ 20 Go pour la France entière.
   
Une fois le contenu indexé, il vous est possible d'effectuer des [[JDONREFv3ES_Query|recherches]] à loisir !
 
  +
Bon. Cela dit j'avais présupposé dans l'introduction que vous étiez familiers de elasticsearch ... Vous ne m'y reprendrez plus. Passons aux choses sérieuses !

Version actuelle en date du 27 février 2016 à 00:10

Cette page est destinée aux utilisateurs confirmés d'ElasticSearch qui souhaitent utiliser JDONREF. Si des éléments vous échappent dans cette page, je vous invite à revoir la page des débutants.

L'utilisation du plugin JDONREFv4 nécessite :

  • de disposer d'un cluster elasticsearch !
  • d'installer le plugin JDONREFv4 (voir ici)
  • de créer le ou les index nécessaires
  • de créer les mappings
  • puis d'indexer le contenu

Vous êtes ensuite libre d'effectuer les recherches souhaitées ! L'API elasticsearch peut bien sûr être utilisée, mais le plugin jdonrefv4 fourni un moyen de chercher efficacement des adresses (c'est à dire avec les résultats auxquels on devrait s'attendre). Cette page suppose que le cluster elasticsearch et que le plugin jdonref (et éventuelles dépendances) sont installés.

Création de l'index

L'index proposé est du type:

 curl -XPUT 'http://localhost:9200/jdonref/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.5/jdonrefv4-settings.json


Néanmoins, il est proposé de créer un index par type. Ce découpage est nécessaire car la requête JDONREFv4 se spécialise suivant l'index. Plus précisément, il faut que l'index contienne l'un des mots-clés suivant :

  1. poizon
  2. adresse
  3. voie
  4.  commune
  5. departement
  6. pays

Si vos données sont présentes dans un index dont le nom ne contient pas l'un de ces mots, la requête ne s'applique pas. Il est aussi préférable de ne pas mélanger les types au sein de ces index (avec un nom d'index qui contiendrait le nom des deux types !). Pour des raisons de performance le type n'est pas vérifié dans la requête.

D'une manière générale, l'effet de bord de la fréquence d'un type sur un autre n'est pas positif. Par exemple, les communes sont 36 000, mais au sein des adresses, elles sont représentées 18 000 000 de fois.

Vous pouvez noter plusieurs choses au sujet de cette configuration d'index :

  • Par défaut, les nGram est les synonymes ne sont pas utilisés.
  • A noter que le metaphone n'est plus utilisé pour le moment, car combiné au ngram, il introduit un trop grand nombre de faux positifs. Vous pouvez toutefois le mettre en place à votre guise.
  • Le "french_keywords" peut être rétabli si vous notez quelques mots auxquels l'application du stemmer ne fournis pas de bons résultats.

Un alias

Ces remarques signifient surtout que ce plugin n'est qu'un outil. Vous pouvez l'utiliser à votre guise, modifier le fichier de configuration fourni, et adapter les analyzers à votre propre cas de figure.

A titre d'exemple, vous souhaiterez sans doute effectuer des mises à jour de JDONREF. Si vous effectuez une mise à jour en masse de l'ensemble de vos adresses, vous aurez une interruption de service. Plutôt que d'utiliser un index, elasticsearch vous propose d'utiliser un alias :

 curl -XPUT 'http://localhost:9200/jdonref_20141201/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.3/jdonrefv4-settings_beginner.json
 ... indexation ...
 curl -XPOST 'http://localhost:9200/_aliases/' -d '{ "actions" : [ {"add" : {"index" : "jdonref_20141201", "alias" : "jdonref"}}]}'

Ce qui vous permettra d'utiliser l'alias "jdonref" tout comme un index, et de réindexer sous un autre nom pour effectuer une mise à jour :

 curl -XPUT 'http://localhost:9200/jdonref_20141202/' -d @/usr/share/elasticsearch/plugins/jdonrefv4-0.3/jdonrefv4-settings_beginner.json
 ... réindexation ...
 curl -XPOST 'http://localhost:9200/_aliases/' -d '{ "actions" : [ {"add" : {"index":"jdonref_20141202", "alias":"jdonref"}}, {"remove" : {"index":"jdonref_20141201", "alias":"jdonref"}}]}'


Si vous avez bien compris, il va vous falloir doubler votre DD, soit environ 20 Go pour la France entière.

Bon. Cela dit j'avais présupposé dans l'introduction que vous étiez familiers de elasticsearch ... Vous ne m'y reprendrez plus. Passons aux choses sérieuses !