| 1 |
From vdv@dyomedea.com Tue Jun 22 13:41:15 2004 |
|---|
| 2 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 13:41:15 +0200 (CEST) |
|---|
| 3 |
Return-Path: <vdv@dyomedea.com> |
|---|
| 4 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 5 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 6 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 9E17228C987 |
|---|
| 7 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 13:41:14 +0200 (CEST) |
|---|
| 8 |
Received: from gwparis.dyomedea.com ([127.0.0.1]) |
|---|
| 9 |
by localhost (gwparis.dyomedea.com [127.0.0.1]) (amavisd-new, |
|---|
| 10 |
port 10024) with ESMTP id 13537-09 for <dev@gwparis.dyomedea.com>; |
|---|
| 11 |
Tue, 22 Jun 2004 13:41:14 +0200 (CEST) |
|---|
| 12 |
Received: from [10.0.0.2] (unknown [10.0.0.2]) |
|---|
| 13 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 3B9A628C94F |
|---|
| 14 |
for <dev@xmlfr.org>; Tue, 22 Jun 2004 13:41:14 +0200 (CEST) |
|---|
| 15 |
Subject: [dev@xmlfr.org] Moteur de recherche |
|---|
| 16 |
From: Eric van der Vlist <vdv@dyomedea.com> |
|---|
| 17 |
To: dev@xmlfr.org |
|---|
| 18 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 19 |
Organization: Dyomedea (http://dyomedea.com) |
|---|
| 20 |
Message-Id: <1087904474.8945.219.camel@delleric> |
|---|
| 21 |
Mime-Version: 1.0 |
|---|
| 22 |
X-Mailer: Ximian Evolution 1.4.6 |
|---|
| 23 |
Date: Tue, 22 Jun 2004 13:41:14 +0200 |
|---|
| 24 |
Content-Transfer-Encoding: 8bit |
|---|
| 25 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 26 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 27 |
X-archive-position: 11987 |
|---|
| 28 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 29 |
Sender: dev-bounce@xmlfr.org |
|---|
| 30 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 31 |
X-original-sender: vdv@dyomedea.com |
|---|
| 32 |
Precedence: list |
|---|
| 33 |
Reply-to: dev@xmlfr.org |
|---|
| 34 |
X-list: dev |
|---|
| 35 |
|
|---|
| 36 |
|
|---|
| 37 |
Bonjour, |
|---|
| 38 |
|
|---|
| 39 |
Tout d'abord, toutes mes excuses pour le peu de temps que j'ai consacré |
|---|
| 40 |
à cette liste ces derniers mois. |
|---|
| 41 |
|
|---|
| 42 |
Mon emploi du temps reste chargé et j'ai peur de ne pas être très |
|---|
| 43 |
disponible pendant les semaines à venir. |
|---|
| 44 |
|
|---|
| 45 |
Parmi les sujets de discussion ou de récrimination sur la liste des |
|---|
| 46 |
rédacteurs, le plus virulent est sans doute les critiques portant sur |
|---|
| 47 |
l'intégration du moteur de recherche au site XMLfr. |
|---|
| 48 |
|
|---|
| 49 |
Dans la mesure où c'est un sujet moins structurant que le moteur de |
|---|
| 50 |
publication, j'ai pensé que nous pourrions choisir ce sujet pour |
|---|
| 51 |
redémarrer doucement les travaux sur cette liste... |
|---|
| 52 |
|
|---|
| 53 |
Que reproche t-on au moteur actuel? |
|---|
| 54 |
|
|---|
| 55 |
1. Le fait de ne pas pouvoir faire de recherche partielles sur une |
|---|
| 56 |
portion du site. |
|---|
| 57 |
2. Le fait d'indexer des pages intermédiaires (telles que |
|---|
| 58 |
http://xmlfr.org ou http://xmlfr.org/actualites, ...). |
|---|
| 59 |
3. Les titres qui ne sont pas parlant dans le cas des brèves. |
|---|
| 60 |
4. Le fait de ne pas indexer indépendamment des fragments de pages |
|---|
| 61 |
(cas des brèves qui sont regroupées par journée). |
|---|
| 62 |
5. Autre? <rajoutez.votre.critique.ici/>... |
|---|
| 63 |
|
|---|
| 64 |
La plupart de ces griefs peuvent être corrigés avec le moteur actuel |
|---|
| 65 |
(htdig). |
|---|
| 66 |
|
|---|
| 67 |
Ainsi par exemple, les recherches partielles sont implémentées dans |
|---|
| 68 |
htdig : |
|---|
| 69 |
|
|---|
| 70 |
* |
|---|
| 71 |
http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&restrict=/actualites/breves = recherche de "XSLT" uniquement dans les brèves |
|---|
| 72 |
* |
|---|
| 73 |
http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&restrict=/actualites = recherche de XSLT dans toutes les actualités (info et brèves) |
|---|
| 74 |
* |
|---|
| 75 |
http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&exclude=/listes recherche de XSLT partout sauf dans les archives de liste |
|---|
| 76 |
* |
|---|
| 77 |
http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&restrict=/actualites&exclude=/actualites/breves recherche de XSLT dans les actualités mais pas dans les brèves |
|---|
| 78 |
* ... |
|---|
| 79 |
|
|---|
| 80 |
Il suffirait donc de modifier la forme de saisie |
|---|
| 81 |
http://xmlfr.org/chercher/ pour les exposer. |
|---|
| 82 |
|
|---|
| 83 |
Le problème de la gestion de fragments de documents semble un peu plus |
|---|
| 84 |
compliquée à résoudre avec htdig mais j'ai quelques astuces dans mes |
|---|
| 85 |
cartons qui devraient permettre de faire cela. |
|---|
| 86 |
|
|---|
| 87 |
Ceci dit, c'est sans doute le moment de remettre en cause le choix du |
|---|
| 88 |
moteur de recherche et de vois si nous ne pourrions pas trouver quelque |
|---|
| 89 |
chose de plus facilement intégrable dans l'architecture Java/XSLT |
|---|
| 90 |
actuelle (sans Cocoon) ou future (avec Cocoon). |
|---|
| 91 |
|
|---|
| 92 |
Parmi les candidats figurent tout naturellement Lucene déjà mentionné |
|---|
| 93 |
sur cette liste. |
|---|
| 94 |
|
|---|
| 95 |
Sa particularité est "d'être déconnecté du web" dans la mesure où ce |
|---|
| 96 |
n'est qu'une API et qu'elle n'intègre pas de crawler. |
|---|
| 97 |
|
|---|
| 98 |
Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les |
|---|
| 99 |
documents source (NITF pour les articles, RSS pour les brèves et |
|---|
| 100 |
l'agenda, HTML pour les archives de mail et les traduction, ...) et |
|---|
| 101 |
intégrer complètement les fonctions de recherche dans l'architecture |
|---|
| 102 |
Java/XSLT du site. |
|---|
| 103 |
|
|---|
| 104 |
Avez-vous d'autres moteurs de recherche à proposer et/ou des |
|---|
| 105 |
commentaires permettant d'éclairer ce choix? |
|---|
| 106 |
|
|---|
| 107 |
Merci, |
|---|
| 108 |
|
|---|
| 109 |
Eric |
|---|
| 110 |
-- |
|---|
| 111 |
Have you ever thought about unit testing XSLT templates? |
|---|
| 112 |
http://xsltunit.org |
|---|
| 113 |
Upcoming XML schema languages tutorial: |
|---|
| 114 |
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728 |
|---|
| 115 |
------------------------------------------------------------------------ |
|---|
| 116 |
Eric van der Vlist http://xmlfr.org http://dyomedea.com |
|---|
| 117 |
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax |
|---|
| 118 |
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema |
|---|
| 119 |
------------------------------------------------------------------------ |
|---|
| 120 |
|
|---|
| 121 |
-- |
|---|
| 122 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 123 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 124 |
|
|---|
| 125 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 126 |
|
|---|
| 127 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 128 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 129 |
|
|---|
| 130 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 131 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 132 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 133 |
|
|---|
| 134 |
From nobody Tue Jun 22 18:31:59 2004 |
|---|
| 135 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 18:31:59 +0200 (CEST) |
|---|
| 136 |
MIME-Version: 1.0 |
|---|
| 137 |
Return-Path: <frederic.glorieux@ajlsm.com> |
|---|
| 138 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 139 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 140 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7 |
|---|
| 141 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST) |
|---|
| 142 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 143 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7 |
|---|
| 144 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST) |
|---|
| 145 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 146 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7 |
|---|
| 147 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST) |
|---|
| 148 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 149 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7 |
|---|
| 150 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST) |
|---|
| 151 |
Message-ID: <40D85EFA.2040908@ajlsm.com> |
|---|
| 152 |
Date: Tue, 22 Jun 2004 18:31:54 +0200 |
|---|
| 153 |
From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com> |
|---|
| 154 |
User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207) |
|---|
| 155 |
X-Accept-Language: en-us, en |
|---|
| 156 |
MIME-Version: 1.0 |
|---|
| 157 |
To: dev@xmlfr.org |
|---|
| 158 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 159 |
References: <1087904474.8945.219.camel@delleric> |
|---|
| 160 |
In-Reply-To: <1087904474.8945.219.camel@delleric> |
|---|
| 161 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 162 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 163 |
Content-Transfer-Encoding: 8bit |
|---|
| 164 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 165 |
X-archive-position: 11988 |
|---|
| 166 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 167 |
Sender: dev-bounce@xmlfr.org |
|---|
| 168 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 169 |
X-original-sender: frederic.glorieux@ajlsm.com |
|---|
| 170 |
Precedence: list |
|---|
| 171 |
Reply-to: dev@xmlfr.org |
|---|
| 172 |
X-list: dev |
|---|
| 173 |
|
|---|
| 174 |
|
|---|
| 175 |
De retour aussi, un peu plus au calme. |
|---|
| 176 |
|
|---|
| 177 |
> Parmi les candidats figurent tout naturellement Lucene déjà mentionné |
|---|
| 178 |
> sur cette liste. |
|---|
| 179 |
> |
|---|
| 180 |
> Sa particularité est "d'être déconnecté du web" dans la mesure où ce |
|---|
| 181 |
> n'est qu'une API et qu'elle n'intègre pas de crawler. |
|---|
| 182 |
> |
|---|
| 183 |
> Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les |
|---|
| 184 |
> documents source (NITF pour les articles, RSS pour les brèves et |
|---|
| 185 |
> l'agenda, HTML pour les archives de mail et les traduction, ...) et |
|---|
| 186 |
> intégrer complètement les fonctions de recherche dans l'architecture |
|---|
| 187 |
> Java/XSLT du site. |
|---|
| 188 |
> |
|---|
| 189 |
> Avez-vous d'autres moteurs de recherche à proposer et/ou des |
|---|
| 190 |
> commentaires permettant d'éclairer ce choix? |
|---|
| 191 |
|
|---|
| 192 |
Nous avons une grosse expérience de Lucene intégré à Cocoon |
|---|
| 193 |
<http://adnx.org/sdx/>, pour en arriver aux quelques conclusions suivantes |
|---|
| 194 |
- Lucene tient le million et demi de (petits) documents (nous visons |
|---|
| 195 |
les 5 millions dans quelques mois) |
|---|
| 196 |
- il permet une intégration très fine des "analyseurs", pour par |
|---|
| 197 |
exemple avoir des indexations différenciées selon les langues (exemple : |
|---|
| 198 |
analyse grammaticale de l'arabe) |
|---|
| 199 |
|
|---|
| 200 |
On a eu à se plaindre d'un modèle de stockage en système de fichiers |
|---|
| 201 |
(jusqu'à 16 000 fichiers ouverts en même temps dans certaines |
|---|
| 202 |
applications) mais cet inconvénient semble en voie de résorbtion dans |
|---|
| 203 |
Lucene. |
|---|
| 204 |
|
|---|
| 205 |
Il demeure quelques inconvénients incompressibles |
|---|
| 206 |
|
|---|
| 207 |
- il s'agit fondamentalement d'un modèle de donnée à "champs" |
|---|
| 208 |
(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les |
|---|
| 209 |
documents avant indexation) |
|---|
| 210 |
- l'indexation se fait a priori, autrement dit il faut préparer une |
|---|
| 211 |
vue d'indexation qui définit les champs qui seront cherchables (ex: |
|---|
| 212 |
titre, auteur, sujet). S'il on découvre un autre noeud intéressant à |
|---|
| 213 |
chercher en cours d'exercice, il faut réindexer selon ce nouveau modèle. |
|---|
| 214 |
|
|---|
| 215 |
Pour des collections ne dépassant les dizaines de milliers de documents |
|---|
| 216 |
sans trop d'exigences multilingues, on peut s'intéresser à un DB:XML |
|---|
| 217 |
comme exist (requêtes XPath), mais nous n'avons pas encore d'exemple |
|---|
| 218 |
d'application en exploitation pour en connaître aussi bien les limites |
|---|
| 219 |
que Lucene. |
|---|
| 220 |
|
|---|
| 221 |
|
|---|
| 222 |
-- |
|---|
| 223 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 224 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 225 |
|
|---|
| 226 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 227 |
|
|---|
| 228 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 229 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 230 |
|
|---|
| 231 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 232 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 233 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 234 |
|
|---|
| 235 |
From nobody Tue Jun 22 18:56:52 2004 |
|---|
| 236 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 18:56:52 +0200 (CEST) |
|---|
| 237 |
MIME-Version: 1.0 |
|---|
| 238 |
Return-Path: <vdv@dyomedea.com> |
|---|
| 239 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 240 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 241 |
by gwparis.dyomedea.com (Postfix) with ESMTP id DE1A628F460 |
|---|
| 242 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:56:51 +0200 (CEST) |
|---|
| 243 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 244 |
by gwparis.dyomedea.com (Postfix) with ESMTP id DE1A628F460 |
|---|
| 245 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:56:51 +0200 (CEST) |
|---|
| 246 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 247 |
by gwparis.dyomedea.com (Postfix) with ESMTP id DE1A628F460 |
|---|
| 248 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:56:51 +0200 (CEST) |
|---|
| 249 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 250 |
From: Eric van der Vlist <vdv@dyomedea.com> |
|---|
| 251 |
To: dev@xmlfr.org |
|---|
| 252 |
In-Reply-To: <40D85EFA.2040908@ajlsm.com> |
|---|
| 253 |
References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com> |
|---|
| 254 |
Organization: Dyomedea (http://dyomedea.com) |
|---|
| 255 |
Message-Id: <1087923411.8945.302.camel@delleric> |
|---|
| 256 |
Mime-Version: 1.0 |
|---|
| 257 |
X-Mailer: Ximian Evolution 1.4.6 |
|---|
| 258 |
Date: Tue, 22 Jun 2004 18:56:51 +0200 |
|---|
| 259 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 260 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 261 |
Content-Transfer-Encoding: 8bit |
|---|
| 262 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 263 |
X-archive-position: 11989 |
|---|
| 264 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 265 |
Sender: dev-bounce@xmlfr.org |
|---|
| 266 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 267 |
X-original-sender: vdv@dyomedea.com |
|---|
| 268 |
Precedence: list |
|---|
| 269 |
Reply-to: dev@xmlfr.org |
|---|
| 270 |
X-list: dev |
|---|
| 271 |
|
|---|
| 272 |
|
|---|
| 273 |
On Tue, 2004-06-22 at 18:31, Frédéric Glorieux wrote: |
|---|
| 274 |
> De retour aussi, un peu plus au calme. |
|---|
| 275 |
> |
|---|
| 276 |
> > Parmi les candidats figurent tout naturellement Lucene déjà mentionné |
|---|
| 277 |
> > sur cette liste. |
|---|
| 278 |
> > |
|---|
| 279 |
> > Sa particularité est "d'être déconnecté du web" dans la mesure où ce |
|---|
| 280 |
> > n'est qu'une API et qu'elle n'intègre pas de crawler. |
|---|
| 281 |
> > |
|---|
| 282 |
> > Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les |
|---|
| 283 |
> > documents source (NITF pour les articles, RSS pour les brèves et |
|---|
| 284 |
> > l'agenda, HTML pour les archives de mail et les traduction, ...) et |
|---|
| 285 |
> > intégrer complètement les fonctions de recherche dans l'architecture |
|---|
| 286 |
> > Java/XSLT du site. |
|---|
| 287 |
> > |
|---|
| 288 |
> > Avez-vous d'autres moteurs de recherche à proposer et/ou des |
|---|
| 289 |
> > commentaires permettant d'éclairer ce choix? |
|---|
| 290 |
> |
|---|
| 291 |
> Nous avons une grosse expérience de Lucene intégré à Cocoon |
|---|
| 292 |
> <http://adnx.org/sdx/>, |
|---|
| 293 |
|
|---|
| 294 |
Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà |
|---|
| 295 |
été mentionné sur cette liste :-) ... |
|---|
| 296 |
|
|---|
| 297 |
> pour en arriver aux quelques conclusions suivantes |
|---|
| 298 |
> - Lucene tient le million et demi de (petits) documents (nous visons |
|---|
| 299 |
> les 5 millions dans quelques mois) |
|---|
| 300 |
> - il permet une intégration très fine des "analyseurs", pour par |
|---|
| 301 |
> exemple avoir des indexations différenciées selon les langues (exemple : |
|---|
| 302 |
> analyse grammaticale de l'arabe) |
|---|
| 303 |
> |
|---|
| 304 |
> On a eu à se plaindre d'un modèle de stockage en système de fichiers |
|---|
| 305 |
> (jusqu'à 16 000 fichiers ouverts en même temps dans certaines |
|---|
| 306 |
> applications) mais cet inconvénient semble en voie de résorbtion dans |
|---|
| 307 |
> Lucene. |
|---|
| 308 |
|
|---|
| 309 |
Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait |
|---|
| 310 |
pas poser de gros problème. |
|---|
| 311 |
> |
|---|
| 312 |
> Il demeure quelques inconvénients incompressibles |
|---|
| 313 |
> |
|---|
| 314 |
> - il s'agit fondamentalement d'un modèle de donnée à "champs" |
|---|
| 315 |
> (répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les |
|---|
| 316 |
> documents avant indexation) |
|---|
| 317 |
|
|---|
| 318 |
Où peut-être à créer plusieurs champs texte par document? Cela semble |
|---|
| 319 |
possible mais je n'ai pas encore regardé dans le détail. |
|---|
| 320 |
|
|---|
| 321 |
> - l'indexation se fait a priori, autrement dit il faut préparer une |
|---|
| 322 |
> vue d'indexation qui définit les champs qui seront cherchables (ex: |
|---|
| 323 |
> titre, auteur, sujet). S'il on découvre un autre noeud intéressant à |
|---|
| 324 |
> chercher en cours d'exercice, il faut réindexer selon ce nouveau modèle. |
|---|
| 325 |
|
|---|
| 326 |
Oui, mais sur XMLfr nous avons actuellement peu de types de documents et |
|---|
| 327 |
ce n'est sans doute pas un gros problème. |
|---|
| 328 |
|
|---|
| 329 |
> Pour des collections ne dépassant les dizaines de milliers de documents |
|---|
| 330 |
> sans trop d'exigences multilingues, on peut s'intéresser à un DB:XML |
|---|
| 331 |
> comme exist (requêtes XPath), mais nous n'avons pas encore d'exemple |
|---|
| 332 |
> d'application en exploitation pour en connaître aussi bien les limites |
|---|
| 333 |
> que Lucene. |
|---|
| 334 |
|
|---|
| 335 |
Je n'ai pas non plus d'expérience concrète en la matière, mais il me |
|---|
| 336 |
semble que les bases de données XML en général ne sont pas vraiment |
|---|
| 337 |
faites pour de la recherche plein texte avec mesure de pertinence des |
|---|
| 338 |
résultats et autres fonctions du type. |
|---|
| 339 |
|
|---|
| 340 |
Ni XPath ni XQuery ne conviennent très bien pour ce type de requêtes et |
|---|
| 341 |
ils doivent être étendus pour pouvoir faire des recherches plein texte |
|---|
| 342 |
sur contenu mixte. |
|---|
| 343 |
|
|---|
| 344 |
Certains éditeurs "orientés documents" comme Ixiasoft mettent d'ailleurs |
|---|
| 345 |
ce type de fonctionnalités en avant comme étant des différenciateurs |
|---|
| 346 |
marquants de leurs produits. |
|---|
| 347 |
|
|---|
| 348 |
Merci pour cet éclairage. |
|---|
| 349 |
|
|---|
| 350 |
Eric |
|---|
| 351 |
-- |
|---|
| 352 |
See you in Portland. |
|---|
| 353 |
http://conferences.oreillynet.com/os2004/ |
|---|
| 354 |
Upcoming XML schema languages tutorial: |
|---|
| 355 |
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728 |
|---|
| 356 |
------------------------------------------------------------------------ |
|---|
| 357 |
Eric van der Vlist http://xmlfr.org http://dyomedea.com |
|---|
| 358 |
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax |
|---|
| 359 |
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema |
|---|
| 360 |
------------------------------------------------------------------------ |
|---|
| 361 |
|
|---|
| 362 |
|
|---|
| 363 |
-- |
|---|
| 364 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 365 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 366 |
|
|---|
| 367 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 368 |
|
|---|
| 369 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 370 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 371 |
|
|---|
| 372 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 373 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 374 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 375 |
|
|---|
| 376 |
From nobody Tue Jun 22 21:38:57 2004 |
|---|
| 377 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 21:38:57 +0200 (CEST) |
|---|
| 378 |
MIME-Version: 1.0 |
|---|
| 379 |
Return-Path: <frederic.glorieux@ajlsm.com> |
|---|
| 380 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 381 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 382 |
by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8 |
|---|
| 383 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST) |
|---|
| 384 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 385 |
by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8 |
|---|
| 386 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST) |
|---|
| 387 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 388 |
by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8 |
|---|
| 389 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST) |
|---|
| 390 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 391 |
by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8 |
|---|
| 392 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST) |
|---|
| 393 |
Message-ID: <40D88ACE.40908@ajlsm.com> |
|---|
| 394 |
Date: Tue, 22 Jun 2004 21:38:54 +0200 |
|---|
| 395 |
From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com> |
|---|
| 396 |
User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207) |
|---|
| 397 |
X-Accept-Language: en-us, en |
|---|
| 398 |
MIME-Version: 1.0 |
|---|
| 399 |
To: dev@xmlfr.org |
|---|
| 400 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 401 |
References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com> |
|---|
| 402 |
<1087923411.8945.302.camel@delleric> |
|---|
| 403 |
In-Reply-To: <1087923411.8945.302.camel@delleric> |
|---|
| 404 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 405 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 406 |
Content-Transfer-Encoding: 8bit |
|---|
| 407 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 408 |
X-archive-position: 11990 |
|---|
| 409 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 410 |
Sender: dev-bounce@xmlfr.org |
|---|
| 411 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 412 |
X-original-sender: frederic.glorieux@ajlsm.com |
|---|
| 413 |
Precedence: list |
|---|
| 414 |
Reply-to: dev@xmlfr.org |
|---|
| 415 |
X-list: dev |
|---|
| 416 |
|
|---|
| 417 |
|
|---|
| 418 |
|
|---|
| 419 |
> Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà |
|---|
| 420 |
> été mentionné sur cette liste :-) ... |
|---|
| 421 |
|
|---|
| 422 |
Comme j'ai voyagé beaucoup ces derniers mois, je me suis désabonné des |
|---|
| 423 |
listes à plus gros traffic (200 messages en webmail, c'est difficile à |
|---|
| 424 |
suivre avec une connexion modem...), je craignais d'avoir manquer des |
|---|
| 425 |
choses sur celles ci. |
|---|
| 426 |
|
|---|
| 427 |
|
|---|
| 428 |
>>On a eu à se plaindre d'un modèle de stockage en système de fichiers |
|---|
| 429 |
>>(jusqu'à 16 000 fichiers ouverts en même temps dans certaines |
|---|
| 430 |
>>applications) mais cet inconvénient semble en voie de résorbtion dans |
|---|
| 431 |
>>Lucene. |
|---|
| 432 |
> |
|---|
| 433 |
> |
|---|
| 434 |
> Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait |
|---|
| 435 |
> pas poser de gros problème. |
|---|
| 436 |
|
|---|
| 437 |
Le problème des fichiers ouverts dépendait plus de l'optimisation de |
|---|
| 438 |
l'index que la quantité indexée (si je me souviens de nos investigations |
|---|
| 439 |
de l'époque), il nous a surpris lorsqu'on a voulu utiliser Lucene comme |
|---|
| 440 |
une base de données à tout faire (utilisateurs, relations entre |
|---|
| 441 |
documents...). |
|---|
| 442 |
|
|---|
| 443 |
>>Il demeure quelques inconvénients incompressibles |
|---|
| 444 |
>> |
|---|
| 445 |
>> - il s'agit fondamentalement d'un modèle de donnée à "champs" |
|---|
| 446 |
>>(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les |
|---|
| 447 |
>>documents avant indexation) |
|---|
| 448 |
> |
|---|
| 449 |
> |
|---|
| 450 |
> Où peut-être à créer plusieurs champs texte par document? Cela semble |
|---|
| 451 |
> possible mais je n'ai pas encore regardé dans le détail. |
|---|
| 452 |
|
|---|
| 453 |
Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>, |
|---|
| 454 |
avec du Xpath on peut explorer à divers niveaux de profondeur, |
|---|
| 455 |
livre/chapitre/section... Avec Lucene, l'unité est stricte, on doit |
|---|
| 456 |
ruser en créant des "sous-documents" virtuels, qui sont autant de |
|---|
| 457 |
documents différents au sens de Lucene, reconstruits applicativement |
|---|
| 458 |
dans les résultats de recherche et les URIs qui répondent. |
|---|
| 459 |
|
|---|
| 460 |
Pour l'idée de répartir un document sur plusieurs champs, je n'ai pas |
|---|
| 461 |
explorer dernièrement les sources de Lucene, mais en tous cas pour la |
|---|
| 462 |
syntaxe de requête texte |
|---|
| 463 |
<http://jakarta.apache.org/lucene/docs/queryparsersyntax.html>, je ne |
|---|
| 464 |
vois pas comment interroger, disons, le quatrième titre. |
|---|
| 465 |
|
|---|
| 466 |
> Je n'ai pas non plus d'expérience concrète en la matière, mais il me |
|---|
| 467 |
> semble que les bases de données XML en général ne sont pas vraiment |
|---|
| 468 |
> faites pour de la recherche plein texte avec mesure de pertinence des |
|---|
| 469 |
> résultats et autres fonctions du type. |
|---|
| 470 |
|
|---|
| 471 |
Il y a du plein texte limité (comme MySQL d'ailleurs), mais ej crois peu |
|---|
| 472 |
de pertinence (à vérifier). Remarquez que le "tri de pertinence" n'est |
|---|
| 473 |
pas très pertinent avant d'avoir une grosse collection (Google). |
|---|
| 474 |
|
|---|
| 475 |
Je peux même vous dire de nombreux cas où il ne l'est pas du tout. Il y |
|---|
| 476 |
a souvent des collections ou l'on cherche plus longtemps le mot qui |
|---|
| 477 |
trouve quelque chose que le document que l'on veut lire. Je ne sais pas |
|---|
| 478 |
si Lucene a changé, mais un document avec le seul mot "XML" était |
|---|
| 479 |
toujours premier avec la requête "XML", même si vous avez indexé la |
|---|
| 480 |
norme entière, car bien sûr la fréquence du mot cherché dans le premier |
|---|
| 481 |
document est incomparable au second. On a eu le cas où des notices |
|---|
| 482 |
bibliographiques passaient avant des textes entiers. Il faudrait toute |
|---|
| 483 |
une usine de "pageRank" pour corriger les algorythmes. Je me demande si |
|---|
| 484 |
pour XMLfr, l'ordre de pertinence ne serait pas |
|---|
| 485 |
1) la date |
|---|
| 486 |
2) le type (news, mail, article...) |
|---|
| 487 |
|
|---|
| 488 |
Je vous en dirais plus dans quelques semaines sur exist après l'avoir |
|---|
| 489 |
bien étrenné. |
|---|
| 490 |
|
|---|
| 491 |
-- |
|---|
| 492 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 493 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 494 |
|
|---|
| 495 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 496 |
|
|---|
| 497 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 498 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 499 |
|
|---|
| 500 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 501 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 502 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 503 |
|
|---|
| 504 |
From nobody Tue Jun 22 22:25:24 2004 |
|---|
| 505 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:25:24 +0200 (CEST) |
|---|
| 506 |
MIME-Version: 1.0 |
|---|
| 507 |
Return-Path: <frederic.glorieux@ajlsm.com> |
|---|
| 508 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 509 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 510 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D |
|---|
| 511 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST) |
|---|
| 512 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 513 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D |
|---|
| 514 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST) |
|---|
| 515 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 516 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D |
|---|
| 517 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST) |
|---|
| 518 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 519 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D |
|---|
| 520 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST) |
|---|
| 521 |
Message-ID: <40D895B1.6080104@ajlsm.com> |
|---|
| 522 |
Date: Tue, 22 Jun 2004 22:25:21 +0200 |
|---|
| 523 |
From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com> |
|---|
| 524 |
User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207) |
|---|
| 525 |
X-Accept-Language: en-us, en |
|---|
| 526 |
MIME-Version: 1.0 |
|---|
| 527 |
To: dev@xmlfr.org |
|---|
| 528 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 529 |
References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com> |
|---|
| 530 |
<1087923411.8945.302.camel@delleric> |
|---|
| 531 |
In-Reply-To: <1087923411.8945.302.camel@delleric> |
|---|
| 532 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 533 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 534 |
Content-Transfer-Encoding: 8bit |
|---|
| 535 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 536 |
X-archive-position: 11991 |
|---|
| 537 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 538 |
Sender: dev-bounce@xmlfr.org |
|---|
| 539 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 540 |
X-original-sender: frederic.glorieux@ajlsm.com |
|---|
| 541 |
Precedence: list |
|---|
| 542 |
Reply-to: dev@xmlfr.org |
|---|
| 543 |
X-list: dev |
|---|
| 544 |
|
|---|
| 545 |
|
|---|
| 546 |
Confirmant ce que je disais sur Lucene et la pertinence, je viens de |
|---|
| 547 |
réessayer l'implantation cocoon. Vous savez quel est le premier résultat |
|---|
| 548 |
à la requête test "cocoon" ? |
|---|
| 549 |
|
|---|
| 550 |
docs/userdocs/forms/api_java.html |
|---|
| 551 |
|
|---|
| 552 |
<< |
|---|
| 553 |
Cocoon Forms: Java API |
|---|
| 554 |
To be done |
|---|
| 555 |
To be done. |
|---|
| 556 |
>> |
|---|
| 557 |
|
|---|
| 558 |
Score 50 % |
|---|
| 559 |
|
|---|
| 560 |
J'ai peur que la concurrence avec google soit dure à tenir. |
|---|
| 561 |
|
|---|
| 562 |
-- |
|---|
| 563 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 564 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 565 |
|
|---|
| 566 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 567 |
|
|---|
| 568 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 569 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 570 |
|
|---|
| 571 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 572 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 573 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 574 |
|
|---|
| 575 |
From nobody Tue Jun 22 22:36:45 2004 |
|---|
| 576 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:36:45 +0200 (CEST) |
|---|
| 577 |
MIME-Version: 1.0 |
|---|
| 578 |
Return-Path: <vdv@dyomedea.com> |
|---|
| 579 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 580 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 581 |
by gwparis.dyomedea.com (Postfix) with ESMTP id C7A3838CF0E |
|---|
| 582 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:36:44 +0200 (CEST) |
|---|
| 583 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 584 |
by gwparis.dyomedea.com (Postfix) with ESMTP id C7A3838CF0E |
|---|
| 585 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:36:44 +0200 (CEST) |
|---|
| 586 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 587 |
by gwparis.dyomedea.com (Postfix) with ESMTP id C7A3838CF0E |
|---|
| 588 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:36:44 +0200 (CEST) |
|---|
| 589 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 590 |
From: Eric van der Vlist <vdv@dyomedea.com> |
|---|
| 591 |
To: dev@xmlfr.org |
|---|
| 592 |
In-Reply-To: <40D88ACE.40908@ajlsm.com> |
|---|
| 593 |
References: <1087904474.8945.219.camel@delleric> |
|---|
| 594 |
<40D85EFA.2040908@ajlsm.com> <1087923411.8945.302.camel@delleric> |
|---|
| 595 |
<40D88ACE.40908@ajlsm.com> |
|---|
| 596 |
Organization: Dyomedea (http://dyomedea.com) |
|---|
| 597 |
Message-Id: <1087936604.8945.338.camel@delleric> |
|---|
| 598 |
Mime-Version: 1.0 |
|---|
| 599 |
X-Mailer: Ximian Evolution 1.4.6 |
|---|
| 600 |
Date: Tue, 22 Jun 2004 22:36:44 +0200 |
|---|
| 601 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 602 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 603 |
Content-Transfer-Encoding: 8bit |
|---|
| 604 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 605 |
X-archive-position: 11992 |
|---|
| 606 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 607 |
Sender: dev-bounce@xmlfr.org |
|---|
| 608 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 609 |
X-original-sender: vdv@dyomedea.com |
|---|
| 610 |
Precedence: list |
|---|
| 611 |
Reply-to: dev@xmlfr.org |
|---|
| 612 |
X-list: dev |
|---|
| 613 |
|
|---|
| 614 |
|
|---|
| 615 |
On Tue, 2004-06-22 at 21:38, Frédéric Glorieux wrote: |
|---|
| 616 |
> > Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà |
|---|
| 617 |
> > été mentionné sur cette liste :-) ... |
|---|
| 618 |
> |
|---|
| 619 |
> Comme j'ai voyagé beaucoup ces derniers mois, je me suis désabonné des |
|---|
| 620 |
> listes à plus gros traffic (200 messages en webmail, c'est difficile à |
|---|
| 621 |
> suivre avec une connexion modem...), je craignais d'avoir manquer des |
|---|
| 622 |
> choses sur celles ci. |
|---|
| 623 |
> |
|---|
| 624 |
> |
|---|
| 625 |
> >>On a eu à se plaindre d'un modèle de stockage en système de fichiers |
|---|
| 626 |
> >>(jusqu'à 16 000 fichiers ouverts en même temps dans certaines |
|---|
| 627 |
> >>applications) mais cet inconvénient semble en voie de résorbtion dans |
|---|
| 628 |
> >>Lucene. |
|---|
| 629 |
> > |
|---|
| 630 |
> > |
|---|
| 631 |
> > Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait |
|---|
| 632 |
> > pas poser de gros problème. |
|---|
| 633 |
> |
|---|
| 634 |
> Le problème des fichiers ouverts dépendait plus de l'optimisation de |
|---|
| 635 |
> l'index que la quantité indexée (si je me souviens de nos investigations |
|---|
| 636 |
> de l'époque), il nous a surpris lorsqu'on a voulu utiliser Lucene comme |
|---|
| 637 |
> une base de données à tout faire (utilisateurs, relations entre |
|---|
| 638 |
> documents...). |
|---|
| 639 |
> |
|---|
| 640 |
> >>Il demeure quelques inconvénients incompressibles |
|---|
| 641 |
> >> |
|---|
| 642 |
> >> - il s'agit fondamentalement d'un modèle de donnée à "champs" |
|---|
| 643 |
> >>(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les |
|---|
| 644 |
> >>documents avant indexation) |
|---|
| 645 |
> > |
|---|
| 646 |
> > |
|---|
| 647 |
> > Où peut-être à créer plusieurs champs texte par document? Cela semble |
|---|
| 648 |
> > possible mais je n'ai pas encore regardé dans le détail. |
|---|
| 649 |
> |
|---|
| 650 |
> Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>, |
|---|
| 651 |
> avec du Xpath on peut explorer à divers niveaux de profondeur, |
|---|
| 652 |
> livre/chapitre/section... |
|---|
| 653 |
|
|---|
| 654 |
Certes, mais XPath pose d'autres problèmes en recherche plein texte... |
|---|
| 655 |
|
|---|
| 656 |
> Avec Lucene, l'unité est stricte, on doit |
|---|
| 657 |
> ruser en créant des "sous-documents" virtuels, qui sont autant de |
|---|
| 658 |
> documents différents au sens de Lucene, reconstruits applicativement |
|---|
| 659 |
> dans les résultats de recherche et les URIs qui répondent. |
|---|
| 660 |
> |
|---|
| 661 |
> Pour l'idée de répartir un document sur plusieurs champs, je n'ai pas |
|---|
| 662 |
> explorer dernièrement les sources de Lucene, mais en tous cas pour la |
|---|
| 663 |
> syntaxe de requête texte |
|---|
| 664 |
> <http://jakarta.apache.org/lucene/docs/queryparsersyntax.html>, je ne |
|---|
| 665 |
> vois pas comment interroger, disons, le quatrième titre. |
|---|
| 666 |
|
|---|
| 667 |
En le plaçant dans un champ "titre4" et en tapant "titre4:XML" ??? |
|---|
| 668 |
|
|---|
| 669 |
Sinon, il faudrait le gérer au niveau API... |
|---|
| 670 |
|
|---|
| 671 |
> > Je n'ai pas non plus d'expérience concrète en la matière, mais il me |
|---|
| 672 |
> > semble que les bases de données XML en général ne sont pas vraiment |
|---|
| 673 |
> > faites pour de la recherche plein texte avec mesure de pertinence des |
|---|
| 674 |
> > résultats et autres fonctions du type. |
|---|
| 675 |
> |
|---|
| 676 |
> Il y a du plein texte limité (comme MySQL d'ailleurs), mais ej crois peu |
|---|
| 677 |
> de pertinence (à vérifier). Remarquez que le "tri de pertinence" n'est |
|---|
| 678 |
> pas très pertinent avant d'avoir une grosse collection (Google). |
|---|
| 679 |
> |
|---|
| 680 |
> Je peux même vous dire de nombreux cas où il ne l'est pas du tout. Il y |
|---|
| 681 |
> a souvent des collections ou l'on cherche plus longtemps le mot qui |
|---|
| 682 |
> trouve quelque chose que le document que l'on veut lire. Je ne sais pas |
|---|
| 683 |
> si Lucene a changé, mais un document avec le seul mot "XML" était |
|---|
| 684 |
> toujours premier avec la requête "XML", même si vous avez indexé la |
|---|
| 685 |
> norme entière, car bien sûr la fréquence du mot cherché dans le premier |
|---|
| 686 |
> document est incomparable au second. On a eu le cas où des notices |
|---|
| 687 |
> bibliographiques passaient avant des textes entiers. Il faudrait toute |
|---|
| 688 |
> une usine de "pageRank" pour corriger les algorythmes. Je me demande si |
|---|
| 689 |
> pour XMLfr, l'ordre de pertinence ne serait pas |
|---|
| 690 |
> 1) la date |
|---|
| 691 |
> 2) le type (news, mail, article...) |
|---|
| 692 |
|
|---|
| 693 |
Il faut sans doute proposer les deux. |
|---|
| 694 |
|
|---|
| 695 |
> Je vous en dirais plus dans quelques semaines sur exist après l'avoir |
|---|
| 696 |
> bien étrenné. |
|---|
| 697 |
|
|---|
| 698 |
Nous attendrons avec impatience! |
|---|
| 699 |
|
|---|
| 700 |
Merci, |
|---|
| 701 |
|
|---|
| 702 |
Eric |
|---|
| 703 |
|
|---|
| 704 |
-- |
|---|
| 705 |
Don't you think all these XML schema languages should work together? |
|---|
| 706 |
http://dsdl.org |
|---|
| 707 |
Upcoming XML schema languages tutorial: |
|---|
| 708 |
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728 |
|---|
| 709 |
------------------------------------------------------------------------ |
|---|
| 710 |
Eric van der Vlist http://xmlfr.org http://dyomedea.com |
|---|
| 711 |
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax |
|---|
| 712 |
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema |
|---|
| 713 |
------------------------------------------------------------------------ |
|---|
| 714 |
|
|---|
| 715 |
|
|---|
| 716 |
-- |
|---|
| 717 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 718 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 719 |
|
|---|
| 720 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 721 |
|
|---|
| 722 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 723 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 724 |
|
|---|
| 725 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 726 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 727 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 728 |
|
|---|
| 729 |
From nobody Tue Jun 22 22:39:07 2004 |
|---|
| 730 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:39:08 +0200 (CEST) |
|---|
| 731 |
MIME-Version: 1.0 |
|---|
| 732 |
Return-Path: <vdv@dyomedea.com> |
|---|
| 733 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 734 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 735 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 5412738CF3A |
|---|
| 736 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:39:03 +0200 (CEST) |
|---|
| 737 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 738 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 5412738CF3A |
|---|
| 739 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:39:03 +0200 (CEST) |
|---|
| 740 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 741 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 5412738CF3A |
|---|
| 742 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:39:03 +0200 (CEST) |
|---|
| 743 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 744 |
From: Eric van der Vlist <vdv@dyomedea.com> |
|---|
| 745 |
To: dev@xmlfr.org |
|---|
| 746 |
In-Reply-To: <40D895B1.6080104@ajlsm.com> |
|---|
| 747 |
References: <1087904474.8945.219.camel@delleric> |
|---|
| 748 |
<40D85EFA.2040908@ajlsm.com> <1087923411.8945.302.camel@delleric> |
|---|
| 749 |
<40D895B1.6080104@ajlsm.com> |
|---|
| 750 |
Organization: Dyomedea (http://dyomedea.com) |
|---|
| 751 |
Message-Id: <1087936740.8945.342.camel@delleric> |
|---|
| 752 |
Mime-Version: 1.0 |
|---|
| 753 |
X-Mailer: Ximian Evolution 1.4.6 |
|---|
| 754 |
Date: Tue, 22 Jun 2004 22:39:00 +0200 |
|---|
| 755 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 756 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 757 |
Content-Transfer-Encoding: 8bit |
|---|
| 758 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 759 |
X-archive-position: 11993 |
|---|
| 760 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 761 |
Sender: dev-bounce@xmlfr.org |
|---|
| 762 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 763 |
X-original-sender: vdv@dyomedea.com |
|---|
| 764 |
Precedence: list |
|---|
| 765 |
Reply-to: dev@xmlfr.org |
|---|
| 766 |
X-list: dev |
|---|
| 767 |
|
|---|
| 768 |
|
|---|
| 769 |
On Tue, 2004-06-22 at 22:25, Frédéric Glorieux wrote: |
|---|
| 770 |
> Confirmant ce que je disais sur Lucene et la pertinence, je viens de |
|---|
| 771 |
> réessayer l'implantation cocoon. Vous savez quel est le premier résultat |
|---|
| 772 |
> à la requête test "cocoon" ? |
|---|
| 773 |
> |
|---|
| 774 |
> docs/userdocs/forms/api_java.html |
|---|
| 775 |
> |
|---|
| 776 |
> << |
|---|
| 777 |
> Cocoon Forms: Java API |
|---|
| 778 |
> To be done |
|---|
| 779 |
> To be done. |
|---|
| 780 |
> >> |
|---|
| 781 |
> |
|---|
| 782 |
> Score 50 % |
|---|
| 783 |
|
|---|
| 784 |
C'est un coup des développeurs qui veulent pouvoir facilement identifier |
|---|
| 785 |
ce qu'il leur reste à faire? |
|---|
| 786 |
|
|---|
| 787 |
> J'ai peur que la concurrence avec google soit dure à tenir. |
|---|
| 788 |
|
|---|
| 789 |
Oui, Google a mis la barre trèèèèèèès haut... |
|---|
| 790 |
|
|---|
| 791 |
On peut toujours proposer une recherche Google, mais se serait trop |
|---|
| 792 |
simple :-) ... |
|---|
| 793 |
|
|---|
| 794 |
Eric |
|---|
| 795 |
-- |
|---|
| 796 |
Rendez-vous à Paris (Web Services Convention). |
|---|
| 797 |
http://masl.to?C12E25728 |
|---|
| 798 |
Upcoming XML schema languages tutorial: |
|---|
| 799 |
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728 |
|---|
| 800 |
------------------------------------------------------------------------ |
|---|
| 801 |
Eric van der Vlist http://xmlfr.org http://dyomedea.com |
|---|
| 802 |
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax |
|---|
| 803 |
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema |
|---|
| 804 |
------------------------------------------------------------------------ |
|---|
| 805 |
|
|---|
| 806 |
|
|---|
| 807 |
-- |
|---|
| 808 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 809 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 810 |
|
|---|
| 811 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 812 |
|
|---|
| 813 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 814 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 815 |
|
|---|
| 816 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 817 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 818 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 819 |
|
|---|
| 820 |
From nobody Tue Jun 22 22:53:45 2004 |
|---|
| 821 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:53:45 +0200 (CEST) |
|---|
| 822 |
MIME-Version: 1.0 |
|---|
| 823 |
Return-Path: <frederic.glorieux@ajlsm.com> |
|---|
| 824 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 825 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 826 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C |
|---|
| 827 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST) |
|---|
| 828 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 829 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C |
|---|
| 830 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST) |
|---|
| 831 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 832 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C |
|---|
| 833 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST) |
|---|
| 834 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 835 |
by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C |
|---|
| 836 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST) |
|---|
| 837 |
Message-ID: <40D89C56.90001@ajlsm.com> |
|---|
| 838 |
Date: Tue, 22 Jun 2004 22:53:42 +0200 |
|---|
| 839 |
From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com> |
|---|
| 840 |
User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207) |
|---|
| 841 |
X-Accept-Language: en-us, en |
|---|
| 842 |
MIME-Version: 1.0 |
|---|
| 843 |
To: dev@xmlfr.org |
|---|
| 844 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 845 |
References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com> |
|---|
| 846 |
<1087923411.8945.302.camel@delleric> <40D895B1.6080104@ajlsm.com> |
|---|
| 847 |
<1087936740.8945.342.camel@delleric> |
|---|
| 848 |
In-Reply-To: <1087936740.8945.342.camel@delleric> |
|---|
| 849 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 850 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 851 |
Content-Transfer-Encoding: 8bit |
|---|
| 852 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 853 |
X-archive-position: 11994 |
|---|
| 854 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 855 |
Sender: dev-bounce@xmlfr.org |
|---|
| 856 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 857 |
X-original-sender: frederic.glorieux@ajlsm.com |
|---|
| 858 |
Precedence: list |
|---|
| 859 |
Reply-to: dev@xmlfr.org |
|---|
| 860 |
X-list: dev |
|---|
| 861 |
|
|---|
| 862 |
|
|---|
| 863 |
|
|---|
| 864 |
>>Confirmant ce que je disais sur Lucene et la pertinence, je viens de |
|---|
| 865 |
>>réessayer l'implantation cocoon. Vous savez quel est le premier résultat |
|---|
| 866 |
>>à la requête test "cocoon" ? |
|---|
| 867 |
>> |
|---|
| 868 |
>>docs/userdocs/forms/api_java.html |
|---|
| 869 |
>> |
|---|
| 870 |
>><< |
|---|
| 871 |
>>Cocoon Forms: Java API |
|---|
| 872 |
>>To be done |
|---|
| 873 |
>>To be done. |
|---|
| 874 |
>> >> |
|---|
| 875 |
>> |
|---|
| 876 |
>>Score 50 % |
|---|
| 877 |
> |
|---|
| 878 |
> |
|---|
| 879 |
> C'est un coup des développeurs qui veulent pouvoir facilement identifier |
|---|
| 880 |
> ce qu'il leur reste à faire? |
|---|
| 881 |
|
|---|
| 882 |
Non, non, fréquence du mot cocoon dans une page aussi courte ? |
|---|
| 883 |
|
|---|
| 884 |
-- |
|---|
| 885 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 886 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 887 |
|
|---|
| 888 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 889 |
|
|---|
| 890 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 891 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 892 |
|
|---|
| 893 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 894 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 895 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 896 |
|
|---|
| 897 |
From nobody Tue Jun 22 23:03:20 2004 |
|---|
| 898 |
Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 23:03:20 +0200 (CEST) |
|---|
| 899 |
MIME-Version: 1.0 |
|---|
| 900 |
Return-Path: <frederic.glorieux@ajlsm.com> |
|---|
| 901 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 902 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 903 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146 |
|---|
| 904 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST) |
|---|
| 905 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 906 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146 |
|---|
| 907 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST) |
|---|
| 908 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 909 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146 |
|---|
| 910 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST) |
|---|
| 911 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 912 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146 |
|---|
| 913 |
for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST) |
|---|
| 914 |
Message-ID: <40D89E94.9030907@ajlsm.com> |
|---|
| 915 |
Date: Tue, 22 Jun 2004 23:03:16 +0200 |
|---|
| 916 |
From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com> |
|---|
| 917 |
User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207) |
|---|
| 918 |
X-Accept-Language: en-us, en |
|---|
| 919 |
MIME-Version: 1.0 |
|---|
| 920 |
To: dev@xmlfr.org |
|---|
| 921 |
Subject: [dev@xmlfr.org] Re: Moteur de recherche |
|---|
| 922 |
References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com> |
|---|
| 923 |
<1087923411.8945.302.camel@delleric> <40D88ACE.40908@ajlsm.com> |
|---|
| 924 |
<1087936604.8945.338.camel@delleric> |
|---|
| 925 |
In-Reply-To: <1087936604.8945.338.camel@delleric> |
|---|
| 926 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 927 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 928 |
Content-Transfer-Encoding: 8bit |
|---|
| 929 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 930 |
X-archive-position: 11995 |
|---|
| 931 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 932 |
Sender: dev-bounce@xmlfr.org |
|---|
| 933 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 934 |
X-original-sender: frederic.glorieux@ajlsm.com |
|---|
| 935 |
Precedence: list |
|---|
| 936 |
Reply-to: dev@xmlfr.org |
|---|
| 937 |
X-list: dev |
|---|
| 938 |
|
|---|
| 939 |
|
|---|
| 940 |
>>Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>, |
|---|
| 941 |
>>avec du Xpath on peut explorer à divers niveaux de profondeur, |
|---|
| 942 |
>>livre/chapitre/section... |
|---|
| 943 |
> |
|---|
| 944 |
> |
|---|
| 945 |
> Certes, mais XPath pose d'autres problèmes en recherche plein texte... |
|---|
| 946 |
|
|---|
| 947 |
http://exist.sourceforge.net/facts.html |
|---|
| 948 |
"XPath 2.0/XQuery 1.0 (Nov., 2003 working drafts) with extensions (to |
|---|
| 949 |
support fulltext search)" |
|---|
| 950 |
|
|---|
| 951 |
Mais on ne peut pas imaginer y greffer facilement des analyseurs selon |
|---|
| 952 |
les langues, et je ne connais pas la finesse de la syntaxe (et, ou ...) |
|---|
| 953 |
|
|---|
| 954 |
|
|---|
| 955 |
> En le plaçant dans un champ "titre4" et en tapant "titre4:XML" ??? |
|---|
| 956 |
|
|---|
| 957 |
Certes, dans l'implantation cocoon par défaut ceci signifierait un doc |
|---|
| 958 |
du genre |
|---|
| 959 |
<doc> |
|---|
| 960 |
<title1>... |
|---|
| 961 |
<title2>... |
|---|
| 962 |
... |
|---|
| 963 |
Pourquoi pas, mais je ne suis pas absolument convaincu. |
|---|
| 964 |
|
|---|
| 965 |
|
|---|
| 966 |
>> 1) la date |
|---|
| 967 |
>> 2) le type (news, mail, article...) |
|---|
| 968 |
> |
|---|
| 969 |
> |
|---|
| 970 |
> Il faut sans doute proposer les deux. |
|---|
| 971 |
|
|---|
| 972 |
Ou plutôt, pondérer les deux dans la recherche "simple" (après tests |
|---|
| 973 |
selon le public visé), et la recherche avancée pour les cas particuliers. |
|---|
| 974 |
|
|---|
| 975 |
|
|---|
| 976 |
|
|---|
| 977 |
-- |
|---|
| 978 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 979 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 980 |
|
|---|
| 981 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 982 |
|
|---|
| 983 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 984 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 985 |
|
|---|
| 986 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 987 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 988 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 989 |
|
|---|
| 990 |
From nobody Wed Jun 23 11:21:19 2004 |
|---|
| 991 |
Received: with ECARTIS (v1.0.0; list dev); Wed, 23 Jun 2004 11:21:19 +0200 (CEST) |
|---|
| 992 |
MIME-Version: 1.0 |
|---|
| 993 |
Return-Path: <vdv@dyomedea.com> |
|---|
| 994 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 995 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 996 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 08EF328ECC5 |
|---|
| 997 |
for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 11:21:18 +0200 (CEST) |
|---|
| 998 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 999 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 08EF328ECC5 |
|---|
| 1000 |
for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 11:21:18 +0200 (CEST) |
|---|
| 1001 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 1002 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 08EF328ECC5 |
|---|
| 1003 |
for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 11:21:18 +0200 (CEST) |
|---|
| 1004 |
Subject: [dev@xmlfr.org] =?ISO-8859-1?Q?Premi=E8re?= =?ISO-8859-1?Q?(na=EFve)?= |
|---|
| 1005 |
proposition d'utilisation de Lucene |
|---|
| 1006 |
From: Eric van der Vlist <vdv@dyomedea.com> |
|---|
| 1007 |
To: dev@xmlfr.org |
|---|
| 1008 |
Organization: Dyomedea (http://dyomedea.com) |
|---|
| 1009 |
Message-Id: <1087982478.8945.370.camel@delleric> |
|---|
| 1010 |
Mime-Version: 1.0 |
|---|
| 1011 |
X-Mailer: Ximian Evolution 1.4.6 |
|---|
| 1012 |
Date: Wed, 23 Jun 2004 11:21:18 +0200 |
|---|
| 1013 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 1014 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 1015 |
Content-Transfer-Encoding: 8bit |
|---|
| 1016 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 1017 |
X-archive-position: 11996 |
|---|
| 1018 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 1019 |
Sender: dev-bounce@xmlfr.org |
|---|
| 1020 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 1021 |
X-original-sender: vdv@dyomedea.com |
|---|
| 1022 |
Precedence: list |
|---|
| 1023 |
Reply-to: dev@xmlfr.org |
|---|
| 1024 |
X-list: dev |
|---|
| 1025 |
|
|---|
| 1026 |
|
|---|
| 1027 |
Bonjour, |
|---|
| 1028 |
|
|---|
| 1029 |
Un petit bout de code vaut mieux qu'un long discours et je viens de |
|---|
| 1030 |
publier une première proposition pour utiliser Lucene sur XMLfr : |
|---|
| 1031 |
|
|---|
| 1032 |
http://dev.xmlfr.org/cgi-bin/viewcvs.cgi/xmlfr-beta/sources/org/xmlfr/lucene/ |
|---|
| 1033 |
|
|---|
| 1034 |
Pour l'instant, il s'agit de deux utilitaires ligne de commande (Indexer |
|---|
| 1035 |
et Search) qui permettent respectivement d'indexer un jeu de documents |
|---|
| 1036 |
XML au format NITF et d'effectuer des recherches. |
|---|
| 1037 |
|
|---|
| 1038 |
J'ai voulu proposer quelque chose de plus léger que les pipelines |
|---|
| 1039 |
d'indexation de SDX et l'indexeur (XmlAnalyser.java) est écrit sous |
|---|
| 1040 |
forme d'un récepteur SAX paramétrable de la manière suivante : |
|---|
| 1041 |
|
|---|
| 1042 |
mappings.put("/nitf", new FieldType("contenu", FieldType.UNSTORED)); |
|---|
| 1043 |
mappings.put("hedline/hl1", new FieldType("titre1", FieldType.TEXT)); |
|---|
| 1044 |
mappings.put("hedline/hl2", new FieldType("titre2", FieldType.TEXT)); |
|---|
| 1045 |
mappings.put( |
|---|
| 1046 |
"dateline/story.date/chron/@norm", |
|---|
| 1047 |
new FieldType("date", FieldType.DATE)); |
|---|
| 1048 |
mappings.put( |
|---|
| 1049 |
"dateline/story.date/@norm", |
|---|
| 1050 |
new FieldType("date", FieldType.DATE)); |
|---|
| 1051 |
|
|---|
| 1052 |
Ces instructions indiquent que tout les textes sous l'élément "/nitf" |
|---|
| 1053 |
seront indexés dans un champ de type "UNSTORED" appelé "contenu", que |
|---|
| 1054 |
les textes sous les éléments hedline/hl1 et hedline/hl2 seront stockés |
|---|
| 1055 |
dans des champs de type TEXT nommés respectivement "titre1" et "titre2" |
|---|
| 1056 |
et que les attributs dateline/story.date/chron/@norm et |
|---|
| 1057 |
dateline/story.date/@norm seront stockés dans des champs de type DATE |
|---|
| 1058 |
nommés "date". |
|---|
| 1059 |
|
|---|
| 1060 |
Les chemins sont du simili XPath (je ne me suis pas (encore?) ennuyé à |
|---|
| 1061 |
supporter les espaces de noms). |
|---|
| 1062 |
|
|---|
| 1063 |
Ce paramétrage doit pouvoir être relativement facilement étendu pour |
|---|
| 1064 |
indexer les documents RSS dans lesquels sont stockées les brèves. |
|---|
| 1065 |
|
|---|
| 1066 |
L'indexage des archives de mails actuellement en HTML viendra ensuite. |
|---|
| 1067 |
|
|---|
| 1068 |
Après indexation, on peut rechercher des choses simples, par exemple |
|---|
| 1069 |
"edifrance" mais également tirer partie des différents champs, par |
|---|
| 1070 |
exemple "titre2:microsoft date:[20030101 TO 20031231]" pour les articles |
|---|
| 1071 |
contenant "microsoft" dans le titre de niveau 2 et publiés en 2003. |
|---|
| 1072 |
|
|---|
| 1073 |
Est-ce que nos experts Lucene peuvent jeter un coup d'oeil et me dire ce |
|---|
| 1074 |
qu'ils pensent de tout cela? |
|---|
| 1075 |
|
|---|
| 1076 |
Merci, |
|---|
| 1077 |
|
|---|
| 1078 |
Eric |
|---|
| 1079 |
|
|---|
| 1080 |
PS: pour faire tourner cela chez vous, il vous faut Xerces, Lucene et |
|---|
| 1081 |
Snowball. |
|---|
| 1082 |
|
|---|
| 1083 |
-- |
|---|
| 1084 |
Rendez-vous à Paris (Web Services Convention). |
|---|
| 1085 |
http://masl.to?C12E25728 |
|---|
| 1086 |
Upcoming XML schema languages tutorial: |
|---|
| 1087 |
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728 |
|---|
| 1088 |
------------------------------------------------------------------------ |
|---|
| 1089 |
Eric van der Vlist http://xmlfr.org http://dyomedea.com |
|---|
| 1090 |
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax |
|---|
| 1091 |
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema |
|---|
| 1092 |
------------------------------------------------------------------------ |
|---|
| 1093 |
|
|---|
| 1094 |
|
|---|
| 1095 |
-- |
|---|
| 1096 |
Devenez redacteur <XML>fr et contribuez au developpement du |
|---|
| 1097 |
xml francophone (http://xmlfr.org/infos/redacteurs/) ! |
|---|
| 1098 |
|
|---|
| 1099 |
Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org). |
|---|
| 1100 |
|
|---|
| 1101 |
Cette liste est a votre disposition pour discuter en francais de |
|---|
| 1102 |
tout sujet technique lie au developpement du site XMLfr. |
|---|
| 1103 |
|
|---|
| 1104 |
Pour resilier votre abonnement, envoyez un message contenant |
|---|
| 1105 |
la commande "unsubscribe" a dev-request@xmlfr.org |
|---|
| 1106 |
(mailto:dev-request@xmlfr.org?Subject=unsubscribe) |
|---|
| 1107 |
|
|---|
| 1108 |
From nobody Wed Jun 23 19:33:46 2004 |
|---|
| 1109 |
Received: with ECARTIS (v1.0.0; list dev); Wed, 23 Jun 2004 19:33:46 +0200 (CEST) |
|---|
| 1110 |
MIME-Version: 1.0 |
|---|
| 1111 |
Return-Path: <vdv@dyomedea.com> |
|---|
| 1112 |
Delivered-To: dev@gwparis.dyomedea.com |
|---|
| 1113 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 1114 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 9CBDC38E81E |
|---|
| 1115 |
for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 19:33:45 +0200 (CEST) |
|---|
| 1116 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 1117 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 9CBDC38E81E |
|---|
| 1118 |
for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 19:33:45 +0200 (CEST) |
|---|
| 1119 |
Received: from localhost (gwparis.dyomedea.com [127.0.0.1]) |
|---|
| 1120 |
by gwparis.dyomedea.com (Postfix) with ESMTP id 9CBDC38E81E |
|---|
| 1121 |
for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 19:33:45 +0200 (CEST) |
|---|
| 1122 |
Subject: [dev@xmlfr.org] Re: =?ISO-8859-1?Q?Premi=E8re(na=EFve)?= |
|---|
| 1123 |
proposition d'utilisation de Lucene |
|---|
| 1124 |
From: Eric van der Vlist <vdv@dyomedea.com> |
|---|
| 1125 |
To: dev@xmlfr.org |
|---|
| 1126 |
In-Reply-To: <1087982478.8945.370.camel@delleric> |
|---|
| 1127 |
References: <1087982478.8945.370.camel@delleric> |
|---|
| 1128 |
Organization: Dyomedea (http://dyomedea.com) |
|---|
| 1129 |
Message-Id: <1088012024.8945.497.camel@delleric> |
|---|
| 1130 |
Mime-Version: 1.0 |
|---|
| 1131 |
X-Mailer: Ximian Evolution 1.4.6 |
|---|
| 1132 |
Date: Wed, 23 Jun 2004 19:33:45 +0200 |
|---|
| 1133 |
X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com |
|---|
| 1134 |
Content-type: text/plain; charset=iso-8859-15 |
|---|
| 1135 |
Content-Transfer-Encoding: 8bit |
|---|
| 1136 |
X-Spambayes-Classification: ham; 0.00 |
|---|
| 1137 |
X-archive-position: 11997 |
|---|
| 1138 |
X-ecartis-version: Ecartis v1.0.0 |
|---|
| 1139 |
Sender: dev-bounce@xmlfr.org |
|---|
| 1140 |
Errors-to: dev-bounce@xmlfr.org |
|---|
| 1141 |
X-original-sender: vdv@dyomedea.com |
|---|
| 1142 |
Precedence: list |
|---|
| 1143 |
Reply-to: dev@xmlfr.org |
|---|
| 1144 |
X-list: dev |
|---|
| 1145 |
|
|---|
| 1146 |
|
|---|
| 1147 |
Bonsoir, |
|---|
| 1148 |
|
|---|
| 1149 |
On Wed, 2004-06-23 at 11:21, Eric van der Vlist wrote: |
|---|
| 1150 |
.../... |
|---|
| 1151 |
> Ce paramétrage doit pouvoir être relativement facilement étendu pour |
|---|
| 1152 |
> indexer les documents RSS dans lesquels sont stockées les brèves. |
|---|
| 1153 |
|
|---|
| 1154 |
C'est fait et je viens de publier une deuxième version qui gère aussi |
|---|
| 1155 |
bien les brèves dans leurs documents RSS que les articles en NITF. |
|---|
| 1156 |
|
|---|
| 1157 |
Eric |
|---|
| 1158 |
-- |
|---|
| 1159 |
Tired of typing XML tags? |
|---|
| 1160 |
http://wikiml.org |
|---|
| 1161 |
Upcoming XML schema languages tutorial: |
|---|
| 1162 |
- Portland -half day- (27/07/2004) http://masl.to/?E6ED13728 |
|---|
| 1163 |
------------------------------------------------------------------------ |
|---|
| 1164 |
Eric van der Vlist http://xmlfr.org http://dyomedea.com |
|---|
| 1165 |
(ISO) RELAX NG ISBN:0-596-00421-4 http://oreilly.com/catalog/relax |
|---|
| 1166 |
(W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema |
|---|
| 1167 |
------------------------------------------------------------------------ |
|---|
| 1168 |
|
|---|
| 1169 |
|
|---|
| 1170 |
-- |
|---|
<