root/xmlfr/archives/dev/dev.2004-06

Révision 1622, 235.1 ko (déposé par apache, 1 an auparavant)

Ajout des archives des listes de discussions

<
Line 
1 From vdv@dyomedea.com  Tue Jun 22 13:41:15 2004
2 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 13:41:15 +0200 (CEST)
3 Return-Path: <vdv@dyomedea.com>
4 Delivered-To: dev@gwparis.dyomedea.com
5 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
6         by gwparis.dyomedea.com (Postfix) with ESMTP id 9E17228C987
7         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 13:41:14 +0200 (CEST)
8 Received: from gwparis.dyomedea.com ([127.0.0.1])
9         by localhost (gwparis.dyomedea.com [127.0.0.1]) (amavisd-new,
10         port 10024) with ESMTP id 13537-09 for <dev@gwparis.dyomedea.com>;
11         Tue, 22 Jun 2004 13:41:14 +0200 (CEST)
12 Received: from [10.0.0.2] (unknown [10.0.0.2])
13         by gwparis.dyomedea.com (Postfix) with ESMTP id 3B9A628C94F
14         for <dev@xmlfr.org>; Tue, 22 Jun 2004 13:41:14 +0200 (CEST)
15 Subject: [dev@xmlfr.org] Moteur de recherche
16 From: Eric van der Vlist <vdv@dyomedea.com>
17 To: dev@xmlfr.org
18 Content-type: text/plain; charset=iso-8859-15
19 Organization: Dyomedea (http://dyomedea.com)
20 Message-Id: <1087904474.8945.219.camel@delleric>
21 Mime-Version: 1.0
22 X-Mailer: Ximian Evolution 1.4.6
23 Date: Tue, 22 Jun 2004 13:41:14 +0200
24 Content-Transfer-Encoding: 8bit
25 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
26 X-Spambayes-Classification: ham; 0.00
27 X-archive-position: 11987
28 X-ecartis-version: Ecartis v1.0.0
29 Sender: dev-bounce@xmlfr.org
30 Errors-to: dev-bounce@xmlfr.org
31 X-original-sender: vdv@dyomedea.com
32 Precedence: list
33 Reply-to: dev@xmlfr.org
34 X-list: dev
35
36
37 Bonjour,
38
39 Tout d'abord, toutes mes excuses pour le peu de temps que j'ai consacré
40 à cette liste ces derniers mois.
41
42 Mon emploi du temps reste chargé et j'ai peur de ne pas être très
43 disponible pendant les semaines à venir.
44
45 Parmi les sujets de discussion ou de récrimination sur la liste des
46 rédacteurs, le plus virulent est sans doute les critiques portant sur
47 l'intégration du moteur de recherche au site XMLfr.
48
49 Dans la mesure où c'est un sujet moins structurant que le moteur de
50 publication, j'ai pensé que nous pourrions choisir ce sujet pour
51 redémarrer doucement les travaux sur cette liste...
52
53 Que reproche t-on au moteur actuel?
54
55      1. Le fait de ne pas pouvoir faire de recherche partielles sur une
56         portion du site.
57      2. Le fait d'indexer des pages intermédiaires (telles que
58         http://xmlfr.org ou http://xmlfr.org/actualites, ...).
59      3. Les titres qui ne sont pas parlant dans le cas des brèves.
60      4. Le fait de ne pas indexer indépendamment des fragments de pages
61         (cas des brèves qui sont regroupées par journée).
62      5. Autre? <rajoutez.votre.critique.ici/>...
63
64 La plupart de ces griefs peuvent être corrigés avec le moteur actuel
65 (htdig).
66
67 Ainsi par exemple, les recherches partielles sont implémentées dans
68 htdig :
69
70       *
71 http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&restrict=/actualites/breves = recherche de "XSLT" uniquement dans les brèves
72       *
73 http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&restrict=/actualites = recherche de XSLT dans toutes les actualités (info et brèves)
74       *
75 http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&exclude=/listes recherche de XSLT partout sauf dans les archives de liste
76       *
77 http://xmlfr.org/chercher/htsearch.cgi?config=htdigv2&words=xslt&restrict=/actualites&exclude=/actualites/breves recherche de XSLT dans les actualités mais pas dans les brèves
78       * ...
79
80 Il suffirait donc de modifier la forme de saisie
81 http://xmlfr.org/chercher/ pour les exposer.
82
83 Le problème de la gestion de fragments de documents semble un peu plus
84 compliquée à résoudre avec htdig mais j'ai quelques astuces dans mes
85 cartons qui devraient permettre de faire cela.
86
87 Ceci dit, c'est sans doute le moment de remettre en cause le choix du
88 moteur de recherche et de vois si nous ne pourrions pas trouver quelque
89 chose de plus facilement intégrable dans l'architecture Java/XSLT
90 actuelle (sans Cocoon) ou future (avec Cocoon).
91
92 Parmi les candidats figurent tout naturellement Lucene déjà mentionné
93 sur cette liste.
94
95 Sa particularité est "d'être déconnecté du web" dans la mesure où ce
96 n'est qu'une API et qu'elle n'intègre pas de crawler.
97
98 Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les
99 documents source (NITF pour les articles, RSS pour les brèves et
100 l'agenda, HTML pour les archives de mail et les traduction, ...) et
101 intégrer complètement les fonctions de recherche dans l'architecture
102 Java/XSLT du site.
103
104 Avez-vous d'autres moteurs de recherche à proposer et/ou des
105 commentaires permettant d'éclairer ce choix?
106
107 Merci,
108
109 Eric
110 --
111 Have you ever thought about unit testing XSLT templates?
112                                                      http://xsltunit.org
113 Upcoming XML schema languages tutorial:
114  - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
115 ------------------------------------------------------------------------
116 Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
117 (ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
118 (W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
119 ------------------------------------------------------------------------
120
121 --
122 Devenez redacteur <XML>fr et contribuez au developpement du
123 xml francophone (http://xmlfr.org/infos/redacteurs/) !
124
125 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
126
127 Cette liste est a votre disposition pour discuter en francais de
128 tout sujet technique lie au developpement du site XMLfr.
129
130 Pour resilier votre abonnement, envoyez un message contenant
131 la commande "unsubscribe" a dev-request@xmlfr.org
132 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
133
134 From nobody Tue Jun 22 18:31:59 2004
135 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 18:31:59 +0200 (CEST)
136 MIME-Version: 1.0
137 Return-Path: <frederic.glorieux@ajlsm.com>
138 Delivered-To: dev@gwparis.dyomedea.com
139 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
140         by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7
141         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST)
142 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
143         by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7
144         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST)
145 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
146         by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7
147         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST)
148 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
149         by gwparis.dyomedea.com (Postfix) with ESMTP id B1AFB28F2D7
150         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:31:58 +0200 (CEST)
151 Message-ID: <40D85EFA.2040908@ajlsm.com>
152 Date: Tue, 22 Jun 2004 18:31:54 +0200
153 From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com>
154 User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207)
155 X-Accept-Language: en-us, en
156 MIME-Version: 1.0
157 To: dev@xmlfr.org
158 Subject: [dev@xmlfr.org] Re: Moteur de recherche
159 References: <1087904474.8945.219.camel@delleric>
160 In-Reply-To: <1087904474.8945.219.camel@delleric>
161 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
162 Content-type: text/plain; charset=iso-8859-15
163 Content-Transfer-Encoding: 8bit
164 X-Spambayes-Classification: ham; 0.00
165 X-archive-position: 11988
166 X-ecartis-version: Ecartis v1.0.0
167 Sender: dev-bounce@xmlfr.org
168 Errors-to: dev-bounce@xmlfr.org
169 X-original-sender: frederic.glorieux@ajlsm.com
170 Precedence: list
171 Reply-to: dev@xmlfr.org
172 X-list: dev
173
174
175 De retour aussi, un peu plus au calme.
176
177 > Parmi les candidats figurent tout naturellement Lucene déjà mentionné
178 > sur cette liste.
179 >
180 > Sa particularité est "d'être déconnecté du web" dans la mesure où ce
181 > n'est qu'une API et qu'elle n'intègre pas de crawler.
182 >
183 > Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les
184 > documents source (NITF pour les articles, RSS pour les brèves et
185 > l'agenda, HTML pour les archives de mail et les traduction, ...) et
186 > intégrer complètement les fonctions de recherche dans l'architecture
187 > Java/XSLT du site.
188 >
189 > Avez-vous d'autres moteurs de recherche à proposer et/ou des
190 > commentaires permettant d'éclairer ce choix?
191
192 Nous avons une grosse expérience de Lucene intégré à Cocoon
193 <http://adnx.org/sdx/>, pour en arriver aux quelques conclusions suivantes
194   - Lucene tient le million et demi de (petits) documents (nous visons
195 les 5 millions dans quelques mois)
196   - il permet une intégration très fine des "analyseurs", pour par
197 exemple avoir des indexations différenciées selon les langues (exemple :
198 analyse grammaticale de l'arabe)
199
200 On a eu à se plaindre d'un modèle de stockage en système de fichiers
201 (jusqu'à 16 000 fichiers ouverts en même temps dans certaines
202 applications) mais cet inconvénient semble en voie de résorbtion dans
203 Lucene.
204
205 Il demeure quelques inconvénients incompressibles
206
207   - il s'agit fondamentalement d'un modèle de donnée à "champs"
208 (répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
209 documents avant indexation)
210   - l'indexation se fait a priori, autrement dit il faut préparer une
211 vue d'indexation qui définit les champs qui seront cherchables (ex:
212 titre, auteur, sujet). S'il on découvre un autre noeud intéressant à
213 chercher en cours d'exercice, il faut réindexer selon ce nouveau modèle.
214
215 Pour des collections ne dépassant les dizaines de milliers de documents
216 sans trop d'exigences multilingues, on peut s'intéresser à un DB:XML
217 comme exist (requêtes XPath), mais nous n'avons pas encore d'exemple
218 d'application en exploitation pour en connaître aussi bien les limites
219 que Lucene.
220
221
222 --
223 Devenez redacteur <XML>fr et contribuez au developpement du
224 xml francophone (http://xmlfr.org/infos/redacteurs/) !
225
226 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
227
228 Cette liste est a votre disposition pour discuter en francais de
229 tout sujet technique lie au developpement du site XMLfr.
230
231 Pour resilier votre abonnement, envoyez un message contenant
232 la commande "unsubscribe" a dev-request@xmlfr.org
233 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
234
235 From nobody Tue Jun 22 18:56:52 2004
236 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 18:56:52 +0200 (CEST)
237 MIME-Version: 1.0
238 Return-Path: <vdv@dyomedea.com>
239 Delivered-To: dev@gwparis.dyomedea.com
240 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
241         by gwparis.dyomedea.com (Postfix) with ESMTP id DE1A628F460
242         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:56:51 +0200 (CEST)
243 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
244         by gwparis.dyomedea.com (Postfix) with ESMTP id DE1A628F460
245         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:56:51 +0200 (CEST)
246 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
247         by gwparis.dyomedea.com (Postfix) with ESMTP id DE1A628F460
248         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 18:56:51 +0200 (CEST)
249 Subject: [dev@xmlfr.org] Re: Moteur de recherche
250 From: Eric van der Vlist <vdv@dyomedea.com>
251 To: dev@xmlfr.org
252 In-Reply-To: <40D85EFA.2040908@ajlsm.com>
253 References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com>
254 Organization: Dyomedea (http://dyomedea.com)
255 Message-Id: <1087923411.8945.302.camel@delleric>
256 Mime-Version: 1.0
257 X-Mailer: Ximian Evolution 1.4.6
258 Date: Tue, 22 Jun 2004 18:56:51 +0200
259 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
260 Content-type: text/plain; charset=iso-8859-15
261 Content-Transfer-Encoding: 8bit
262 X-Spambayes-Classification: ham; 0.00
263 X-archive-position: 11989
264 X-ecartis-version: Ecartis v1.0.0
265 Sender: dev-bounce@xmlfr.org
266 Errors-to: dev-bounce@xmlfr.org
267 X-original-sender: vdv@dyomedea.com
268 Precedence: list
269 Reply-to: dev@xmlfr.org
270 X-list: dev
271
272
273 On Tue, 2004-06-22 at 18:31, Frédéric Glorieux wrote:
274 > De retour aussi, un peu plus au calme.
275 >
276 > > Parmi les candidats figurent tout naturellement Lucene déjà mentionné
277 > > sur cette liste.
278 > >
279 > > Sa particularité est "d'être déconnecté du web" dans la mesure où ce
280 > > n'est qu'une API et qu'elle n'intègre pas de crawler.
281 > >
282 > > Sur XMLfr, on pourrait donc écrire un crawler qui indexe directement les
283 > > documents source (NITF pour les articles, RSS pour les brèves et
284 > > l'agenda, HTML pour les archives de mail et les traduction, ...) et
285 > > intégrer complètement les fonctions de recherche dans l'architecture
286 > > Java/XSLT du site.
287 > >
288 > > Avez-vous d'autres moteurs de recherche à proposer et/ou des
289 > > commentaires permettant d'éclairer ce choix?
290 >
291 > Nous avons une grosse expérience de Lucene intégré à Cocoon
292 > <http://adnx.org/sdx/>,
293
294 Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà
295 été mentionné sur cette liste :-) ...
296
297 > pour en arriver aux quelques conclusions suivantes
298 >   - Lucene tient le million et demi de (petits) documents (nous visons
299 > les 5 millions dans quelques mois)
300 >   - il permet une intégration très fine des "analyseurs", pour par
301 > exemple avoir des indexations différenciées selon les langues (exemple :
302 > analyse grammaticale de l'arabe)
303 >
304 > On a eu à se plaindre d'un modèle de stockage en système de fichiers
305 > (jusqu'à 16 000 fichiers ouverts en même temps dans certaines
306 > applications) mais cet inconvénient semble en voie de résorbtion dans
307 > Lucene.
308
309 Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait
310 pas poser de gros problème.
311 >
312 > Il demeure quelques inconvénients incompressibles
313 >
314 >   - il s'agit fondamentalement d'un modèle de donnée à "champs"
315 > (répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
316 > documents avant indexation)
317
318 Où peut-être à créer plusieurs champs texte par document? Cela semble
319 possible mais je n'ai pas encore regardé dans le détail.
320
321 >   - l'indexation se fait a priori, autrement dit il faut préparer une
322 > vue d'indexation qui définit les champs qui seront cherchables (ex:
323 > titre, auteur, sujet). S'il on découvre un autre noeud intéressant à
324 > chercher en cours d'exercice, il faut réindexer selon ce nouveau modèle.
325
326 Oui, mais sur XMLfr nous avons actuellement peu de types de documents et
327 ce n'est sans doute pas un gros problème.
328
329 > Pour des collections ne dépassant les dizaines de milliers de documents
330 > sans trop d'exigences multilingues, on peut s'intéresser à un DB:XML
331 > comme exist (requêtes XPath), mais nous n'avons pas encore d'exemple
332 > d'application en exploitation pour en connaître aussi bien les limites
333 > que Lucene.
334
335 Je n'ai pas non plus d'expérience concrète en la matière, mais il me
336 semble que les bases de données XML en général ne sont pas vraiment
337 faites pour de la recherche plein texte avec mesure de pertinence des
338 résultats et autres fonctions du type.
339
340 Ni XPath ni XQuery ne conviennent très bien pour ce type de requêtes et
341 ils doivent être étendus pour pouvoir faire des recherches plein texte
342 sur contenu mixte.
343
344 Certains éditeurs "orientés documents" comme Ixiasoft mettent d'ailleurs
345 ce type de fonctionnalités en avant comme étant des différenciateurs
346 marquants de leurs produits.
347
348 Merci pour cet éclairage.
349
350 Eric
351 --
352 See you in Portland.
353                                http://conferences.oreillynet.com/os2004/
354 Upcoming XML schema languages tutorial:
355  - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
356 ------------------------------------------------------------------------
357 Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
358 (ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
359 (W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
360 ------------------------------------------------------------------------
361
362
363 --
364 Devenez redacteur <XML>fr et contribuez au developpement du
365 xml francophone (http://xmlfr.org/infos/redacteurs/) !
366
367 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
368
369 Cette liste est a votre disposition pour discuter en francais de
370 tout sujet technique lie au developpement du site XMLfr.
371
372 Pour resilier votre abonnement, envoyez un message contenant
373 la commande "unsubscribe" a dev-request@xmlfr.org
374 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
375
376 From nobody Tue Jun 22 21:38:57 2004
377 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 21:38:57 +0200 (CEST)
378 MIME-Version: 1.0
379 Return-Path: <frederic.glorieux@ajlsm.com>
380 Delivered-To: dev@gwparis.dyomedea.com
381 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
382         by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8
383         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST)
384 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
385         by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8
386         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST)
387 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
388         by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8
389         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST)
390 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
391         by gwparis.dyomedea.com (Postfix) with ESMTP id E9A3728FDE8
392         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 21:38:56 +0200 (CEST)
393 Message-ID: <40D88ACE.40908@ajlsm.com>
394 Date: Tue, 22 Jun 2004 21:38:54 +0200
395 From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com>
396 User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207)
397 X-Accept-Language: en-us, en
398 MIME-Version: 1.0
399 To: dev@xmlfr.org
400 Subject: [dev@xmlfr.org] Re: Moteur de recherche
401 References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com>
402         <1087923411.8945.302.camel@delleric>
403 In-Reply-To: <1087923411.8945.302.camel@delleric>
404 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
405 Content-type: text/plain; charset=iso-8859-15
406 Content-Transfer-Encoding: 8bit
407 X-Spambayes-Classification: ham; 0.00
408 X-archive-position: 11990
409 X-ecartis-version: Ecartis v1.0.0
410 Sender: dev-bounce@xmlfr.org
411 Errors-to: dev-bounce@xmlfr.org
412 X-original-sender: frederic.glorieux@ajlsm.com
413 Precedence: list
414 Reply-to: dev@xmlfr.org
415 X-list: dev
416
417
418
419 > Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà
420 > été mentionné sur cette liste :-) ...
421
422 Comme j'ai voyagé beaucoup ces derniers mois, je me suis désabonné des
423 listes à plus gros traffic (200 messages en webmail, c'est difficile à
424 suivre avec une connexion modem...), je craignais d'avoir manquer des
425 choses sur celles ci.
426
427
428 >>On a eu à se plaindre d'un modèle de stockage en système de fichiers
429 >>(jusqu'à 16 000 fichiers ouverts en même temps dans certaines
430 >>applications) mais cet inconvénient semble en voie de résorbtion dans
431 >>Lucene.
432 >
433 >
434 > Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait
435 > pas poser de gros problème.
436
437 Le problème des fichiers ouverts dépendait plus de l'optimisation de
438 l'index que la quantité indexée (si je me souviens de nos investigations
439 de l'époque), il nous a surpris lorsqu'on a voulu utiliser Lucene comme
440 une base de données à tout faire (utilisateurs, relations entre
441 documents...).
442
443 >>Il demeure quelques inconvénients incompressibles
444 >>
445 >>  - il s'agit fondamentalement d'un modèle de donnée à "champs"
446 >>(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
447 >>documents avant indexation)
448 >
449 >
450 > Où peut-être à créer plusieurs champs texte par document? Cela semble
451 > possible mais je n'ai pas encore regardé dans le détail.
452
453 Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>,
454 avec du Xpath on peut explorer à divers niveaux de profondeur,
455 livre/chapitre/section... Avec Lucene, l'unité est stricte, on doit
456 ruser en créant des "sous-documents" virtuels, qui sont autant de
457 documents différents au sens de Lucene, reconstruits applicativement
458 dans les résultats de recherche et les URIs qui répondent.
459
460 Pour l'idée de répartir un document sur plusieurs champs, je n'ai pas
461 explorer dernièrement les sources de Lucene, mais en tous cas pour la
462 syntaxe de requête texte
463 <http://jakarta.apache.org/lucene/docs/queryparsersyntax.html>, je ne
464 vois pas comment interroger, disons, le quatrième titre.
465
466  > Je n'ai pas non plus d'expérience concrète en la matière, mais il me
467  > semble que les bases de données XML en général ne sont pas vraiment
468  > faites pour de la recherche plein texte avec mesure de pertinence des
469  > résultats et autres fonctions du type.
470
471 Il y a du plein texte limité (comme MySQL d'ailleurs), mais ej crois peu
472 de pertinence (à vérifier). Remarquez que le "tri de pertinence" n'est
473 pas très pertinent avant d'avoir une grosse collection (Google).
474
475 Je peux même vous dire de nombreux cas où il ne l'est pas du tout. Il y
476 a souvent des collections ou l'on cherche plus longtemps le mot qui
477 trouve quelque chose que le document que l'on veut lire. Je ne sais pas
478 si Lucene a changé, mais un document avec le seul mot "XML" était
479 toujours premier avec la requête "XML", même si vous avez indexé la
480 norme entière, car bien sûr la fréquence du mot cherché dans le premier
481 document est incomparable au second. On a eu le cas où des notices
482 bibliographiques passaient avant des textes entiers. Il faudrait toute
483 une usine de "pageRank" pour corriger les algorythmes. Je me demande si
484 pour XMLfr, l'ordre de pertinence ne serait pas
485   1) la date
486   2) le type (news, mail, article...)
487
488 Je vous en dirais plus dans quelques semaines sur exist après l'avoir
489 bien étrenné.
490
491 --
492 Devenez redacteur <XML>fr et contribuez au developpement du
493 xml francophone (http://xmlfr.org/infos/redacteurs/) !
494
495 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
496
497 Cette liste est a votre disposition pour discuter en francais de
498 tout sujet technique lie au developpement du site XMLfr.
499
500 Pour resilier votre abonnement, envoyez un message contenant
501 la commande "unsubscribe" a dev-request@xmlfr.org
502 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
503
504 From nobody Tue Jun 22 22:25:24 2004
505 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:25:24 +0200 (CEST)
506 MIME-Version: 1.0
507 Return-Path: <frederic.glorieux@ajlsm.com>
508 Delivered-To: dev@gwparis.dyomedea.com
509 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
510         by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D
511         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST)
512 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
513         by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D
514         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST)
515 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
516         by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D
517         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST)
518 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
519         by gwparis.dyomedea.com (Postfix) with ESMTP id 06C4C38C01D
520         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:25:23 +0200 (CEST)
521 Message-ID: <40D895B1.6080104@ajlsm.com>
522 Date: Tue, 22 Jun 2004 22:25:21 +0200
523 From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com>
524 User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207)
525 X-Accept-Language: en-us, en
526 MIME-Version: 1.0
527 To: dev@xmlfr.org
528 Subject: [dev@xmlfr.org] Re: Moteur de recherche
529 References: <1087904474.8945.219.camel@delleric> <40D85EFA.2040908@ajlsm.com>
530         <1087923411.8945.302.camel@delleric>
531 In-Reply-To: <1087923411.8945.302.camel@delleric>
532 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
533 Content-type: text/plain; charset=iso-8859-15
534 Content-Transfer-Encoding: 8bit
535 X-Spambayes-Classification: ham; 0.00
536 X-archive-position: 11991
537 X-ecartis-version: Ecartis v1.0.0
538 Sender: dev-bounce@xmlfr.org
539 Errors-to: dev-bounce@xmlfr.org
540 X-original-sender: frederic.glorieux@ajlsm.com
541 Precedence: list
542 Reply-to: dev@xmlfr.org
543 X-list: dev
544
545
546 Confirmant ce que je disais sur Lucene et la pertinence, je viens de
547 réessayer l'implantation cocoon. Vous savez quel est le premier résultat
548 à la requête test "cocoon" ?
549
550 docs/userdocs/forms/api_java.html
551
552 <<
553 Cocoon Forms: Java API
554 To be done
555 To be done.
556  >>
557
558 Score 50 %
559
560 J'ai peur que la concurrence avec google soit dure à tenir.
561
562 --
563 Devenez redacteur <XML>fr et contribuez au developpement du
564 xml francophone (http://xmlfr.org/infos/redacteurs/) !
565
566 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
567
568 Cette liste est a votre disposition pour discuter en francais de
569 tout sujet technique lie au developpement du site XMLfr.
570
571 Pour resilier votre abonnement, envoyez un message contenant
572 la commande "unsubscribe" a dev-request@xmlfr.org
573 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
574
575 From nobody Tue Jun 22 22:36:45 2004
576 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:36:45 +0200 (CEST)
577 MIME-Version: 1.0
578 Return-Path: <vdv@dyomedea.com>
579 Delivered-To: dev@gwparis.dyomedea.com
580 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
581         by gwparis.dyomedea.com (Postfix) with ESMTP id C7A3838CF0E
582         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:36:44 +0200 (CEST)
583 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
584         by gwparis.dyomedea.com (Postfix) with ESMTP id C7A3838CF0E
585         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:36:44 +0200 (CEST)
586 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
587         by gwparis.dyomedea.com (Postfix) with ESMTP id C7A3838CF0E
588         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:36:44 +0200 (CEST)
589 Subject: [dev@xmlfr.org] Re: Moteur de recherche
590 From: Eric van der Vlist <vdv@dyomedea.com>
591 To: dev@xmlfr.org
592 In-Reply-To: <40D88ACE.40908@ajlsm.com>
593 References: <1087904474.8945.219.camel@delleric>
594         <40D85EFA.2040908@ajlsm.com> <1087923411.8945.302.camel@delleric>
595         <40D88ACE.40908@ajlsm.com>
596 Organization: Dyomedea (http://dyomedea.com)
597 Message-Id: <1087936604.8945.338.camel@delleric>
598 Mime-Version: 1.0
599 X-Mailer: Ximian Evolution 1.4.6
600 Date: Tue, 22 Jun 2004 22:36:44 +0200
601 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
602 Content-type: text/plain; charset=iso-8859-15
603 Content-Transfer-Encoding: 8bit
604 X-Spambayes-Classification: ham; 0.00
605 X-archive-position: 11992
606 X-ecartis-version: Ecartis v1.0.0
607 Sender: dev-bounce@xmlfr.org
608 Errors-to: dev-bounce@xmlfr.org
609 X-original-sender: vdv@dyomedea.com
610 Precedence: list
611 Reply-to: dev@xmlfr.org
612 X-list: dev
613
614
615 On Tue, 2004-06-22 at 21:38, Frédéric Glorieux wrote:
616 > > Oui, c'est à vous que je pensais quand j'ai écrit que Lucene avait déjà
617 > > été mentionné sur cette liste :-) ...
618 >
619 > Comme j'ai voyagé beaucoup ces derniers mois, je me suis désabonné des
620 > listes à plus gros traffic (200 messages en webmail, c'est difficile à
621 > suivre avec une connexion modem...), je craignais d'avoir manquer des
622 > choses sur celles ci.
623 >
624 >
625 > >>On a eu à se plaindre d'un modèle de stockage en système de fichiers
626 > >>(jusqu'à 16 000 fichiers ouverts en même temps dans certaines
627 > >>applications) mais cet inconvénient semble en voie de résorbtion dans
628 > >>Lucene.
629 > >
630 > >
631 > > Compte tenu du volume somme toute raisonnable de XMLfr, cela ne devrait
632 > > pas poser de gros problème.
633 >
634 > Le problème des fichiers ouverts dépendait plus de l'optimisation de
635 > l'index que la quantité indexée (si je me souviens de nos investigations
636 > de l'époque), il nous a surpris lorsqu'on a voulu utiliser Lucene comme
637 > une base de données à tout faire (utilisateurs, relations entre
638 > documents...).
639 >
640 > >>Il demeure quelques inconvénients incompressibles
641 > >>
642 > >>  - il s'agit fondamentalement d'un modèle de donnée à "champs"
643 > >>(répétables), qui ne rend pas la hiérarchie du XML (sauf à diviser les
644 > >>documents avant indexation)
645 > >
646 > >
647 > > Où peut-être à créer plusieurs champs texte par document? Cela semble
648 > > possible mais je n'ai pas encore regardé dans le détail.
649 >
650 > Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>,
651 > avec du Xpath on peut explorer à divers niveaux de profondeur,
652 > livre/chapitre/section...
653
654 Certes, mais XPath pose d'autres problèmes en recherche plein texte...
655
656 > Avec Lucene, l'unité est stricte, on doit
657 > ruser en créant des "sous-documents" virtuels, qui sont autant de
658 > documents différents au sens de Lucene, reconstruits applicativement
659 > dans les résultats de recherche et les URIs qui répondent.
660 >
661 > Pour l'idée de répartir un document sur plusieurs champs, je n'ai pas
662 > explorer dernièrement les sources de Lucene, mais en tous cas pour la
663 > syntaxe de requête texte
664 > <http://jakarta.apache.org/lucene/docs/queryparsersyntax.html>, je ne
665 > vois pas comment interroger, disons, le quatrième titre.
666
667 En le plaçant dans un champ "titre4" et en tapant "titre4:XML" ???
668
669 Sinon, il faudrait le gérer au niveau API...
670
671 >  > Je n'ai pas non plus d'expérience concrète en la matière, mais il me
672 >  > semble que les bases de données XML en général ne sont pas vraiment
673 >  > faites pour de la recherche plein texte avec mesure de pertinence des
674 >  > résultats et autres fonctions du type.
675 >
676 > Il y a du plein texte limité (comme MySQL d'ailleurs), mais ej crois peu
677 > de pertinence (à vérifier). Remarquez que le "tri de pertinence" n'est
678 > pas très pertinent avant d'avoir une grosse collection (Google).
679 >
680 > Je peux même vous dire de nombreux cas où il ne l'est pas du tout. Il y
681 > a souvent des collections ou l'on cherche plus longtemps le mot qui
682 > trouve quelque chose que le document que l'on veut lire. Je ne sais pas
683 > si Lucene a changé, mais un document avec le seul mot "XML" était
684 > toujours premier avec la requête "XML", même si vous avez indexé la
685 > norme entière, car bien sûr la fréquence du mot cherché dans le premier
686 > document est incomparable au second. On a eu le cas où des notices
687 > bibliographiques passaient avant des textes entiers. Il faudrait toute
688 > une usine de "pageRank" pour corriger les algorythmes. Je me demande si
689 > pour XMLfr, l'ordre de pertinence ne serait pas
690 >   1) la date
691 >   2) le type (news, mail, article...)
692
693 Il faut sans doute proposer les deux.
694
695 > Je vous en dirais plus dans quelques semaines sur exist après l'avoir
696 > bien étrenné.
697
698 Nous attendrons avec impatience!
699
700 Merci,
701
702 Eric
703
704 --
705 Don't you think all these XML schema languages should work together?
706                                                          http://dsdl.org
707 Upcoming XML schema languages tutorial:
708  - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
709 ------------------------------------------------------------------------
710 Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
711 (ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
712 (W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
713 ------------------------------------------------------------------------
714
715
716 --
717 Devenez redacteur <XML>fr et contribuez au developpement du
718 xml francophone (http://xmlfr.org/infos/redacteurs/) !
719
720 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
721
722 Cette liste est a votre disposition pour discuter en francais de
723 tout sujet technique lie au developpement du site XMLfr.
724
725 Pour resilier votre abonnement, envoyez un message contenant
726 la commande "unsubscribe" a dev-request@xmlfr.org
727 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
728
729 From nobody Tue Jun 22 22:39:07 2004
730 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:39:08 +0200 (CEST)
731 MIME-Version: 1.0
732 Return-Path: <vdv@dyomedea.com>
733 Delivered-To: dev@gwparis.dyomedea.com
734 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
735         by gwparis.dyomedea.com (Postfix) with ESMTP id 5412738CF3A
736         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:39:03 +0200 (CEST)
737 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
738         by gwparis.dyomedea.com (Postfix) with ESMTP id 5412738CF3A
739         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:39:03 +0200 (CEST)
740 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
741         by gwparis.dyomedea.com (Postfix) with ESMTP id 5412738CF3A
742         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:39:03 +0200 (CEST)
743 Subject: [dev@xmlfr.org] Re: Moteur de recherche
744 From: Eric van der Vlist <vdv@dyomedea.com>
745 To: dev@xmlfr.org
746 In-Reply-To: <40D895B1.6080104@ajlsm.com>
747 References: <1087904474.8945.219.camel@delleric>
748         <40D85EFA.2040908@ajlsm.com> <1087923411.8945.302.camel@delleric>
749         <40D895B1.6080104@ajlsm.com>
750 Organization: Dyomedea (http://dyomedea.com)
751 Message-Id: <1087936740.8945.342.camel@delleric>
752 Mime-Version: 1.0
753 X-Mailer: Ximian Evolution 1.4.6
754 Date: Tue, 22 Jun 2004 22:39:00 +0200
755 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
756 Content-type: text/plain; charset=iso-8859-15
757 Content-Transfer-Encoding: 8bit
758 X-Spambayes-Classification: ham; 0.00
759 X-archive-position: 11993
760 X-ecartis-version: Ecartis v1.0.0
761 Sender: dev-bounce@xmlfr.org
762 Errors-to: dev-bounce@xmlfr.org
763 X-original-sender: vdv@dyomedea.com
764 Precedence: list
765 Reply-to: dev@xmlfr.org
766 X-list: dev
767
768
769 On Tue, 2004-06-22 at 22:25, Frédéric Glorieux wrote:
770 > Confirmant ce que je disais sur Lucene et la pertinence, je viens de
771 > réessayer l'implantation cocoon. Vous savez quel est le premier résultat
772 > à la requête test "cocoon" ?
773 >
774 > docs/userdocs/forms/api_java.html
775 >
776 > <<
777 > Cocoon Forms: Java API
778 > To be done
779 > To be done.
780 >  >>
781 >
782 > Score 50 %
783
784 C'est un coup des développeurs qui veulent pouvoir facilement identifier
785 ce qu'il leur reste à faire?
786
787 > J'ai peur que la concurrence avec google soit dure à tenir.
788
789 Oui, Google a mis la barre trèèèèèèès haut...
790
791 On peut toujours proposer une recherche Google, mais se serait trop
792 simple :-) ...
793
794 Eric
795 --
796 Rendez-vous à Paris (Web Services Convention).
797                                                 http://masl.to?C12E25728
798 Upcoming XML schema languages tutorial:
799  - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
800 ------------------------------------------------------------------------
801 Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
802 (ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
803 (W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
804 ------------------------------------------------------------------------
805
806
807 --
808 Devenez redacteur <XML>fr et contribuez au developpement du
809 xml francophone (http://xmlfr.org/infos/redacteurs/) !
810
811 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
812
813 Cette liste est a votre disposition pour discuter en francais de
814 tout sujet technique lie au developpement du site XMLfr.
815
816 Pour resilier votre abonnement, envoyez un message contenant
817 la commande "unsubscribe" a dev-request@xmlfr.org
818 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
819
820 From nobody Tue Jun 22 22:53:45 2004
821 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 22:53:45 +0200 (CEST)
822 MIME-Version: 1.0
823 Return-Path: <frederic.glorieux@ajlsm.com>
824 Delivered-To: dev@gwparis.dyomedea.com
825 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
826         by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C
827         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST)
828 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
829         by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C
830         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST)
831 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
832         by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C
833         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST)
834 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
835         by gwparis.dyomedea.com (Postfix) with ESMTP id B450D38D08C
836         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 22:53:44 +0200 (CEST)
837 Message-ID: <40D89C56.90001@ajlsm.com>
838 Date: Tue, 22 Jun 2004 22:53:42 +0200
839 From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com>
840 User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207)
841 X-Accept-Language: en-us, en
842 MIME-Version: 1.0
843 To: dev@xmlfr.org
844 Subject: [dev@xmlfr.org] Re: Moteur de recherche
845 References: <1087904474.8945.219.camel@delleric>        <40D85EFA.2040908@ajlsm.com>
846         <1087923411.8945.302.camel@delleric>    <40D895B1.6080104@ajlsm.com>
847         <1087936740.8945.342.camel@delleric>
848 In-Reply-To: <1087936740.8945.342.camel@delleric>
849 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
850 Content-type: text/plain; charset=iso-8859-15
851 Content-Transfer-Encoding: 8bit
852 X-Spambayes-Classification: ham; 0.00
853 X-archive-position: 11994
854 X-ecartis-version: Ecartis v1.0.0
855 Sender: dev-bounce@xmlfr.org
856 Errors-to: dev-bounce@xmlfr.org
857 X-original-sender: frederic.glorieux@ajlsm.com
858 Precedence: list
859 Reply-to: dev@xmlfr.org
860 X-list: dev
861
862
863
864 >>Confirmant ce que je disais sur Lucene et la pertinence, je viens de
865 >>réessayer l'implantation cocoon. Vous savez quel est le premier résultat
866 >>à la requête test "cocoon" ?
867 >>
868 >>docs/userdocs/forms/api_java.html
869 >>
870 >><<
871 >>Cocoon Forms: Java API
872 >>To be done
873 >>To be done.
874 >> >>
875 >>
876 >>Score 50 %
877 >
878 >
879 > C'est un coup des développeurs qui veulent pouvoir facilement identifier
880 > ce qu'il leur reste à faire?
881
882 Non, non, fréquence du mot cocoon dans une page aussi courte ?
883
884 --
885 Devenez redacteur <XML>fr et contribuez au developpement du
886 xml francophone (http://xmlfr.org/infos/redacteurs/) !
887
888 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
889
890 Cette liste est a votre disposition pour discuter en francais de
891 tout sujet technique lie au developpement du site XMLfr.
892
893 Pour resilier votre abonnement, envoyez un message contenant
894 la commande "unsubscribe" a dev-request@xmlfr.org
895 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
896
897 From nobody Tue Jun 22 23:03:20 2004
898 Received: with ECARTIS (v1.0.0; list dev); Tue, 22 Jun 2004 23:03:20 +0200 (CEST)
899 MIME-Version: 1.0
900 Return-Path: <frederic.glorieux@ajlsm.com>
901 Delivered-To: dev@gwparis.dyomedea.com
902 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
903         by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146
904         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST)
905 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
906         by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146
907         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST)
908 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
909         by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146
910         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST)
911 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
912         by gwparis.dyomedea.com (Postfix) with ESMTP id 7BF5338D146
913         for <dev@gwparis.dyomedea.com>; Tue, 22 Jun 2004 23:03:19 +0200 (CEST)
914 Message-ID: <40D89E94.9030907@ajlsm.com>
915 Date: Tue, 22 Jun 2004 23:03:16 +0200
916 From: =?ISO-8859-15?Q?Fr=E9d=E9ric_Glorieux?= <frederic.glorieux@ajlsm.com>
917 User-Agent: Mozilla Thunderbird 0.5 (Windows/20040207)
918 X-Accept-Language: en-us, en
919 MIME-Version: 1.0
920 To: dev@xmlfr.org
921 Subject: [dev@xmlfr.org] Re: Moteur de recherche
922 References: <1087904474.8945.219.camel@delleric>        <40D85EFA.2040908@ajlsm.com>
923         <1087923411.8945.302.camel@delleric>    <40D88ACE.40908@ajlsm.com>
924         <1087936604.8945.338.camel@delleric>
925 In-Reply-To: <1087936604.8945.338.camel@delleric>
926 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
927 Content-type: text/plain; charset=iso-8859-15
928 Content-Transfer-Encoding: 8bit
929 X-Spambayes-Classification: ham; 0.00
930 X-archive-position: 11995
931 X-ecartis-version: Ecartis v1.0.0
932 Sender: dev-bounce@xmlfr.org
933 Errors-to: dev-bounce@xmlfr.org
934 X-original-sender: frederic.glorieux@ajlsm.com
935 Precedence: list
936 Reply-to: dev@xmlfr.org
937 X-list: dev
938
939
940 >>Prenez l'exemple d'une thèse <http://sourcesup.cru.fr/cybertheses/>,
941 >>avec du Xpath on peut explorer à divers niveaux de profondeur,
942 >>livre/chapitre/section...
943 >
944 >
945 > Certes, mais XPath pose d'autres problèmes en recherche plein texte...
946
947 http://exist.sourceforge.net/facts.html
948 "XPath 2.0/XQuery 1.0 (Nov., 2003 working drafts) with extensions (to
949 support fulltext search)"
950
951 Mais on ne peut pas imaginer y greffer facilement des analyseurs selon
952 les langues, et je ne connais pas la finesse de la syntaxe (et, ou ...)
953
954
955 > En le plaçant dans un champ "titre4" et en tapant "titre4:XML" ???
956
957 Certes, dans l'implantation cocoon par défaut ceci signifierait un doc
958 du genre
959 <doc>
960    <title1>...
961    <title2>...
962 ...
963 Pourquoi pas, mais je ne suis pas absolument convaincu.
964
965
966 >>  1) la date
967 >>  2) le type (news, mail, article...)
968 >
969 >
970 > Il faut sans doute proposer les deux.
971
972 Ou plutôt, pondérer les deux dans la recherche "simple" (après tests
973 selon le public visé), et la recherche avancée pour les cas particuliers.
974
975
976
977 --
978 Devenez redacteur <XML>fr et contribuez au developpement du
979 xml francophone (http://xmlfr.org/infos/redacteurs/) !
980
981 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
982
983 Cette liste est a votre disposition pour discuter en francais de
984 tout sujet technique lie au developpement du site XMLfr.
985
986 Pour resilier votre abonnement, envoyez un message contenant
987 la commande "unsubscribe" a dev-request@xmlfr.org
988 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
989
990 From nobody Wed Jun 23 11:21:19 2004
991 Received: with ECARTIS (v1.0.0; list dev); Wed, 23 Jun 2004 11:21:19 +0200 (CEST)
992 MIME-Version: 1.0
993 Return-Path: <vdv@dyomedea.com>
994 Delivered-To: dev@gwparis.dyomedea.com
995 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
996         by gwparis.dyomedea.com (Postfix) with ESMTP id 08EF328ECC5
997         for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 11:21:18 +0200 (CEST)
998 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
999         by gwparis.dyomedea.com (Postfix) with ESMTP id 08EF328ECC5
1000         for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 11:21:18 +0200 (CEST)
1001 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
1002         by gwparis.dyomedea.com (Postfix) with ESMTP id 08EF328ECC5
1003         for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 11:21:18 +0200 (CEST)
1004 Subject: [dev@xmlfr.org] =?ISO-8859-1?Q?Premi=E8re?=  =?ISO-8859-1?Q?(na=EFve)?=
1005         proposition d'utilisation de Lucene
1006 From: Eric van der Vlist <vdv@dyomedea.com>
1007 To: dev@xmlfr.org
1008 Organization: Dyomedea (http://dyomedea.com)
1009 Message-Id: <1087982478.8945.370.camel@delleric>
1010 Mime-Version: 1.0
1011 X-Mailer: Ximian Evolution 1.4.6
1012 Date: Wed, 23 Jun 2004 11:21:18 +0200
1013 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
1014 Content-type: text/plain; charset=iso-8859-15
1015 Content-Transfer-Encoding: 8bit
1016 X-Spambayes-Classification: ham; 0.00
1017 X-archive-position: 11996
1018 X-ecartis-version: Ecartis v1.0.0
1019 Sender: dev-bounce@xmlfr.org
1020 Errors-to: dev-bounce@xmlfr.org
1021 X-original-sender: vdv@dyomedea.com
1022 Precedence: list
1023 Reply-to: dev@xmlfr.org
1024 X-list: dev
1025
1026
1027 Bonjour,
1028
1029 Un petit bout de code vaut mieux qu'un long discours et je viens de
1030 publier une première proposition pour utiliser Lucene sur XMLfr :
1031
1032 http://dev.xmlfr.org/cgi-bin/viewcvs.cgi/xmlfr-beta/sources/org/xmlfr/lucene/
1033
1034 Pour l'instant, il s'agit de deux utilitaires ligne de commande (Indexer
1035 et Search) qui permettent respectivement d'indexer un jeu de documents
1036 XML au format NITF et d'effectuer des recherches.
1037
1038 J'ai voulu proposer quelque chose de plus léger que les pipelines
1039 d'indexation de SDX et l'indexeur (XmlAnalyser.java) est écrit sous
1040 forme d'un récepteur SAX paramétrable de la manière suivante :
1041
1042 mappings.put("/nitf", new FieldType("contenu", FieldType.UNSTORED));
1043 mappings.put("hedline/hl1", new FieldType("titre1", FieldType.TEXT));
1044 mappings.put("hedline/hl2", new FieldType("titre2", FieldType.TEXT));
1045 mappings.put(
1046         "dateline/story.date/chron/@norm",
1047         new FieldType("date", FieldType.DATE));
1048 mappings.put(
1049         "dateline/story.date/@norm",
1050         new FieldType("date", FieldType.DATE));
1051
1052 Ces instructions indiquent que tout les textes sous l'élément "/nitf"
1053 seront indexés dans un champ de type "UNSTORED" appelé "contenu", que
1054 les textes sous les éléments hedline/hl1 et hedline/hl2 seront stockés
1055 dans des champs de type TEXT nommés respectivement "titre1" et "titre2"
1056 et que les attributs dateline/story.date/chron/@norm et
1057 dateline/story.date/@norm seront stockés dans des champs de type DATE
1058 nommés "date".
1059
1060 Les chemins sont du simili XPath (je ne me suis pas (encore?) ennuyé à
1061 supporter les espaces de noms).
1062
1063 Ce paramétrage doit pouvoir être relativement facilement étendu pour
1064 indexer les documents RSS dans lesquels sont stockées les brèves.
1065
1066 L'indexage des archives de mails actuellement en HTML viendra ensuite.
1067
1068 Après indexation, on peut rechercher des choses simples, par exemple
1069 "edifrance" mais également tirer partie des différents champs, par
1070 exemple "titre2:microsoft date:[20030101 TO 20031231]" pour les articles
1071 contenant "microsoft" dans le titre de niveau 2 et publiés en 2003.
1072
1073 Est-ce que nos experts Lucene peuvent jeter un coup d'oeil et me dire ce
1074 qu'ils pensent de tout cela?
1075
1076 Merci,
1077
1078 Eric
1079
1080 PS: pour faire tourner cela chez vous, il vous faut Xerces, Lucene et
1081 Snowball.
1082
1083 --
1084 Rendez-vous à Paris (Web Services Convention).
1085                                                 http://masl.to?C12E25728
1086 Upcoming XML schema languages tutorial:
1087  - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
1088 ------------------------------------------------------------------------
1089 Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
1090 (ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
1091 (W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
1092 ------------------------------------------------------------------------
1093
1094
1095 --
1096 Devenez redacteur <XML>fr et contribuez au developpement du
1097 xml francophone (http://xmlfr.org/infos/redacteurs/) !
1098
1099 Liste de diffusion "dev@xmlfr.org" (http://xmlfr.org).
1100
1101 Cette liste est a votre disposition pour discuter en francais de
1102 tout sujet technique lie au developpement du site XMLfr.
1103
1104 Pour resilier votre abonnement, envoyez un message contenant
1105 la commande "unsubscribe" a dev-request@xmlfr.org
1106 (mailto:dev-request@xmlfr.org?Subject=unsubscribe)
1107
1108 From nobody Wed Jun 23 19:33:46 2004
1109 Received: with ECARTIS (v1.0.0; list dev); Wed, 23 Jun 2004 19:33:46 +0200 (CEST)
1110 MIME-Version: 1.0
1111 Return-Path: <vdv@dyomedea.com>
1112 Delivered-To: dev@gwparis.dyomedea.com
1113 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
1114         by gwparis.dyomedea.com (Postfix) with ESMTP id 9CBDC38E81E
1115         for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 19:33:45 +0200 (CEST)
1116 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
1117         by gwparis.dyomedea.com (Postfix) with ESMTP id 9CBDC38E81E
1118         for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 19:33:45 +0200 (CEST)
1119 Received: from localhost (gwparis.dyomedea.com [127.0.0.1])
1120         by gwparis.dyomedea.com (Postfix) with ESMTP id 9CBDC38E81E
1121         for <dev@gwparis.dyomedea.com>; Wed, 23 Jun 2004 19:33:45 +0200 (CEST)
1122 Subject: [dev@xmlfr.org] Re: =?ISO-8859-1?Q?Premi=E8re(na=EFve)?=
1123         proposition d'utilisation de Lucene
1124 From: Eric van der Vlist <vdv@dyomedea.com>
1125 To: dev@xmlfr.org
1126 In-Reply-To: <1087982478.8945.370.camel@delleric>
1127 References: <1087982478.8945.370.camel@delleric>
1128 Organization: Dyomedea (http://dyomedea.com)
1129 Message-Id: <1088012024.8945.497.camel@delleric>
1130 Mime-Version: 1.0
1131 X-Mailer: Ximian Evolution 1.4.6
1132 Date: Wed, 23 Jun 2004 19:33:45 +0200
1133 X-Virus-Scanned: by amavisd-new-20030616-p7 (Debian) at dyomedea.com
1134 Content-type: text/plain; charset=iso-8859-15
1135 Content-Transfer-Encoding: 8bit
1136 X-Spambayes-Classification: ham; 0.00
1137 X-archive-position: 11997
1138 X-ecartis-version: Ecartis v1.0.0
1139 Sender: dev-bounce@xmlfr.org
1140 Errors-to: dev-bounce@xmlfr.org
1141 X-original-sender: vdv@dyomedea.com
1142 Precedence: list
1143 Reply-to: dev@xmlfr.org
1144 X-list: dev
1145
1146
1147 Bonsoir,
1148
1149 On Wed, 2004-06-23 at 11:21, Eric van der Vlist wrote:
1150 .../...
1151 > Ce paramétrage doit pouvoir être relativement facilement étendu pour
1152 > indexer les documents RSS dans lesquels sont stockées les brèves.
1153
1154 C'est fait et je viens de publier une deuxième version qui gère aussi
1155 bien les brèves dans leurs documents RSS que les articles en NITF.
1156
1157 Eric
1158 --
1159 Tired of typing XML tags?
1160                                                        http://wikiml.org
1161 Upcoming XML schema languages tutorial:
1162  - Portland   -half day-   (27/07/2004)        http://masl.to/?E6ED13728
1163 ------------------------------------------------------------------------
1164 Eric van der Vlist       http://xmlfr.org            http://dyomedea.com
1165 (ISO) RELAX NG   ISBN:0-596-00421-4 http://oreilly.com/catalog/relax
1166 (W3C) XML Schema ISBN:0-596-00252-1 http://oreilly.com/catalog/xmlschema
1167 ------------------------------------------------------------------------
1168
1169
1170 --