La recherche utile sur Internet
http://perso.wanadoo.fr/stephane.cottin/defense.html
version RTF pour impression (100 ko)
École Supérieur du Commerce Extérieur
module intelligence économique et maîtrise de
l'information (Véronique Mesguish)
Formation du 25 janvier 2001
Guy Cleret - Stéphane Cottin, Conseil constitutionnel
Problématique générale : A-t-on un quelconque intérêt à rechercher de l'information sur Internet ? (est-ce mieux, plus riche, plus rapide, moins cher, différent...?)
Qu'est ce qu'on trouve sur Internet ?
Contenus
Risques
Quantification des ressources
Comment trouver de l'information sur Internet ?
Les outils de recherche : définition / fonctionnement
Stratégies d'utilisation : typologie / applications
Solution spécifique : les méta-moteurs
Qu'est ce qu'on trouve sur Internet ?
1. Les contenus
A. Le mail : rappel = Internet a été créé pour ça, c'est normal que l'on trouve des données intéressantes dans des archives de courriers, en proportion non négligeable conservées par des serveurs. Le phénomène déjà ancien des listes de messageries (diffusion/discussion) a accentué le processus d'archivage et rationalisé ces fonds.
B. L'usenet : les forums = ce qui a fait découvrir le net au grand public. A déconseiller sauf dans des cas limites.
C. Le web : la révolution Internet. La facilité avec laquelle n'importe qui peut publier des informations sur le réseau a permis la constitution de fonds documentaire énorme
2. MAIS il y a des risques
A. Obsolescence (tant technique qu'informationnelle), fausses nouvelles (hoaxes), effets de loupe (activisme, démagogie)
B. La notion de "web invisible" (définition de Françoise Quaire pour l'ADBS)
Expression qui sous-entend
"la part du Web invisible pour les moteurs de recherche" :
l'ensemble des pages non localisables et/ou non indexables par ces outils.
Le Web invisible correspond à plusieurs types de ressources :
|
3. Quantification des ressources
On ne sait pas à 1 milliard près combien il y a de pages web. Les chiffres sont inouïs, parfois contradictoires. De toutes façons, le web invisible fait que ce recensement est impossible (voir http://www.strategic-road.com/recherch/mesurefr.htm)
Une fois que l'on sait ce qu'on peut y trouver (ou ne pas y trouver), on peut se lancer sur les méthodes de recherches...
Comment trouver de l'information sur Internet ?
1. Les outils de recherche
A. La division traditionnelle : moteurs et annuaires.
Un moteur est un outil indexant automatiquement le contenu (le texte intégral en général) de PAGES web. Il en conserve une trace dans ses fichiers (des index), interrogeables ensuite par des mots-clefs ou des expressions du texte (éventuellement de descripteurs suggérés par des balises invisibles, appelées meta-tags)
Un annuaire, (on devrait dire plutôt répertoire) est un outil d'analyse humain, référençant de manière succincte des SITES web (en général au sein de listes hiérarchisées de mots-clefs).
NB : il n'est pas possible de rechercher une "expression" en texte intégral dans un annuaire / un site web parlant d'un sujet précis, mais qui, par coquetterie par exemple, ne cite jamais une marque ou un nom propre, ne sera pas retrouvé par un moteur (qui, étant une machine, ne l'aura pas indexé avec ce mot-clef)
B. Comment fonctionne les outils de recherche ?
Les Moteurs
Les moteurs disposent d'une liste d'adresses de pages web (qu'on leur soumet, ou qu'ils vont chercher dans des listes établies par des documentalistes, ou par l'open directory)
Des petits programmes appelés "spiders" ou "crawlers" vont sur ces pages, en indexent (conservent en mémoire les mots et les expressions) tout ou partie, et suivent les éventuels hyperliens internes ou externes (en général, les spiders se limitent à n'indexer que le début de la page, ne vont pas plus loin que le 3e ou 4e liens internes et ne font que conserver les hyperliens externes pour plus tard et recommencer l'opération)
Les index sont ainsi constitués, et alimentent une base de données, éventuellement enrichie par des données externes (des "méta-données") insérées dans l'en-tête invisible des pages web (faire Affichage / Source de la page pour les voir).
Régulièrement, en fonction des capacités de stockage du moteur, le spider repasse sur le site (une méta-donnée peut d'ailleurs le lui indiquer) et vérifie si des éléments ont changé. Mais le taux de rafraîchissement peut être très peu satisfaisant et on a alors des pages qui soit ont disparu (erreur 404), soit ne parle plus du sujet (cas de la presse)
Critères de sélection d'un bon moteur
Les Annuaires
Les annuaires (ou répertoires) sont constitués par des armées de documentalistes (l'open directory en compte 33500 début 2001). Chaque agent alimente une partie d'une base de données thématique à partir de sites web qu'il analyse selon une grille de lecture spécifique.
Les sites web peuvent là aussi lui être soumis par les auteurs (ou par des référenceurs professionnels), mais l'agent va vérifier la conformité du site à ses propres critères de sélection, éventuellement (presque toujours) réécrire la description du site.
Un petit moteur de recherche indexe les descriptions de sites (et uniquement elles, non pas le contenu des sites)
2. Stratégies d'utilisation des outils de recherche
Typologie
Selon les différents critères de classement des moteurs généralistes, arrivent en général en tête :
Google http://www.google.com / Altavista : http://www.altavista.com / Voila : http://www.voila.fr /
Sont fréquemment cités parmi les meilleurs :
Lycos : http://www.lycos.com ; Excite : http://www.excite.com ; Northernlight : http://www.northernlight.com ; Hotbot : http://www.hotbot.com ; Alltheweb : http://www.alltheweb.com
http://www.abondance.com/outils/moteurs.html
des listes ( http://perso.wanadoo.fr/f.bourdet/french_seach.html ) : ( http://www.touslesmoteurs.com/ )
ATTENTION 1 : tous se valent en général sur la rapidité, et pour les meilleurs, sur la taille de l'index. Le mieux à faire est de se familiariser avec deux ou trois d'entre eux
ATTENTION 2 : il s'agit des moteurs généralistes. Il existe évidemment des moteurs spécifiques à un secteur. Leur principe est le même que les moteurs généralistes, mais ils s'associent avec un répertoire spécialisé et décide d'indexer profondément les sites sélectionnés (ex : http://www.google.com/unclesam qui n'indexe que les sites en .gov)
Pour les annuaires, le principal d'entre eux éclipse tous les autres : Yahoo ( http://www.yahoo.com ) et ses multiples versions nationales et spécialisées est sans contestation le plus visité des répertoires. On peut lui préférer néanmoins d'autres répertoires plus spécialisés et parfois mieux construits sur des domaines particuliers :
Open directory : http://www.dmoz.org ; Nomade : http://www.nomade.fr ;
A noter que les répertoires de recherche offrent toujours des fonctionnalités supplémentaires (recherche automatique sur un moteur (google pour Yahoo, Voila pour QuiQuoiOù) ; recherches dans des dépêches d'agence de presse...) En fait, les meilleurs moteurs se sont assurés de leur côté une complémentarité fonctionnelle totale avec les meilleurs répertoires (dmoz pour Google et Altavista, etc...) dans lesquels ils puisent des informations supplémentaires pour trier les sites ou pour les sélectionner.
http://www.abondance.com/outils/annuaires.html
Applications pratiques
Notions de base en opérateurs booléens :
| confiture | ET | fraise | trouvera | "confiture de fraise", mais pas "confiture d'abricot" | opérateur par défaut sur google (rare) ; en général exprimé par AND, ou par le signe + (collé au mot) |
| confiture | OU | fraise | trouvera | "confiture d'abricot" ou "fraise de veau" | opérateur par défaut de la plupart des moteurs ; aussi exprimé par OR |
| confiture | SAUF | fraise | trouvera | "confiture d'abricot" mais pas "confiture de fraise" | permet de restreindre des recherches (réduire le "bruit") ; exprimé par NOT ou par le signe "-" |
Une utilisation fréquente des mêmes moteurs permet de s'habituer à la syntaxe avancée (parce qu'il existe de nombreux autres opérateurs : http://www.abondance.com/outils/comparatif.html )
Google : http://www.google.com/advanced_search?hl=fr
Altavista : http://www.altavista.com/cgi-bin/query?pg=aq&stype=stext (en français : http://fr.altavista.com/index.jsp?qmode=adv)
Yahoo : http://fr.search.yahoo.com/search/fr/options
Une solution : les méta-moteurs
Principe : poser la même requête à plusieurs moteurs, analyser les résultats, dédoublonner, et servir chaud.
liste de méta-moteurs : http://www.enfin.com/catalog/metamoteur/
Parmi les plus efficaces : http://www.ixquick.com
Certains outils permettent d'héberger chez soi son propre méta-moteur et de choisir les moteurs à interroger (cf Copernic), mais on atteint les limites de l'utilisatin simple des moteurs de recherche sur Internet
Conclusion : Vers la veille et les outils de push (agents intelligents)
Tendances :
simplification à outrance (type google, ragingsearch, www.voila.com), moins de pub directes, mais plus de services et de rapidité
lutte contre le spamdexing (manipulations frauduleuses des index par des référenceurs)
nouvelle façon de présenter les résultats (plus de méta-moteurs, plus de méta-données = plus d'interventions humaines)