|
Accessibility of information on the web
Steve Lawrence et Lee Giles du NEC Research Institute,
juillet 1999.
Effectuée au mois de février 1999, l'étude Accessibility of information on the web estime le nombre de pages publiées sur le Web et examine diverses facettes de l'indexation du Web par les outils de recherche.
Quelques résultats: le Web recensait environ 800 millions de pages «publiques» en février 1999, c'est-à-dire de pages qui pouvaient être recensées par les moteurs de recherche. Ceci représente une augmentation d'environ 150% en deux ans, les auteurs ayant estimé, dans une étude antérieure, qu'il existait 320 millions de pages Web publiques au mois de décembre 1997.
Les outils de recherche ont du mal à suivre l'importante croissance du Web. En effet, aucun outil ne recensait plus de 16% des pages Web publiques en février 1999, alors que certains moteurs de recherche (tels que HotBot et AltaVista) indexaient plus de 45% du Web public en décembre 1997. Les auteurs estiment que onze outils de recherche majeurs (incluant AltaVista, Google, HotBot et Yahoo) ne couvraient, globalement, que 42% de l'ensemble du Web public en février 1999.
Voici d'autres résultats intéressants de l'étude des chercheurs du NEC Research Institute:
- environ le tiers (soit 34%) des pages d'accueil des sites Web font usage des metatags «keywords» et «description», qui facilitent l'indexation et le repérage des pages Web;
- 83% des sites publics contenaient de l'information de nature commerciale en février 1999 alors que 6% avaient un contenu scientifique ou éducatif et que 1,5% diffusaient de l'information pornographique;
- la proportion des hyperliens non fonctionnels, parmi les hyperliens proposés par les outils de recherche, s'élève en moyenne à 5,3%;
- l'indexation de nouvelles pages Web ou de pages modifiées peut prendre plusieurs mois;
- la probabilité qu'un site soit indexé par un outil de recherche est fortement corrélée (positivement) au nombre de liens hypertextes pointant vers ce site.
Source(s):
«Accessibility of information on the Web», Nature, juillet 1999, p. 107-109
* Renseignements supplémentaires sur l'étude *
( recueillis le
4 octobre 1999
)
|
Communiqué de presse:
ND
Adresse Web de l'étude:
http://wwwmetrics.com/
Disponibilité du rapport:
les résultats de l'étude sont publiés dans un article de la revue Nature, qui peut être obtenu par courrier électronique.
Population étudiée:
les pages Web «publiques», c'est-à-dire les pages pouvant être recensées par les outils de recherche
Ventilation des résultats:
NA
Collecte des données:
février 1999
Échantillon utilisé:
les résultats se basent sur un échantillon aléatoire de 3,6 millions adresses IP (qui ont été «interrogées» sur le port 80).
Personne ressource:
Steve Lawrence
Titre:
Chercheur
Courriel:
lawrence@research.nj.nec.com
Téléphone:
ND
ND: non disponible NA: non applicable
|
|