L’histoire des moteurs de recherche
Ce billet est une traduction de cet article rédigé par Lee Underwood.
"Comment le monde pourrait-il se frayer un chemin jusqu'à votre porte quand ce chemin ne figure sur aucune carte, n'est pas catalogué et ne pourrait être découvert seulement par chance " - Paul Gilster, Digital Literacy
Le World Wide Web est différent de tout ce que nous avons connu. A l'intérieur de la réalité virtuelle du web, nous pouvons seulement voir et entendre des choses (au moins au moment où j'écris de cet article). A cause de cette limitation, le Web nous force à trouver de nouveaux moyens pour entrer en relation.
Par exemple, auparavant, si je souhaitais acheter un livre, je devais descendre jusqu'à la librairie locale, en choisir un que j'aime, l'acheter et rentrer chez moi. La librairie est souvent dans un endroit visible et dispose d'une devanture, la rendant relativement facile à trouver.
Mais dans le cyberespace, il n'y a pas de place pour "se retourner". J'ai seulement mon écran d'ordinateur devant moi. D'une manière ou d'une autre, j'ai besoin de trouver un endroit pour acheter le livre que je souhaite. Il n'y a pas de rue sur mon écran me permettant ainsi de me déplacer au sein du web (je pourrai "surfer" mais c'est une succession de visites infructueuses, de toute manière j'ai toujours besoin de savoir par où commencer). Parfois, c'est évident :tapez le nom de la librairie, ajouter un .COM (comme barnesandnoble + .com) et il est facile de parier que vous allez arriver où vous souhaitez aller. Mais qu'en sera-t'il s'il s'agit d'une boutique spécialisée qui ne dispose pas de site web avec une URL évidente ?
Une solution à ce problème est le moteur de recherche. En effet, il s'agit probablement d'une des méthodes la plus largement utilisée pour naviguer dans le cyberespace. En considérant la somme d'informations disponible sur un bon moteur de recherche, cela est similaire à disposer d'un tout-en-un englobant pages jaunes, guide et carte routière.
Les moteurs de recherche peuvent fournir bien plus d'informations que la simple URL d'un site Web. Ils peuvent aussi localiser des publications, aider à comparer des prix et même trouver s'il y a eu des problème survenus avec un produit ou un fabricant. Taper "livres" sur le moteur Google renvoie près de 9 270 000 résultats. Si nous affinons la recherche à "livres, Internet", nous parvenons à près de 6 070 000 résultats. Nous pouvons réduire notre prochaine recherche à "livres, Internet, moteurs de recherche" et nous parviendrons à 803 000 résultats. Si nous connaissons l'auteur du livre, disons Danny Sullivan, nous tapons alors "livres, Internet, moteurs de recherche, sullivan" et Google nous renverra alors près de 10 900 réponses (bien sûr, ces résultats changeront de jour en jour).
Pour beaucoup de monde, utiliser les moteurs de recherche est devenu une routine. Pas mal pour une technologie qui n'a même pas 20 ans. Mais comment les moteurs de recherche sont-il venus au monde ?
Les premiers débuts d'Internet et du World Wide Web
En 1957, après le lancement du Sputnik par l'URSS (le premier satellite artificiel), les Etats-Unis créérent l'Agence pour les Projets de Recherche Avancée (Advanced Research Projects Agency (ARPA)) dépendant du Département de la Défense. Son objectif était d'établir le leadership américain dans la science et la technologie applicables à l'armée.
Une partie du travail de l'ARPA était de préparer un projet pour que les Etats-Unis puissent conserver le contrôle sur ses missiles et bombardiers après une attaque nucléaire. Grâce à ce travail, l'ARPANET - alias l'Internet - naquit. Les premières connections ARPANET sont établies en 1969 et en Octobre 1972, ARPANET devint "public".
Presque 20 ans après la création d'Internet, le World Wide Web était né pour permettre l'échange public d'informations sur une base globale. Il fut construit sur la colonne vertébrale de l'Internet.
Selon Tim Berners-Lee, créateur du World Wide Web, "l'Internet est un réseau des réseaux. Fondamentalement, il est constitué d'ordinateurs et de câbles ... Le World Wide Web est un espace abstrait et imaginaire d'information. Sur le Net, vous trouvez des ordinateurs - sur le Web, vous trouvez des documents, sons, vidéos... de l'information. Sur le Net, les connections sont des câbles entre ordinateurs ; sur le Web, les connexions sont des liens hypertextes. Le Web existe grâce à des programmes qui communiquent entre ordinateurs sur le Net. Le Web ne pourrait pas être sans le Net. Le Web rendit le Net utile parce que les gens sont en fait intéressés par l'information et ne souhaitent pas avoir à connaître ce qui concerne les ordinateurs et les câbles."
Avec l'information partagée mondialement, il y avait finalement un besoin de trouver cette information d'une manière ordonnée.
Archie, Veronica,et Jughead (ou L'Histoire des moteurs de recherche commençant à Riverdale High)
Le tout premier outil employé pour chercher sur Internet fut appelé "Archie" (Pour Archives sans le V). Il fut créé en 1990 par Alan Emtage, un étudiant à l'Université McGil de Montréal. Le programme téléchargeait les listings d'annuaires de tous les fichiers situés sur les FTP (File Transfer Protocol) anonymes publics des sites, créant une base de données interrogeable de noms de fichiers.
Alors que Archie indexait des fichiers d'ordinateurs, "Gopher" indexait des documents en simple texte. Gopher fut créé en 1991 par Mark McCahill de l'Université du Minnesota (Le programme tira son nom de la mascotte de l'école). Comme il s'agissait de fichiers textes, la plupart des sites Gopher devinrent des sites Web après la création du World Wide Web.
Deux autres programmes, "Veronica" et "Jughead", cherchaient les fichiers stockés dans les systèmes d'index de Gopher. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) que l'on pourrait traduire par "Rodeur très facile orienté Net pour l'indexation large des archives numériques") fournissait une recherche par mot clé de la plupart des titres des menus de Gopher et ceci dans la totalité des listings de Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) était un outil pour obtenir l'information de menu en provenance de divers serveurs Gopher.
I, Robot
En 1993, l'étudiant du MIT Matthew Gray créa ce qui est considéré comme le premier robot, appelé World Wide Web Wanderer. Il fut initialement utilisé pour compter les serveurs web pour mesurer la taille du Web. Le Voyageur fonctionna mensuellement de 1993 à 1995. Plus tard, il fut utiliser pour obtenir des URLs, formant la première base de données de sites Web appelé Wandex.
Selon The Web Robots FAQ, : "Un robot est un programme qui traverse automatiquement la structure hypertexte du Web en récupérant un document, et récursivement, récupérant tous les documents qui sont référencés. Les robots Web sont souvent assimilés à des voyageurs du web, des web crawler, ou des spiders. Ces noms sont un peu mensongers car ils donnent l'impression que le logiciel lui-meme se déplace entre les sites comme un virus ; ce qui n'est pas le cas, un robot visite simplement les sites en interrogeant les documents qui y figurent."
Initialement, les robots ont créé une petite controverse car ils utilisaient beaucoup de bande passante, entraînant parfois des pannes de serveurs. Les robots plus récents ont été mis au point et sont maintenant employés pour la constitution des index de la plupart des moteurs de recherche
En 1993, Martijn Koster créa ALIWEB (Archie-Like Indexing of the Web). ALIWEB permettaient aux utilisateurs de soumettre leurs propres pages à l'indexation. Selon Koster, "ALIWEB était un moteur de recherche basé sur une collection de méta-données automatisée, pour le Web."
Entrent les comptables
Finalement, comme il semblait que le Web pouvait être rentable, des investisseurs ont commencé à s'impliquer et les moteurs de recherche devinrent un grand business.
Excite.com fut présenté en 1993 par six étudiants de la Stanford University. Il utilisait des analyses statistiques des relations de mots pour aider dans le processus de recherche. En un an, Excite devint une entreprise et mis en ligne en Décembre 1995. Aujourd'hui, il appartient à la société AskJeeves.
EINet Galaxy (Galaxy.com) fut fondé en 1994 dans le cadre du MCC Research Consortium à l'Université du Texas, à Austin. Il fut finalement racheté à l'Université et, après avoir été transféré entre différentes entreprises, devint une société à part. Il fut créé comme un annuaire, contenant les caractéristiques de recherche de Goopher et telnet en complément de ses caractéristiques propres.
Jerry Yang et David Filo créèrent Yahoo en 1994. Yahoo commença comme un listing de leurs sites Web favoris. Ce qui le rendait différent, c'était le fait qu'à chaque entrée, en complément de l'URL, correspondait une description de la page. En un an, ils reçurent des financements et Yahoo, la société, fut fondée.
Plus tard, en 1994, WebCrawler.com sortit. C'était le premier moteur de recherche plein-texte sur Internet, le texte entier de chaque page était indexé pour la première fois.
Lycos introduisit la pertinence dans la recherche, le préfixe assorti et la proximité des mots en 1994. C'était un important moteur de recherche, indexant plus de 60 millions de documents en 1996 ; le plus grand de tous les moteurs de recherche à l'époque. Comme beaucoup de moteurs de recherche, Lycos fut créé dans l'atmosphère universitaire à la Carnegie Mellon University par Dr. Michael Mauldin.
Infoseek fut mis en ligne en 1995. Il n'apporta rien de nouveau dans le monde des moteurs de recherche. Il appartient maintenant à la Walt Disney Internet Group et le domaine évolua vers Go.com
Alta Vista sortit également en 1995. Ce fut le premier moteur de recherche à permettre des requêtes en langage naturel et des techniques de recherche avancée. Il propose aussi une recherche multimédia pour les photos, la musique, et les vidéos.
Inktomi commença en 1996 à l'UC Berkeley. En Juin 1999, Inktomi présenta un annuaire moteur de recherche propulsé par la technologie "concept d'induction". Le "Concept d'induction", selon la société, "tient compte de l'expérience de l'analyse humaine et applique ces mêmes habitudes à l'analyse d'un ordinateur pour les liens, l'usage, et autres modèles afin de déterminer quels sont les sites les plus populaires et les plus productifs". Inktomi fut racheté par Yahoo en 2003.
AskJeeves et Northern Light furent tous deux lancés en 1997.
Google fut lancé en 1997 par Sergey Brin et Larry Page dans le cadre d'un projet de recherche à l'université de Stanford. Il utilise les liens entrants pour classer les sites. En 1998, MSN Search et l'Open Directory débutèrent également. L'Open Directory, selon le site, "est le plus grand, le plus complet annuaire édité par des humains du Web. Il est construit et maintenu par une vaste et globale communauté d'éditeurs volontaires". Il cherche à devenir le "catalogue définitif du Web". L'annuaire entier est géré par une contribution humaine.