Lancé en 1998, Google est aujoud'hui le moteur de recherche le plus populaire et sans doute le plus puissant de l'Internet.
Ce projet a pour but d'étudier les raisons de son succès, son fonctionnement et ses limites...
Mais tout d'abord faisons en la présentation.
Google, anciennement baptisé BackRub, est un projet datant de 1996. A son origine 2 universitaires, Larry Page et Sergey Brin, travaillant sur un projet de moteur de recherche se basant sur les
relations entre sites web.
Son nom vient du terme mathématique googol, qui désigne le chiffre 1 suivi de 100 zéros. Le succès de ce moteur de recherche vient de l'algorithme utilisé qui apporte une grande pertinance des
résultats. Il repose principalement sur l'analyse du contenu des pages ainsi que de leur popularité.
Par Coatanéa-Gouachet Bastien
0
-
Recommander
Les étudiants de premiere année de la filiere Informatique et Réseaux de l'Ensisa ( Ecole Nationale Superieure d'Ingenieurs Sud
Alsace ) doivent réaliser un projet .Ce dernier consiste à la création d'un blog accessible depuis internet et traitant un aspect de
l'ingénierie logicielle( un language , une technologie ou une methode de programmation etc...).
Chaque groupe de deux étudiants est libre de choisir le sujet qu'il developpera et il sera encardré par un enseignant .
Le but de ce projet est de rendre chaque étudiant de la filiere Informatique et Réseau "visible" sur internet et de presenter
précisement cette filiere aux futurs étudiants qui consulteront le site internet de l'école.
Ce blog est dedié à l'étude de la technologie google et de son fonctionnement , ce travail est realisé par Talea Amal
et Coatanéa-Gouachet Bastien et encardré par Mr Michele Hassenforder enseignant et chercheur à l'Ensisa.
Par Talea Amal
0
-
Recommander
Google est aujourd'hui un moteur de recherche incontournable, voir même en situation de quasi monopole. Nous pouvons donc nous demander pourquoi il est si attrayant .
La première constatation que nous pouvons faire est son interface très claire et dépouillée. Elle regroupe différent services que propose l'entreprise Google mais sans jamais envahir. De plus la
publicité se trouve être uniquement sous forme de lien.
Ce qui est un choix à l'opposé de ses principaux concurrents qui ont opté pour une interface du style Portail, regroupant beaucoup de services et d'informations.
Un second point concerne la très grande rapidité dans l'interrogation de sa base de donnée ainsi qu'à sa taille. En effet, à l'heure actuelle elle regroupe près de 8 milliards de page. Ce sont
ainsi des milliers de robots qui travaillent en permanence afin de l'alimenter.
Mais son principal attrait vient de la pertinence de ses résultats.
Son algorithme est basé sur 2 systèmes:
_ une analyse précise du contenu, permettant de donner plus ou moins de crédit à une page en fonction, entre autre, de certaines balises utilisées, de la position du mot clé dans la page, les
polices ou effets utilisés.
_ d'un classement de la page suivant sa popularité, appelé
PageRank. Qui a été mis au point par les fondateurs de Google et qui continue à être
amélioré aujourd'hui.
Par Coatanéa-Gouachet Bastien
0
-
Recommander
Ce terme désigne une technologie mise au point par les fondateurs de Google. Elle a pour but de déterminer l'intérêt de chaque page en fonction de sa popularité.
Il est donc évident que ce critère entre en compte dans le classement des sites lors d'une recherche. Même s'il s'agit d'un critère important, il n'est pas le
seul.
Comment fonctionne donc PageRank ?
Selon Google:
PageRank permet de mesurer objectivement l'importance des pages Web. Ce classement est effectué grâce à la résolution d'une équation de plus de 500 millions de variables et de plus de 2
milliards de termes. Au lieu de compter les liens directs, PageRank interprète chaque lien de la Page A vers la Page B comme un vote pour la Page B par la Page A. PageRank évalue ensuite
l'importance des pages en fonction du nombre de votes qu'elles reçoivent.
En effet, PageRank permet d'évaluer chaque page en fonction des liens qui redirigent vers celle-ci afin de lui attribuer une note entre 0 et 10. Le vote d'une page A vers une page B aura d'autant
plus de poids que la page A possède déjà un PageRank élevé. Un nombre conséquent de liens ne suffira donc pas pour obtenir un PageRank important.
Les avantages d'un site possédant des pages avec un PageRank élevé sont un meilleur classement dans les résultats de recherche et une mise à jour plus fréquente par Google.
Par Coatanéa-Gouachet Bastien
0
-
Recommander
Le PageRank réel n'est connu que par Google. Il est cependant possible de s'en faire une idée.
Google propose un outil, la Google Toolbar, qui possède la fonctionnalité d'afficher le PageRank de la page visitée.
Il ne s'agit là que d'une approximation, en effet, et confirmé par un employé de Google, les informations données par cette barre sont obsolètes et ne correspondent donc pas au PageRank réel de la
page.
The PageRank that is displayed in the Google Toolbar is for entertainment purposes only. Due to repeated attempts by hackers to access this data, Google updates the PageRank data very infrequently
because is it not secure. On average, the PR that is displayed in the Google Toolbar is several months old.
If the toolbar is showing a PR of zero, this is because the user is visiting a new URL that hasn’t been updated in the last update. The PR that is displayed by the Google Toolbar is not the same PR
that is used to rank the webpage results so there is no need to be concerned if your PR is displayed as zero. If a site is showing up in the search results, it doesn’t not have a real PR of zero,
the Toolbar is just out of date.
(source)
Il existe également une autre indication sur le PageRank dans l'annuaire de Google comme expliqué
ici. Il existerai ainsi 3
PageRank différents, le vrai utilisé dans l'algorithme de Google n'étant malheureusement pas connu.
Par Coatanéa-Gouachet Bastien
0
-
Recommander
Un PageRank élevé permet d'être bien positionné dans le classement des résultats d'une recherche. Il est donc important de l'améliorer. Cette valeur suit une échelle logarithmique, il devient donc
de plus en plus difficile de la faire progresser donc nous pouvons le voir sur cette représentation:
Nous rappellons donc que chaque lien apporte un vote vers la page de destination. Ainsi en optimisant les liens internes d'un site en les faisant pointer vers l'index, il est possible de restituer
une partie du PageRank reçu par chaque page et donc améliorer celle de son index.
Et bien sûr de multiplier les liens externes pointant vers ses propres pages, un lien provenant d'une page possédant déjà un bon PageRank étant beaucoup plus intéressant bien entendu.
Par Coatanéa-Gouachet Bastien
0
-
Recommander
Le Googlebot est un robot d'indexation utilisé par Google qui , en réalité ,est sous forme de programme
informatique qui parcourt le web exactement comme un internaute en suivant les liens sauvegardés sur son disque dur .
Pour donner un classement pertinent des pages web, Google ne se contente pas de leurs adresses URL , il a besoin de lire leur
contenu en se basant sur des critères internes comme ( le titre des pages , contenu textuel , densité emplacement et distance entre les mots clés ) ainsi que des critères extenes
comme PageRank .
Il existe deux types de robot:
le Full Crawl : est le robot qui effectue l'indexation profonde en visitant la plupart des sites en
entier mensuellement.
le Fresh Crawl: esl l'opposé du Full Crawl , il indexe les pages récentes le plus rapidement possible , une fois visitée par ce
robot , la page est indexée et visible sur Google .
Depuis 2003, Google a pu réaliser un programme d'indexation developpé en créant le robot Crawler mixte qui effectue les deux types d'indexation afin de mettre à jour sa
base de données et la rendre plus actuelle que celle de ses concurrents.
Par Talea Amal
0
-
Recommander
La position d'une page Web dans la séquence
de recherche d'un mot clé peut changer d'une recherche à une autre selon une periodicité temporelle qui s'appelle la 'googledance' et qui est de quelques jours.En effet , google
procède durant cette période , gràce à des algorithemes dédiés, au re-calcul des pagerank des pages web , qui sont référencées dans sa base de données, et dont le nombre varie aussi en fonction
de l'evolution des sites.
La position des pages web dans l'ordre d'affichagedes résultats de la
recherche correspondant au meme mot clé peut monter ou descendre selon leur pagerank au moment de la recherche (d'où l'appelation de danse).Par ailleurs, la variation de la
position d'apparition d'une page dépend aussi de la position géographique du demandeur qui selon sa position recoit les résultats de recherche à partir des ordinateurs qui sont
les plus proches et les moins chargés.Ces ordinateurs ne sont pas mis à jour simultanément .En effet , il y'a une période de propagation des mises à jours qui peut aller
jusqu'à une semaine .Ainsi , le rang d'une page dépend de la position géographique de l'internaute demandeur de l'information et de l'ordinateur qui fournit cette
information.
Le re-calcul des positions dans l'index prend en considération la popularité des sites qui se bas sur le nombre de page qui font référence à la page
considérée (avec un lien par exemple ) ou qui proposent des votes pour celle-ci.
Par Talea Amal
0
-
Recommander
Le TrustRank est le nom d'un algorithme élaboré à l'initiative de deux chercheurs de l'université de Stanford et d'une personne de Yahoo.
Il a été déposé par Google en 2005, dans le but de combattre les fraudes aux moteurs de recherches. Il s'agit, en effet, d'un nouveau critère permettant l'évaluation du degré de pertinence d'ne
page web pour lui affecter par la suite un indice de confiance qui permettrait de la classer dans la toile ( la note 0 correspond à du spam tandis que 10 correspond à une page de confiance).
Le TrustRank est calculé en tenant compte de plusieurs critères parmi lesquels on cite :
- Le nombre de pages d'un site web
- L'ancienneté d'une page web
- Les mises à jour régulières
1. Certicat SSL destiné aux sites de commerce électronique qui doivent avoir un TrustRank élevé.
2. Certification "Hacker Safe" (même principe que le certificat SSL) .
3. Plus le nom de domaine est connu des moteurs de recherche, plus sa valeur de confiance augmente. (Ceci dépend de l'ancienneté du site).
4. Une identification, adresse et contact, claire et facile à trouver.
5. Respect des règles de confidentialité.
6. Plus le nombre de liens provenant de sites ayant un bon TrustRank est élevé, meilleur sera celui du site pointé.
Ainsi, en complément à la notion de PageRanking, qui sert à mesurer l'importance des pages web en fonction de leur taux de popularité, le TrustRanking évalue le degré de confiance accordée au
contenu de ces pages, afin de garantir des échanges fiables d'informations .
Par Talea Amal
0
-
Recommander