Jeudi 29 mai 2008


Lancé en 1998, Google est aujoud'hui le moteur de recherche le plus populaire et sans doute le plus puissant de l'Internet.
Ce projet a pour but d'étudier les raisons de son succès, son fonctionnement et ses limites...

Mais tout d'abord faisons en la présentation.

Google, anciennement baptisé BackRub, est un projet datant de 1996. A son origine 2 universitaires, Larry Page et Sergey Brin, travaillant sur un projet de moteur de recherche se basant sur les relations entre sites web.
Son nom vient du terme mathématique googol, qui désigne le chiffre 1 suivi de 100 zéros. Le succès de ce moteur de recherche vient de l'algorithme utilisé qui apporte une grande pertinance des résultats. Il repose principalement sur l'analyse du contenu des pages ainsi que de leur popularité.
Par Coatanéa-Gouachet Bastien
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Jeudi 5 juin 2008
       Les étudiants de premiere année de la filiere Informatique et  Réseaux   de l'Ensisa ( Ecole Nationale Superieure d'Ingenieurs  Sud Alsace ) doivent  réaliser un projet  .Ce dernier consiste à la création d'un blog accessible depuis internet  et  traitant  un  aspect  de  l'ingénierie  logicielle( un language , une technologie ou une methode  de programmation etc...).
      
       Chaque groupe de deux étudiants est libre de choisir le sujet qu'il developpera et il sera encardré par un enseignant .
       
       Le but de ce projet est de rendre chaque étudiant de la filiere Informatique et  Réseau  "visible"  sur internet  et de presenter  précisement cette filiere  aux futurs étudiants qui consulteront le site internet de l'école.

       Ce blog est dedié à   l'étude  de la technologie google et de son fonctionnement , ce travail est realisé par  Talea  Amal  et  Coatanéa-Gouachet Bastien et encardré par Mr Michele Hassenforder enseignant et chercheur à l'Ensisa.

Par Talea Amal
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Jeudi 5 juin 2008


Google est vraiment un succès et chaque année qui passe voit ses parts de marché augmenter face à ses principaux concurrents que sont Yahoo Search et Msn Search.

Aux Etats Unis Google atteint les 65% de part de marché loin devant Yahoo et le géant Microsoft. Et même les 90% en France.






















Seule la Chine fait exception avec comme leader un moteur de recherche chinois Baidu, possédant 75% des parts de trafic contre seulement 15% pour Google.
Par Coatanéa-Gouachet Bastien
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Jeudi 5 juin 2008
Google est aujourd'hui un moteur de recherche incontournable, voir même en situation de quasi monopole. Nous pouvons donc nous demander pourquoi il est si attrayant .

La première constatation que nous pouvons faire est son interface très claire et dépouillée. Elle regroupe différent services que propose l'entreprise Google mais sans jamais envahir. De plus la publicité se trouve être uniquement sous forme de lien.
Ce qui est un choix à l'opposé de ses principaux concurrents qui ont opté pour une interface du style Portail, regroupant beaucoup de services et d'informations.

Un second point concerne la très grande rapidité dans l'interrogation de sa base de donnée ainsi qu'à sa taille. En effet, à l'heure actuelle elle regroupe près de 8 milliards de page. Ce sont ainsi des milliers de robots qui travaillent en permanence afin de l'alimenter.

Mais son principal attrait vient de la pertinence de ses résultats.
Son algorithme est basé sur 2 systèmes:
_ une analyse précise du contenu, permettant de donner plus ou moins de crédit à une page en fonction, entre autre, de certaines balises utilisées, de la position du mot clé dans la page, les polices ou effets utilisés.
_ d'un classement de la page suivant sa popularité, appelé PageRank. Qui a été mis au point par les fondateurs de Google et qui continue à être amélioré aujourd'hui.
Par Coatanéa-Gouachet Bastien
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Jeudi 5 juin 2008
Ce terme désigne une technologie mise au point par les fondateurs de Google. Elle a pour but de déterminer l'intérêt de chaque page en fonction de sa popularité.
Il est donc évident que ce critère entre en compte dans le classement des sites lors d'une recherche. Même s'il s'agit d'un critère important, il n'est pas le seul.

Comment fonctionne donc PageRank ?

Selon
Google:


PageRank permet de mesurer objectivement l'importance des pages Web. Ce classement est effectué grâce à la résolution d'une équation de plus de 500 millions de variables et de plus de 2 milliards de termes. Au lieu de compter les liens directs, PageRank interprète chaque lien de la Page A vers la Page B comme un vote pour la Page B par la Page A. PageRank évalue ensuite l'importance des pages en fonction du nombre de votes qu'elles reçoivent.



En effet, PageRank permet d'évaluer chaque page en fonction des liens qui redirigent vers celle-ci afin de lui attribuer une note entre 0 et 10. Le vote d'une page A vers une page B aura d'autant plus de poids que la page A possède déjà un PageRank élevé. Un nombre conséquent de liens ne suffira donc pas pour obtenir un PageRank important.







Les avantages d'un site possédant des pages avec un PageRank élevé sont un meilleur classement dans les résultats de recherche et une mise à jour plus fréquente par Google.
Par Coatanéa-Gouachet Bastien
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Vendredi 6 juin 2008
Le PageRank réel n'est connu que par Google. Il est cependant possible de s'en faire une idée.
Google propose un outil, la Google Toolbar, qui possède la fonctionnalité d'afficher le PageRank de la page visitée.


Il ne s'agit là que d'une approximation, en effet, et confirmé par un employé de Google, les informations données par cette barre sont obsolètes et ne correspondent donc pas au PageRank réel de la page.


The PageRank that is displayed in the Google Toolbar is for entertainment purposes only. Due to repeated attempts by hackers to access this data, Google updates the PageRank data very infrequently because is it not secure. On average, the PR that is displayed in the Google Toolbar is several months old.

If the toolbar is showing a PR of zero, this is because the user is visiting a new URL that hasn’t been updated in the last update. The PR that is displayed by the Google Toolbar is not the same PR that is used to rank the webpage results so there is no need to be concerned if your PR is displayed as zero. If a site is showing up in the search results, it doesn’t not have a real PR of zero, the Toolbar is just out of date.

(source)

Il existe également une autre indication sur le PageRank dans l'annuaire de Google comme expliqué ici. Il existerai ainsi 3 PageRank différents, le vrai utilisé dans l'algorithme de Google n'étant malheureusement pas connu.

Par Coatanéa-Gouachet Bastien
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Vendredi 6 juin 2008
Un PageRank élevé permet d'être bien positionné dans le classement des résultats d'une recherche. Il est donc important de l'améliorer. Cette valeur suit une échelle logarithmique, il devient donc de plus en plus difficile de la faire progresser donc nous pouvons le voir sur cette représentation:



Nous rappellons donc que chaque lien apporte un vote vers la page de destination. Ainsi en optimisant les liens internes d'un site en les faisant pointer vers l'index, il est possible de restituer une partie du PageRank reçu par chaque page et donc améliorer celle de son index.

Et bien sûr de multiplier les liens externes pointant vers ses propres pages, un lien provenant d'une page possédant déjà un bon PageRank étant beaucoup plus intéressant bien entendu.

Par Coatanéa-Gouachet Bastien
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Vendredi 6 juin 2008

    Le  Googlebot est  un robot  d'indexation   utilisé par Google qui , en réalité ,est  sous forme de  programme  informatique qui  parcourt  le web exactement comme un internaute  en suivant les liens  sauvegardés  sur son disque dur .
 
    Pour  donner un  classement  pertinent des pages web, Google ne se contente pas de leurs adresses URL , il a besoin de  lire  leur contenu en se basant sur des critères internes comme ( le titre des pages , contenu textuel , densité emplacement et distance entre les mots clés ) ainsi que des critères extenes  comme PageRank .

   Il existe deux types de robot:       
   
        le Full Crawl    :  est le robot qui effectue  l'indexation  profonde en visitant la plupart des sites en entier  mensuellement.
    
        le Fresh Crawl:  esl l'opposé du Full Crawl , il  indexe  les pages récentes  le plus rapidement possible , une fois visitée par ce robot , la page est indexée et visible sur Google  .

   Depuis 2003, Google a pu réaliser un programme d'indexation developpé en créant le robot Crawler mixte qui effectue  les deux types d'indexation  afin de mettre à jour sa base de données et la rendre plus actuelle que celle de ses concurrents.

Par Talea Amal
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Lundi 9 juin 2008

                 La position d'une page Web dans la séquence de recherche d'un mot clé peut changer d'une recherche  à une autre selon une periodicité temporelle qui s'appelle la 'googledance' et qui est de quelques jours.En effet , google procède durant cette période , gràce à des algorithemes dédiés, au re-calcul des pagerank des pages web , qui sont référencées dans sa base de données, et dont le nombre varie aussi en fonction de l'evolution des sites.
        
           
                   La  position des pages web dans l'ordre d'affichagedes résultats de la recherche   correspondant au meme  mot clé peut monter ou descendre selon leur pagerank au moment de la recherche (d'où l'appelation de danse).Par ailleurs, la variation de la position d'apparition d'une page dépend aussi de la position géographique  du demandeur qui selon sa position recoit les résultats de recherche à partir  des ordinateurs qui sont les plus proches et les moins chargés.Ces ordinateurs ne sont pas mis à jour simultanément .En effet , il y'a  une  période de propagation des mises à jours qui peut aller jusqu'à une semaine .Ainsi , le rang d'une page dépend de la position géographique de l'internaute demandeur de l'information et de l'ordinateur qui fournit cette information.


       




                           


Le re-calcul des positions dans l'index prend en considération la popularité des sites qui se bas sur le nombre de page qui font référence à la page considérée (avec un lien par exemple ) ou qui proposent des votes pour celle-ci.



Par Talea Amal
Ecrire un commentaire - Voir les 0 commentaires - Recommander
Mercredi 11 juin 2008
Le TrustRank est le nom d'un algorithme élaboré à l'initiative de deux chercheurs de l'université de Stanford et d'une personne de Yahoo.
Il a été déposé par Google en 2005, dans le but de combattre les fraudes aux moteurs de recherches. Il s'agit, en effet, d'un nouveau critère permettant l'évaluation du degré de pertinence d'ne page web pour lui affecter par la suite un indice de confiance qui permettrait de la classer dans la toile ( la note 0 correspond à du spam tandis que 10 correspond à une page de confiance).

Le TrustRank est calculé en tenant compte de plusieurs critères parmi lesquels on cite :
  • Le nombre de pages d'un site web
  • L'ancienneté d'une page web
  • Les mises à jour régulières



1. Certicat SSL destiné aux sites de commerce électronique qui doivent avoir un TrustRank élevé.

2. Certification "Hacker Safe" (même principe que le certificat SSL) .

3. Plus le nom de domaine est connu des moteurs de recherche, plus sa valeur de confiance augmente. (Ceci dépend de l'ancienneté du site).

4. Une identification, adresse et contact, claire et facile à trouver.

5. Respect des règles de confidentialité.

6. Plus le nombre de liens provenant de sites ayant un bon TrustRank est élevé, meilleur sera celui du site pointé.




Ainsi, en complément à la notion de PageRanking, qui sert à mesurer l'importance des pages web en fonction de leur taux de  popularité, le TrustRanking évalue le degré de confiance accordée au contenu de ces pages, afin de garantir des échanges fiables d'informations .









Par Talea Amal
Ecrire un commentaire - Voir les 0 commentaires - Recommander
 
Créer un blog sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus