Pour reprendre les sujets des posts précédents : le multimédia autrefois utilisé pour agrémenter le site, est appelé à remplir d’autres fonctions comme le référencement et le marketing viral.
Début 2010, l’industrie de la recherche sur internet a connu des changements majeurs dont notamment :
Généralisation de la recherche universelle à tous les moteurs
Perte de trafic des moteurs vers les réseaux sociaux et notamment Facebook et Youtube.
Nouvelle notion de recherche en temps réel (Google Caféine)
Utilisation de la sémantique et RDFa dans Google, Bing et Yahoo
Incorporation de la recherche personnalisée.
L’utilisation de la recherche universelle gagne du terrain et les internautes n’hésitent plus à aller faire leurs recherches sur les sites dédiés :
Les vidéos promotionnelles montrent les produits dans leur contexte et permettent aux consommateurs de les découvrir et déclencher les achats.
La vidéo promotionnelle
À l’ère du multimédia et du Web 2.0, il devient nécessaire d’exposer ses produits ailleurs que sur le site de commerce électronique. Mais au-delà de simples annonces listées ou citation de produits, il est très intéressant de concevoir des vidéos promotionnelles et de les diffuser à un grand public. La vidéo est un canal marketing formidable de par les possibilités d’expression très larges qu’il permet : indexation des produits, des services et des personnes qui font partie intégrante d’une entreprise….
Dans son étude de 2008, Comscore révélait que 38% des pages de résultats naturels de Google incluaient un résultat dédié à la vidéo . Ces résultats proviennent généralement des sites de partage tels que Youtube, Dailymotion, Vimeo… etc. Cette même étude montrait que Youtube s’accaparait 44 pour cent des parts du marché au Canada, 38 pour cent en Allemagne et 34 pour cent aux États-Unis. La plus faible proportion en France est notamment due à la bonne résistance du site de vidéos local : Dailymotion avec 15,5 pour cent des vidéos regardées dans l’hexagone. Globalement, on constate une domination de Youtube qui appartient à Google, certainement grâce à la notoriété de ce dernier dans l’industrie de la recherche.
De plus, quand la vidéo est bien réalisée, elle est partagée par un grand nombre d’utilisateurs qui vont donc la publier sur les murs de leurs réseaux sociaux, la commenter …etc. L’objectif est donc double : accroître sa visibilité auprès des moteurs de recherche mais aussi auprès de la « Communauté web » afin de profiter, au maximum, de l’effet démultiplicateur offert par le marketing viral.
Référencement de vidéos promotionnelles
Bien que Youtube surclasse ses concurrents comme on a vu ci-dessus, il faut publier la vidéo sur autant de plateformes que possible. On peut donc considérer : Google Video, Yahoo! Video, Daily Motion, MySpaceTV, MetaCafe, Revver, Veoh, Blinkx, Break.
Il est primordial de déterminer les mots clés qui vont être tapés pour la recherche par les clients. Il faut identifier ces mots clés potentiels et les mettre dans le titre de la Vidéo ainsi que dans le nom. La plupart des sites de partage vidéo permettent de saisir des tags vidéo avec des mots-clés et une courte description. Il faut en tirer le maximum en insistant sur les termes de recherche identifiés. Sur le site, il faut optimiser le texte autour de la vidéo en relation avec son contenu.
Dans les pages de résultats de recherche, l’internaute voit une vignette. Il est important que celle-ci présente bien la vidéo en prenant bien soin de choisir un moment qui met en valeur le contenu pour inciter le visiteur à regarder.
Sur les sites de partage, il ne faut pas omettre de mettre l’URL du site, en plus de la description de la vidéo. Ceci améliore sa position dans la recherche et les clients potentiels sauront rapidement à qui s’adresser pour plus d’informations. De plus, il faut mettre en filigrane la marque, ou le nom du site sur la vidéo, ce qui contribue à développer la notoriété de celui-ci.
Encore une fois, le Web 2.0 se veut participatif. Alors il faut répondre aux commentaires laissés par les internautes et promouvoir le produit en engageant des discussions autour du produit via la vidéo.
Dans le même esprit, il faut rafraîchir autant que possible le contenu. Les moteurs apprécient les chaînes qui bougent et les clients aussi. Il est recommandé de produire régulièrement des films pour garder l’intérêt des clients.
De la même manière que pour le lancement de produits, une nouvelle vidéo devrait faire l’objet d’une campagne marketing sur les réseaux sociaux, voir même une campagne de PPC (Pay-Per-Click).
Dans la série de la trilogie du référencement, nous allons voir l’évolution récente des moteurs et les changements induits par le Web sémantique.
Pour mettre en pratique nos connaissances en référencement naturel, comme vu dans le billet « référencement en 15 étapes », Google a conçu un jeu test de questions & réponses. Je vous invite également à prendre connaissance du Google SEO Report Card, qui fournit aux équipes de produits de Google des idées sur la façon dont ils peuvent améliorer les pages de leurs produits en utilisant des optimisations simples et acceptées.
Le Web Sémantique n’est pas une expression qui peut se suffire d’une simple définition de dictionnaire. C ‘est une notion complexe en plein développement.
Le Web 3.0, web sémantique :
Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C
Le Web sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C. En fait, Il est basé sur le RDF (Resource Description Framework).
Bien que le terme soit aujourd’hui remis à jour et annoncé comme étant le Web 3.0, le concept de web sémantique est présent depuis les origines du web. Le terme est utilisé depuis 1994 par Tim Berners Lee, l’inventeur du web.
« The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in coopération ».
La sémantique définit l’étude du langage et des signes linguistiques (mots, expressions, phrases) du point de vue du sens (du grec “semantikos”, “qui signifie”). Il s’agit de savoir comment un signe tel que “X” se charge de sens, comment il est utilisé par l’énonciateur, puis perçu et interprété par le co-énonciateur. L’objectif premier du balisage hypertextuel depuis le SGML, au HTML, puis au XHTML en passant par le XML a toujours été de structurer le contenu d’un document afin d’en marquer, d’en souligner ou d’en révéler le sens : un titre, un intertitre, un paragraphe, une citation ou un encart, une emphase mise sur un passage, une liste, un tableau de données, etc… (edu.ca.edu, 2004). Le (X)HTML définit de nombreuses balises. Chacune de ces balises est destinée à indiquer la nature du contenu qu’elle encadre. C’est ce qu’on appelle la sémantique XHTML.
flux de données dans le cas de l’utilisation d’une ontologie
RDF pour sa part est un modèle conceptuel permettant de décrire des choses, simplement et sans ambigüité. RDF est normalisé par le W3C. Ses applications visent initialement le web sémantique mais elles peuvent s’étendre plus largement à l’ingénierie des connaissances.
Sur la base de RDF se sont ensuite développés des vocabulaires spécifiques destinés à des applications particulières, comme FOAF destiné à décrire les relations entre personnes, puis des langages destinés à structurer ces vocabulaires, comme RDFS et le langage d’ontologie OWL.. L’ontologie constitue en soi un modèle de données représentatif d’un ensemble de concepts dans un domaine, ainsi que les relations entre ces concepts. Elle est employée pour raisonner à propos des objets du domaine concerné. Plusieurs prototypes existent visant à démontrer les possibilités offertes par les technologies du Web sémantique et les données mises à disposition selon les principes du Linked Data.
En 2008 le web sémantique sortait progressivement de l’ombre. Le premier changement est la médiatisation du web sémantique autour de quelques produits et acteurs de référence. On retrouve Twine, Freebase, Powerset, Hakia, OpenCalais, DBPedia le projet DataPortability ou encore l’API «Google Social Graph». Autre évolution majeure : les différentes briques technologiques du web sémantique arrivent à maturité. Équivalent des HTML et HTTP des débuts, les RDFs, SPARQL et autres OWL, trouvent des terrains d’application de plus en plus nombreux. L’URI restant la clé de voute du web. Le Web sémantique, de plus en plus appelé Web of data (Web de données) est passé de l’utopie à la réalité en étant inséré dans des outils de recherche d’informations tels que les moteurs web.
Google, s’est mis au web sémantique en structurant des données non structurées semble-t-il. Microsoft a pour sa part lancé son outil de recherche “Bing” qui consiste en une amélioration du moteur sémantique Powerset acquis en 2008. Yahoo a tenté une autre utilisation du web sémantique avec SearchMonkey. L’idée est d’utiliser des données structurées et typées (RFD, RDFa, RSS…) pour améliorer l’affichage des résultats de recherche.
Google propose de plus en plus des résultats personnalisés sur les SERPs. Les résultats sont réordonnés selon la langue, l’historique, la géolocalisation, les contacts réseaux de l’utilisateur… En 2009, Google a mis en ligne SearchWiki en expérimentation. Ce projet consiste à ajouter un système de vote aux SERPs pour que les utilisateurs eux-mêmes puissent collaborer afin d’améliorer la pertinence des résultats de recherches. Cela va changer de manière drastique les techniques de référencement et notre façon d’influer les moteurs.
Par ailleurs, les nouveaux usages, la fragmentation des audiences et le développement des médias sociaux accélèrent la transition vers le web sémantique qui doit faciliter l’accès à une information devenue trop pléthorique. Les outils de veille des médias sociaux actuels présentent un défaut d’analyse sémantique. L’analyse des opinions est pauvre et repose essentiellement sur une analyse des mots et non uneanalyse des sentiments. L’arrivée de nouveaux médias sociaux, comme Twine, basés sur le web sémantique favorisent le marketing social contrôlé.
La recherche en temps réel :
La recherche web basée sur les fichiers index des moteurs semble dépassée. Bing, le moteur de recherche de Microsoft, a été le premier à annoncer la mise en ligne d’un tel service. Yahoo annonçait se mettre également à la recherche en temps réel en Décembre 2009. Enfin, Google a présenté fin 2009 les améliorations de son moteur de recherche pour apporter des réponses «en temps réel», grâce à des résultats croisés avec les sites de socialisation Facebook, MySpace et Twitter.
Le web temps réel est clairement bien plus que Twitter et Facebook, même si ces deux stars de l’internet en sont les représentants les plus connus. Marshall Kirkpatrick a publié une étude à ce sujet qui fait le point sur l’état de l’art, dans le cadre du salon LeWeb à Paris et qui avait justement pour thème le web temps réel. Le web temps réel fait l’objet d’intérêt qu’il s’agisse d’un projet de startup, de community management ou d’un plan marketing.
Les changements sont considérés par Google et donc réindexés selon plusieurs critères. Il faut aussi considérer son positionnement personnalisé par usager (Google Caféine). Pour vérifier son positionnement de façon proactive, des outils permettent de prédire la position potentielle d’un site sur un terme (eCordia). Pour une indexation en temps réel, des actions supplémentaires sont recquises :
1. Mettre à jour les plans de site XML en en utilisant les champs de priorité.
2. Recourir aux fils RSS et les outils de ping (comme Pingomatic).
3. Ajouter “autodiscovery” dans le fichier robots.txt.
4. Utiliser un gestionnaire d’agents (Firefox ou seo-browser.com..) pour les diagnostiques, et Webmaster tool pour “voir le site comme Google le voit”.
5. Recourir aux outils de SEO Scoring (grader) et se concentrer sur méta title.
6. Les web analytiques en temps réel : etracker propose une soltution alternative à l’évaluation faite par les fichiers journaux.
Google de plus en plus sémantique
En Janvier 2010, le traitement des liens de sites comme Twitter ou Facebook a fait l’objet d’une mise au point de la part de Matt Cutts. Sur Facebook, beaucoup de profils ne sont pas publiques et donc Google ne peut l’explorer. Il ne peut pas assigner un pagerank aux liens sortants. Avec Twitter, la plupart des liens ne sont pas suivis de toute façon. Alors pourquoi cet intérêt pour ces réseaux ?
Le choix de Twitter comme partenaire de Google pour la recherche en temps réel n’est pas fortuit. Les interrelations qui font la force de Twitter (échanges entre les utilisateurs sur un sujet), Intéressent particulièrement Google pour une exploitation future dans ses résultats de recherches. En effet, Google travaille sur la recherche sémantique qui cherche justement à connecter les sujets et rendre la recherche plus pertinente. Le potentiel d’apprentissage machine à partir des micro-messages est énorme.
Une fois que la machine sera capable d’extraire du savoir d’une page web à notre place, une large partie du travail des ‘knowledge worker’ sera déjà réalisé par la machine, donnant aux humains la possibilité d’aller bien plus loin encore, le gain de productivité de tous ceux qui travaillent quotidiennement avec comme matière première de l’information seraient phénoménaux.
Ainsi, en mai 2009, Google venait d’annoncer qu’il utilisait les 2 principaux formats de marquage de données structurées (les microformats et le standard RDFa) pour afficher certains résultats de manière enrichie : note moyenne et nombre d’avis par les consommateurs, adresse d’une entreprise, etc. Un petit pas vers le web sémantique… . Google divulguait alors sur son blog une variété de techniques utilisées pour créer des extraits de code afin de donner aux utilisateurs des informations pertinentes sur ce qu’ils vont trouver lorsqu’ils cliquent pour visiter un site. Pour afficher les Rich Snippets (résumés textuels), Google cherche des formats de balisage (microformats, RDFa) dans les pages Web à afficher. Google annonce en outre que cette fonctionnalité sera déployée progressivement et qu’elle allait être étendue à d’autres sites. De même, Google expérimente des balises pour les entreprises et les données de localisation. Chaque entreprise peut avoir un certain nombre de propriétés différentes, telles que son nom, l’adresse, l’URL et le numéro de téléphone. Google propose d’étiqueter ces propriétés grâce au balisage par microformats ou RDFa. Le responsable développement du site web Best Buy témoigne qu’après utilisation des balises RDFa, le classement des pages s’est nettement amélioré et que le trafic a augmenté de 30%. Le RDFa trouve son application également dans l’indexation par Google des images, et aussi pour les vidéos .
Incidences sur le référencement
Contrairement aux pratiques usuelles qui consistent à optimiser le site avec une forte densité de mots clés, désormais il faut identifier les synonymes et alternatifs des mots pour enrichir le contenu, les métas et les liens du site web.
Le LSI (Latent Semantic Indexing) est un algorithme utilisé par les moteurs de recherche pour évaluer le contenu d’un site en fonction des mots clés utilisés. Google l’exploite dans son programme d’annonces contextuelles AdSense, pour afficher des annonces liées au contenu d’une page. Google annonce sur son blog que le recours à cette méthode est déterminant et que celle-ci va être de plus en plus utilisée sur ses serveurs. En référencement on parle alors de Keyword Clustering, une technique qui permet d’optimiser le site pour une requête assez concurrentielle au moyen d’une grappe de mots proches sémantiquement et rattachés à l’expression clé. Outre le contenu, les métas et les attributs, les liens textes doivent reprendre les termes du corpus.
L’utilisation par Google des RDFa a des conséquences sur les pratiques de référencement. Les Snippets (extraits) permettent d’afficher des informations liées aux produits recherchés et augmentent du même coup la visibilité de ceux-ci dans les moteurs de recherche Google et Yahoo. Au delà des résumés, les référenceurs des sites de commerce électronique, disposent à présent d’un nouvel outil, utilisé efficacement par Best Buy, et qui est totalement gratuit :
GoodRelations est un vocabulaire normalisé de produit, prix, et données de l’entreprise qui peut (1) soient intégrés dans des pages Web existantes statiques et dynamiques et que (2) peuvent être traitées par d’autres ordinateurs. Cela accroît la visibilité de vos produits et services dans la dernière génération de moteurs de recherche, systèmes de recommandation, et les applications utilisant d’autres nouvelles.
Un autre défi s’impose au référenceur avec l’avènement du web sémantique : le langage de balisage HTML migre actuellement vers le HTML5, et le CSS3 est en gestation. Le W3C doit finaliser ses recommandations courant 2010 et continue de réviser ses rapports. Toutefois, il est possible d’utiliser la sémantique HTML5 en production de sites pour en mesurer la portée.Le HTML5 devrait améliorer le référencement. Son code est simplifié et apporte aux conteneurs des pages une valeur sémantique. À retenir les balises article, aside et nav, en plus de l’attribut role, hérité du XHTML2 et qui permet d’ajouter de la sémantique aux éléments, notamment les ARIA. Il est intéressant de noter que Google est derrière cette initiative, ce qui rend le passage au HTML5 obligé.
Pour ma part j’attends de voir la conférence qui a lieu à Montréal et où Mark Pilgrim de Google fera le point sur l’usage du HTML5:
PHP Québec, Montréal-Python, Ruby Montréal, W3Qc, et OWASP Montréal sont fiers d’annoncer la première édition de la Conférence Confoo.ca. Du 10 au 12 mars 2010, les experts internationaux de Java, .Net, PHP, Python, Ruby et Web Marketing vous présenteront des solutions adaptées pour les développeurs, les chefs de projet, les responsables marketing et les gestionnaires. La conférence se déroulera dans le prestigieux Hilton Bonaventure, situé au centre-ville de Montréal.
Cependant, je mets déjà en pratique les attributs RDFa à utiliser en référencement que ce soit pour Google, le référencement multimédia et le référencement des flux de syndication au format RDFa. Je pense aussi sérieusement à migrer ce site de Wordpress vers Drupal qui lui béneficie des plus grandes attentions de la part de Google.
Dans cet article qui fait partie de la trilogie du référencement en commençant par l’historique, état de l’art et processus de référencement puis perspectives, nous allons dresser une liste des meilleures pratiques en référencement organique regroupées dans une check-list de 15 étapes. Il reprend en grande partie la news de référencement Montréal, mon site dédié aux techniques SEO.
Bien que les algorithmes des moteurs de recherches soient tenus secrets, que ce soit Google, Yahoo! ou Bing, ils se sont efforcés de créer des espaces d’informations dédiés aux Webmasters pour les informer des bonnes règles de développement de sites pour être pris en compte sur leur index.
Ainsi on peut découvrir sur Google Wemaster Tools , les consignes concernant la conception et le contenu, les consignes techniques et celles relatives à la qualité. De son côté Yahoo! Révèle dans sa page Using Site Explorer certaines astuces pour améliorer son classement sur Yahoo!. De la même manière, dans Bing Webmaster Center tools , on peut trouver les grandes lignes directrices permettant un bon référencement sue le moteur de BING de Microsoft.
Tous ces centres d’aide ne s’engagent aucunement à fournir un résultat, mais permettent d’avoir une vue générale des bonnes pratiques recommandées par le trio de tête pour le développement de sites web. Ceux-ci s’accordent sur toute la partie conception et réagissent différemment lors de la soumission.
Dans la majorité des cas, les référenceurs abordent la création de leurs sites et procèdent à l’optimisation et promotion sans disposer d’un guide par étapes. Nous allons dresser une liste de tâches à accomplir pour référencer un site en faisant l’inventaire des techniques existant à ce jour et connues du public.
Recherche de mots clés
Bien que les mots clés ne soient plus aussi importants que par le passé, ils définissent le sujet et la catégorie du site. Avant de lancer le développement, il est important d’identifier les termes utilisés dans la recherche web liés à la thématique du site. Cela équivaut à choisir son créneau sur le web en évitant toutefois une concurrence intense car pour tout nouveau site, il s’agit d’un challenge de prendre la place de ceux déjà connus par les moteurs. Mais aussi, il faut cibler des mots clés que les internautes sont susceptibles de saisir. En règle générale on se limite à trois expressions clés composées de trois mots. Pour faire ce choix, aujourd’hui on dispose d’une batterie de générateurs de mots clés dont, le plus connu et le plus ancien, Google Adwords. Mais il ne faut pas omettre de comparer ces résultats avec ceux d’outils indépendants tels que Keyword Discovery. Mais pour les sites d’e-commerce, il existe un outil très riche en informations et qui s’appelle Google Insights for Search. Ce dernier est formidable puisque les recherches peuvent être affinées pour les produits par région et par catégorie. Il ne faut pas négliger toutefois les mots clés sémantiquement proches en ayant recours éventuellement à Yooda Suggest.
Sémantique et pertinence du contenu
Dans cette section, la sémantique du code est un ensemble de pratiques permettant de rendre le code plus « lisible », en hiérarchisant le contenu mis en forme (Titre principal, sous-titre, texte du contenu, emphase d’un morceau de contenu…). Pour cela, on privilégie l’utilisation des schémas de conception en <DIV> en faisant appel aux CSS. Il faut également utiliser au mieux les balises HTML appropriées (<H1>… <H6>, <P>, <STRONG>, <EM>, …) afin de mettre le contenu en perspective du focus qu’on souhaite lui apporter. Les moteurs de recherche donneront un poids plus important aux mots insérés dans une balise <H1> que dans une balise <P>. De la même manière, les mots mis en évidence à l’aide des balises<strong> ou <em> auront plus d’importance.
Le nom de domaine peut aider grandement dans le référencement s’il est bien choisi. De même, les noms de fichiers, les textes de liens et les documents du site doivent reprendre les mots-clés qui caractérisent l’activité du site. On peut voir le site en mode texte avec les yeux d’un robot d’indexation grâce à Lynx.
Contenus alternatifs
Pour désigner un élément non-textuel (images, animations flash, JavaScript…), L’attribut ALT permet de donner une information aux robots concernant les éléments de contenu auxquels ils ne peuvent accéder. L’attribut Title doit être utilisé par exemple quand l’image sert de lien hypertexte vers une page définie. Il contient alors la description l’événement qui va avoir lieu.
Renseignent des balises métas
Les balises <Meta> (abréviation de Metadata) ne sont utilisées que par les moteurs de recherche. Depuis 1999, leur importance a considérablement diminué et seule la balise Title est véritablement importante pour les moteurs. Néanmoins, il convient de renseigner les balises Keywords, et Description également. D’autres balises existent de la manière plus ou moins farfelue et ne sont prises en comte par aucun des moteurs de recherche majeurs. Seule la balise Robots est en réalité utilisée pour les droits d’indexation.
Par ailleurs, les propriétés cataloguées par la Dublin Core Metadata Initiative (DCMI), définissent plusieurs dizaines de termes, mais 15 d’entre elles, plus fondamentales, ont été normalisées. Une étude réalisée concernant l’impact de celles-ci sur le référencement des pages Web, a démontrée que ces balises ne favorisent pas le référencement et que leurs incidences sont insignifiantes.
Toutefois, ces balises risquent d’être prises en compte dans un futur proche et l’utilisation des éléments Title Description Subject, est préconisée. Une conférence internationale est prévue pour cet effet en Octobre 2010.
Optimisation du code et scripts
Des technologies comme le FLASH et maintenant AJAX, utilisées en masse sur un site, sont de véritables obstacles au référencement de celui-ci. Les robots ne captent et analysent que le code HTML. Les scripts complexes peuvent rebuter les robots à approfondir leur recherche.
Les scripts et requêtes serveurs doivent être simplifiées et optimisées pour répondre dans le meilleur délai au client. De plus il faut gérer correctement la position des scripts dans les pages web.
Dans le cas des sites e-commerce, on utilise souvent les variables de sessions, pour gérer par exemple le panier d’achat. Il s’agit d’un facteur bloquant pour le référencement. Pour y remédier, ont peut désactiver les sessions quand le visiteur est un robot d’indexation.
Récriture des URLs
Il est important que toute URL soit propre, unique et signifiante, intelligible par l’utilisateur et caractérisant le plus possible le contenu de la page. Pour cela, il faut créer un fichier .htaccess qui va gérer certains paramètres du serveur tels que les redirections, les réécritures d’URL et les restrictions d’accès. Il faudra s’assurer auparavant de l’activation du mod_rewrite .
Par ailleurs, il faut spécifier aux moteurs les pages principales à indexer pour éviter le duplicate content qui est très pénalisant en référencement. Ceci est obtenu grâce au Tag « rel=”canonical” » inséré dans le lien.
Gestion des liens et pages introuvables :
Il faut éviter dans la mesure du possible les pages « not found ou 404 ». Même si ce problème est géré par le fichier .htaccess mentionné ci-dessus, il est préférable, si des URLs ont été modifiées mais que les pages sont restées les mêmes, d’utiliser le code « HTTP 301 ».
Les mots qui composent le lien pointant vers une page renseignent sur le contenu de celle-ci. Il est donc recommandé d’utiliser du texte explicite. En plus, l’attribut Title pour les liens semble avoir son importance.
Respect des normes w3c :
Le code HTML du site, ainsi que les feuilles de style CSS utilisées doivent respecter, dans la mesure du possible, les normes établies par le W3C. Pour cela, une validation en ligne est requise. Si le site est bien conçu, le contenu des pages liées sera alors analysé avec pertinence par les robots (crawler).
Optimisation de la vitesse du site
Une des innovations majeures, en terme de recherche web, est la prise en compte de la vitesse de téléchargement comme facteur déterminant pour le référencement. Ainsi, Matt cutts responsable de Google Webspam, l’a annoncé sur son blog , et a aussi déclaré à Webpronews que ceci prendrait effet dés 2010.
Google met à disposition des référenceurs un outil gratuit « Site speed », mais il est également possible d’utiliser des outils indépendants tes que « CSS Optimizer » et « JavaScript Optimizer » en plus des optimiseurs d’images.
Fichier robots.txt et envoi des sitemap
Avant de procéder à une soumission aux moteurs de recherche et annuaires, il est important de bien concevoir son fichier robots.txt. On indiquera donc aux différents moteurs les pages à indexer et celles à ne pas prendre en compte.
Il est aussi important de concevoir un plan de site, explicite au format Html qui reprend tous les liens du site avec une description brève des pages en relation directe avec leurs titres. Concernant les sitemaps , Google exige actuellement le sitemap au format XML, de même pour Bing, et Yahoo!. accepte xml ou txt.
Soumission du site aux moteurs et annuaires
En référencement naturel, il existe deux aspects : indexation et positionnement. Une bonne indexation favorise toutefois un bon référencement. La plupart des moteurs proposent une indexation gratuite par l’ajout de l’Url à leur index. Toutefois, l’indexation du site sur d’autres outils de recherche fera grimper son indice de popularité, ce qui aura des incidences positives sur son positionnement. Pour exemple, la présence du site sur DMOZ influence son PageRank, puisque c’est la base de données qui fournit les éléments pour l’annuaire Google.
Bien que des logiciels existent pour la soumission automatique du site aux moteurs et annuaires, il faut privilégier la qualité à la quantité en procédant à une soumission manuelle.
Il faut donc rechercher les annuaires les plus populaires dans l’activité attachée au site et les classer par ordre d’importance. Il faudra par la suite procéder à une soumission manuelle en faisant attention aux champs requis (Titre, description, produits..). Les annuaires listent les sites selon les Tags fournis.
Pour les moteurs, Google Yahoo! et Bing drainent 92% du trafic, à compléter par Ask et Aol qui sont importants également au Canada et spécialement ce dernier via son index e-commerces : AOL Canada Merchant Member Centre .
Développement de réseau de liens
Il s’agit de l’étape la plus importante et la plus ardue du référencement naturel. Le Netlinking est la stratégie de développement de liens (récupération de liens externes) qui a pour effet d’augmenter l’indice de popularité du site (Page Rank), son indice de confiance (Trust Rank) et de son domaine score (Bing).
a) Recherche de sites partenaires : On recherche des sites susceptibles de réaliser un échange de liens ou d’enregistrer le site dans leur annuaire. Ils doivent être de préférence choisis dans le domaine d’activité du site.
b) Évaluer le gain potentiel : le site partenaire envisagé a-t-il un bon trafic ? Il est recommandé qu’il soit reconnu et qu’il ne soit pas dangereux pour le référencement de son propre site.
c) Inscription : si le site partenaire peut amener un gain réel. Il faut faire un suivi pour vérifier la présence du lien réciproque et qu’il est maintenu actif. Un programme PHP peut réaliser cette tache.
Lancement d’une campagne de liens sponsorisés.
Mettre en place des actions de liens sponsorisés permet d’augmenter l’indice de popularité.
Parce que les deux sont intimement liés. Disposer en interne d’une expertise en référencement naturel permet d’être plus efficace en SEM. Par ailleurs, une campagne qui allie référencement naturel et payant obtient un taux de conversion supérieur de 22 % en moyenne.
Les campagnes SEM (SEO + SEA) présentent l’avantage de s’inscrire dans le cadre d’une stratégie PULL . Par opposition à une stratégie PUSH (dite d’incitation), elles mettent à la disposition des consommateurs les informations sur la marque, les offres et les produits.
Les techniques de référencement sur les outils de recherche et les liens publicitaires correspondent à ce mode de communication et permettent à un annonceur de se positionner sur un créneau spécifique. En effet, ces techniques font se rencontrer une demande (le mot clé tapé) et une offre (le sponsoring annonceur).
Dans le cadre d’un effort de référencement naturel, les liens sponsorisés doivent servir à améliorer son positionnement. Il convient donc de viser un public large et de diversifier ses canaux publicitaires. Ainsi, on pourra utiliser les réseaux Google Adwords, Overture de Yahoo! et Microsoft adCenter. On peut aussi étendre cette action à Miva (anciennement Espotting et FindWhat.com).
Il faut cependant noter que l’achat de mots clés dans une campagne SEA présente des risques puisque les principaux moteurs affichant les liens sponsorisés dans leurs SERPs sont proie aux fraudes qui sont de plus en plus difficiles à détecter comme le résume Ben Benedelman professeur à Harvard.
Quoi qu’il en soit, les deux premiers résultats organiques sont plus regardés par les internautes que le 1er lien sponsorisé.
Utilisation des outils web 2.0
Génération des RSS : Au début il y avait les flux RSS.
Dans le monde de l’Internet, l’année 2004 aura été incontestablement marquée par le développement fulgurant d’une nouvelle technologie connue sous le nom de « RSS ». Derrière ce terme quelque peu mystérieux voire magique, se profilent de nouvelles possibilités en matière de veille et de diffusion de l’information.
Nombre d’entreprises ont exploité le système d’agrégation de contenu comme support média en monétisant les espaces publicitaires (exemple : Trust feed). Cette technique particulièrement adaptée aux sites marchands disposant d’une grosse base de données de produits, permet de fournir une liste de produits de façon automatique aux moteurs.
La même année, deux sociétés américaines Moreover et Kanoodle proposaient aux annonceurs d’intégrer des liens publicitaires dans les listes de flux RSS, de plus en plus populaires. En rachetant Feedburner en 2007, alors leader de la publicité via fils RSS, Google a mis la main sur ce marché. La syndication de contenu au cœur du Web 2.0 et du social computing .
Mise en place de blog de marque : en plus de construire une relation saine et transparente avec les fans de la marque, et d’avoir la possibilité de prendre la parole de façon très réactive en cas d’attaque, il permet d’atteindre les objectifs principaux du référencement naturel, à savoir : visibilité et liens de popularité. Il doit être souvent mis à jour, proposer un contenu pertinent et neutre, pinger un répertoire de flux RSS de notoriété tel que technorati.
Social computing : soigner sa réputation en ligne
Le Social Computing est le fruit de l’intersection des sciences sociales et de l’informatique. Il est basé sur la création de contextes sociaux innovants grâce à l’utilisation des nouvelles technologies. On peut donc l’associer aux technologies du Web 2.0 : les blogs, les forums, les emails, la messagerie instantanée, les réseaux sociaux, les wikis, les sites de social bookmarking, etc. Mais on peut aussi directement le raccrocher aux communautés ainsi créées et à leur activité sur Internet : les applications de filtrage collaboratif, les recommandations, les notations, les systèmes d’enchères en ligne et bien sûr la réputation.
Via une activité de social computing, le but est d’augmenter sa visibilité et de générer des BackLinks, pour améliorer la popularité du site. Un forum de discussion est un support où il est très facile d’obtenir des backlinks . Une campagne SMO consiste à participer aux plateformes de micro blogging comme Twitter ou Facebook.
Mettre en place des outils d’analyse
Sans outils d’analyse, on ne peut connaître l’efficacité des différentes actions d’optimisation du site en référencement naturel. Les outils d’analyse fournissent une foule de données statistiques qui permettent de jauger la pertinence des choix effectués. Ces choix pourront être confirmés ou revus pour une correction (cycle de référencement). En complément des rapports d’analyse de référencement fournis par des logiciels spécialisés, les tableaux des web analytiques renseignent sur les flux drainés via les sources de trafic : les moteurs, accès directs, sites référents, E-mailing et abonnements RSS.
Avant de commencer à mesurer la portée du travail effectué, et même avant le travail de référencement, une veille concurrentielle s’impose. Ainsi, il est important d’avoir une idée de la vie des sites concurrents (leur fréquentation). Alexa offre des statistiques très intéressantes pour avoir des objectifs sans avoir d’historique web. D’autres sites spécialisés en publicités offrent des données pour les sites importants (Google Adplaner, Quantcast, Compete…). Pour des sites plus modestes, on peut utiliser Statbrain ou Trafficestimate.
15 étapes pour le référencement de votre site web
Les techniques de référencement vues précédemment ne garantissent pas le positionnement et encore moins le ciblage des clients désirés. En effet, nous n’avons pas abordé par exemple les informations liées à la langue, à l’emplacement du serveur ou le renseignement de Google local. Il faudra donc contrôler que les efforts de référencement donnent le résultat escompté par rapport à la clientèle cible pour commencer. Ceci est obtenu facilement par n’importe quel outil de web analytiques puisque les données de géo localisation sont présentes dans les fichiers logs du serveur.
En revanche, pour mesurer le retour sur investissent (ROI), chaque entreprise met en place des KPIs qui lui sont propres et utilise un programme de tracking qui donnera les tableaux de bord les plus proches de ceux souhaités. Ces tableaux peuvent être exportés vers Excel par exemple pour un traitement personnalisé ou dans un certains cas librement configurés selon les besoins.
L’installation d’outils d’analyse de trafic (audience) s’impose donc et le choix est large. Google Analytics est gratuit et se taille la part du lion avec presque 30% du marché. IndexTools, l’outil de Yahoo! est gratuit également et est plus pointu pour certaines actions précises. AT Internet offre Xiti gratuit et propose Analyser solution modulable haut de gamme payante. Enfin Omniture qui se veut le leader de marketing en ligne offre SiteCatalyste.
Le référencement naturel est entrain de vivre des mutations profondes et durables. Comment et pourquoi ? L’avènement du référencement en temps réel et le référencement social impliquent l’utilisation de nouveaux outils sans toutefois remettre les acquis en cause, mais une nouvelle stratégie de médias s’impose.
Dans une série de news concernant le référencement naturel et surtout son changement avec le web sémantique, nous allons commencer per dresser un état de l’art de l’optimisation pour les moteurs de recherche dite en anglais SEO (Search engine optimization). Cet article est relié à l’historique du référencement naturel et changements.
Comme le mentionne l’encyclopédie en ligne Wikipédia, nous nous devons de distinguer les termes référencement et positionnement :
- Un bon référencement internet, c’est avoir l’ensemble des pages accessibles de son site indexées dans les bases des moteurs de recherches.
- Un bon positionnement, c’est être dans les premières pages des moteurs de recherches lorsque la recherche porte sur son univers métier.
Aujourd’hui, le référencement incorpore ces deux notions et représente le corps de techniques visant à optimiser la visibilité d’un site dans les différents outils de recherche disponibles sur Internet. Le référencement recouvre toute une série d’actions qui vont de la simple définition de mots-clés à la création de contenu facilitant son indexation par les annuaires et moteurs. Être référencé parmi les premiers résultats de recherche est une étape fondamentale pour rentabiliser son site. Les moteurs de recherche restent la principale destination des internautes dans le monde avec 85% du temps passé en ligne et presque 70% des internautes consultent seulement la première page de résultats.
L’objectif du référencement est donc double : d’une part, inscrire le site internet dans les bases de données des outils de recherche; d’autre part, le positionner parmi les premières pages de résultats. On parle alors de SEO (Search Engine Optimization) pour l’optimisation et de SEM (Search Engine Marketing) pour désigner la branche de marketing internet ayant pour support les outils de recherche et comme cible les internautes qui les interrogent. Le SEM regroupe le SEA (Search Engine Advertising) et le SEO. Le SEA consiste en l’achat de liens dans les moteurs de recherche. Les définitions en français ont repris pour une grande partie les termes d’origine anglophone.
Search engine marketing consists of two complementary but very different campaigns search engine Optimization (SEO) and pay-per-click (PPC). SEO falls into online public relation because many consumers see search engines as editorial gatekeepers, displaying ‘the best’ matches for their searches.
Le référencement naturel est apparu avec internet. Il connaît actuellement de profondes mutations pour un web meilleur compris par l’Homme et la machine.
Webmasters et fournisseurs de contenu Internet ont commencé à faire du référencement dans le milieu des années 90, au démarrage de l’internet. Dans une discussion initiée par Danny Sullivan, un analyste respecté de l’industrie des moteurs de recherche, il apparaît que le terme exact de «l’optimisation de moteur de recherche» a commencé à être utilisé vers 1997. Même avant cela, les webmasters commençaient déjà à s’intéresser au référencement, en testant différents mots-clés et en voyant l’impact sur les résultats selon leurs densités .
Au moment de l’apparition des moteurs de recherche, les webmasters avaient simplement besoin de soumettre leurs adresses de pages (Urls) à ceux-ci, qui envoyaient leurs robots à travers les ‘spider’ pour indexer les sites. Dès que les propriétaires de sites web ont commencé à réaliser l’importance d’avoir leur site visible sur la première page des SERPs « Search Engine Results Pages », ils ont commencé à chercher des moyens de manipuler les algorithmes d’indexation des moteurs de recherche.
À l’époque, le résultat était principalement fondé sur la recherche à l’intérieur du site des informations pour établir le classement des différentes pages. En d’autres termes, ils se sont fiés à des informations qui ont été fournies par le webmaster, comme la densité des mots clés, balises META et les fichiers d’index. L’index est La brique de base d’un moteur de recherche. Tout ce que devait faire le Webmaster c’était de mettre les bons mots clés avec la densité suffisante et il pouvait voir son site en première page des résultats sur une requête donnée relativement vite. Les fournisseurs de contenu Web ont également commencé à manipuler les attributs du HTML pour obtenir de meilleurs classements de leurs clients. Cela se traduisit dans les SERPs qui commencèrent à devenir peu fiables, souvent pleines de pages spam dont les tags ne correspondent pas exactement à leur teneur réelle.
Les premiers hackers à s’intéresser aux algorithmes en vue de les craquer sont apparus autour de 97. En décodant l’algorithme de classement du moteur de recherche, chose assez facile à l’époque, les webmasters peu scrupuleux pouvaient donc positionner des sites dans le Top 10 des résultats aisément. Plusieurs prestataires de référencement connaissaient les 35 paramètres de l’algorithme d’Excite en 1997. Un des premiers moteurs marquants, Excite lancé en 1995 par étudiants de Stanford, fût racheté par @home.
L’arrivée de Google en 1998 allait révolutionner l’industrie de la recherche.
En donnant tant de crédit au site comme pour les facteurs de densité de mots clés, qui pouvaient être manipulés directement par les webmasters afin de déterminer leur classement, les moteurs de recherche étaient donc en grande difficulté. Pour rendre les résultats de recherche utiles pour les internautes, les moteurs de recherche ont dû trouver une autre méthode de classement qui reflète vraiment la valeur d’une page et sa pertinence dans les recherches.
Des algorithmes qui tiennent compte de facteurs hors-site plus complexes ont commencé à être développés. Les liens externes et l’âge du site deviennent importants voir déterminants pour le classement. Aussi, la découverte des algorithmes des moteurs devient une tâche plus ardue.
À ce stade, Alta Vista était en avance dans la course des moteurs et le reste des utilisateurs d’Internet avaient le choix entre Lycos, Yahoo, MSN et Infoseek. Malgré les algorithmes améliorés, les SEO black hat « de mauvaise intention » trouvaient toujours des façons de les manipuler, et les mouvements de yoyo des pages et des sites sont devenus légion.
Google, une entreprise fondée en 1998 par Larry Page et Sergey Brin va faire son entrée sur la scène. L’algorithme de Google, PageRank à l’époque non encore réputé pour reposer sur les graphes de Markov, pouvait déterminer le classement des sites en mesurant la quantité et la qualité de leurs liens entrants. Google Search avec ses résultats de recherche pertinents a immédiatement attiré un public fidèle. Les moteurs ont commencé à réaliser l’importance de suivre la nouvelle méthode de classement de Google.
Avec l’arrivée du nouveau millénaire, Google a consolidé sa place comme le moteur de référence, alors que des moteurs comme Infoseek font désormais partie de l’histoire d’internet. 2001 marqua l’abandon par les utilisateurs des autres moteurs de recherche comme Lycos, Excite, Altavista et Hotbot.
En 2004, les trois principaux moteurs de recherche qui sont encore dans le paysage internet (Google, MSN et Yahoo!), ont intégré le fait de défendre leurs algorithmes de classement contre toute divulgation. L’ère de l’utilisation abusive des mots clés par les fournisseurs de contenu est terminée. Les Webmasters doivent alors s’appuyer sur des moyens plus complexes pour promouvoir le contenu et doivent générer des liens entrants afin d’améliorer à long terme le classement de leurs sites. En 2005, Google commence à personnaliser les résultats de recherche, en tenant compte de l’historique utilisateur, lorsque celui-ci est connecté. En 2007, Google lance une campagne contre les liens payants qui altèrent son classement. En 2009, Google revoit l’utilisation des liens ‘nofollow’, dont les sites ont abusé dans le Web 2.0.
Aujourd’hui, en 2010 donc, le référencement est en grande majorité une conversation avec Google. Celui-ci délivre à plus de 70% des utilisateurs les résultats de recherche et est donc le moyen le plus sûr pour générer du trafic organique vers le site. Les campagnes SEO sont plus laborieuses et plus complexes qu’elles ne l’étaient il ya dix ans, pour le grand bonheur des utilisateurs qui obtiennent des résultats plus pertinents. Les webmasters et les fournisseurs de contenu doivent fournir une réelle valeur pour apparaître dans la tête des listes de résultats de recherche. Les réseaux sociaux, ayant dépassé les courriels en termes de temps passé sur internet, deviennent incontournables pour les moteurs de recherche comme Google qui a lancé son produit Social Search.
On parle alors du phénomène web 2.0. Du point de vue référencement, il faut tenir compte de l’influence des liens provenant des blogs, de sites comme Facebook et Twitter dans le classement de Google. Mais aussi, d’un point de vue Marketing, la promotion d’un site nouveau par exemple, peut combler un déficit de visibilité instantané sur les moteurs de recherche.
Les internautes se sont désormais largement approprié le fabuleux outil mis à leur disposition. Désormais, ils disposent de lieux virtuels qui leur permettent de communiquer entre eux. Cela n’est pas sans conséquence d’un point de vue de la stratégie marketing et notamment de la stratégie de communication.
Actuellement en maitrise de commerce électronique, j’ai choisi de faire un travail de synthèse en intelligence artificielle qui porte sur l’importance de la sémantique dans l’avenir de l’industrie de la recherche, des outils web analytiques et de l’indexation multimédia.
Bien entendu la part belle est rendue au référencement naturel, que je résume de manière historique et je fais le point sur les changements qui l’ont affecté dernièrement. Le marketing est vu alors dans un cadre de médias sociaux et de rich médias. Nous allons donc aborder la seconde partie d’Outils d’analyse en marketing sur les réseaux sociaux mais en plus complet.
Dans la nouvelle économie, le marketing est le grand gagnant. En effet, celui-ci jadis confondu par erreur avec l’activité commerciale, a gagné ses galons en tant que service stratégique au sein de toutes les entreprises, ou si elles n’ont pas les moyens, est confié à des experts et consultants externes qui ont du coup poussé le concept au point d’en faire une science.
Les sites de commerce électronique font appel à des stratégies de marketing qui ont pour but de les différencier de la concurrence, de drainer du trafic entrant et aussi de créer et fidéliser des communautés de consommateurs rattachées au site. Le terme ROI (Return On Investment) est devenu depuis très populaire parmi les marketeurs et webmasters. Il permet de quantifier le retour sur investissement de son site web ou une campagne de web marketing.
Dates clés de création outils web analytiques
Comme toute science, le marketing dispose alors des moyens de mesure des actions entreprises qui peuvent être corrigées en fonction des résultats et tendances ainsi dégagées. Dans une première étape et jusqu’à l’entrée en jeu de Google Analytics en 2005, les sites de commerce électronique n’étaient pas légion et les outils d’analyse de trafic en ligne se limitaient à une retranscription des fichiers logs de manière simplifiée. Depuis, et grâce au rachat d’un ancien spécialiste des statistiques pour sites web « Urchin », Google a donné une nouvelle dimension à l’analyse de trafic, si bien qu’aujourd’hui il y a des spécialistes de son produit Analytics. Comme Google Search s’accapare une part de 70% dans la recherche Web, Google Analytics se taille la part de lion dans l’analyse de trafic, comparé à WebSideStory, Omniture et Yahoo analytics.
Depuis l’avènement du web 2.0, beaucoup de choses ont changé, notamment le comportement de l’internaute qui est passé de simple spectateur à un cyber consomm’acteur. Les médias en ligne délivrent des messages personnalisés à des utilisateurs impliqués dans l’enrichissement de la toile via les blogs, forums, réseaux sociaux et autres sites de partage. Cette redistribution des rôles est à mettre au crédit des wikis et différentes Apps qui sont venues se greffer sur la plupart des sites, mais aussi une grande population de 14 à 24 ans appelée aussi génération C qui est tout à fait à l’aise avec l’usage d’internet et de ses outils. Cela affecte l’approche marketing qui commence à délaisser de plus en plus les médias online pour investir dans les médias sociaux, blogs professionnels et contenus rich médias. Les outils d’analyse jusque là qui répondaient aux besoins de suivi de trafic et analyse d’audience, se retrouvent caducs puisque les campagnes de marketing viral et autres buzz créés autour d’une marque ne sont pas mesurables en visites instantanées des clients. Ces actions ont pour effet d’assoir la notoriété de la marque ou de créer des discussions animées portant sur un sujet particulier. Alors, il faudrait connaître ce qui se dit, quand, dans quel endroit (site et localisation), par qui et pourquoi.
Nous parlons donc de nouveaux outils qui font de l’analyse sémantique dans les résultats de leurs requêtes auprès des médias sociaux avec une couverture mondiale et en temps réel. Pour le moment les web analytiques traitent avec les logs et les moteurs de recherche analysent des copies en cache. Bien sur il y a beaucoup d’outils d’analyse qui naissent chaque jour comme Radian6, Sysmos et Linkfluence en France, mais aucun d’eux ne fait l’unanimité. De même, les moteurs de recherche revoient leurs fonctionnement et veulent donner des résultats en temps réel dans les SERPs comme Google avec Caféine mais il va y passer graduellement data center l’un après l’autre. Ce qui nous amène à rechercher des indicateurs de performance consensuels.
Dupliquer le contenu de sites web est un phénomène fréquent sur le web et dans de nombreux cas peuvent affecter les résultats des Moteurs de recherche. Alors que les moteurs de recherche peuvent ne pas toujours pénaliser techniquement les webmasters pour un contenu en double, ceux-ci peuvent l’être encore de différentes manières.
Duplicate Content dans Google
La façon dont Google gère le contenu dupliqué a été discutée énormément encore récemment. Ceci est largement dû à la vidéo Google téléchargée de Grothaus Greg, dans laquelle il expose dans le détail, la façon dont Google gère une variété de différents éléments de la conversation contenue en double.
Joachim Kupke, Sr. Software Engineer de l’équipe d’indexation de Google a réitéré l’essentiel de ce que dit Grothaus. Il a également dit que Google a une tonne d’infrastructures pour l’élimination des doubles emplois contenu:
- Redirections
- La détection des tendances URL récurrentes (l’aptitude à «apprendre» de manière récurrente des formats d’URL pour trouver le contenu dupliqué)
- Le contenu réel
- Versions Plus récemment explorées
- Contenu antérieur
Kupke dit d’éviter les URL dynamiques lorsque cela est possible (bien que Google soit capable d’éliminer les contenus douteux). Si tout cela échoue, utilisez l’élément de liaison canonique. Kupke appelle cela un «couteau suisse» pour les questions de contenu en double.
Google dit que le tag canonique a été un immense succès. Il n’existait même pas il ya un an, et a connu une croissance exponentielle. Il a eu un impact énorme sur les décisions de canonisation de Google, et 2 fois sur 3, la balise canonique modifie effectivement la décision organiques dans Google.
Balise Link Canonical Google
Une nouvelle balise afin d’éviter des pénalités Google sur des pages dynamiques codées maladroitement : Link Rel=Canonical. Elle est adoptée par Google et les autres moteurs de recherche. Cette balise est importante : elle permet d’éviter le duplicate content du à un code informatique maladroit dans votre site internet : deux URL différentes pour un même contenu.
Google désindexe toutes pages en contenu dupliqué sauf une. Bien sur on ignore laquelle.
Cette nouvelle balise LINK signale l’URL canonique donc unique de la page où la dite balise est située, c’est à dire la seule URL à prendre en compte par les moteurs. Cette nouvelle balise représente un immense progrès dans la simplification du métier de référenceur ou de codeur de site web à référencer. Il suffit de gérer cette balise quelle que soit les ajouts de session et autres arguments dans l’URL générée à la volée. C’est nettement plus simple à gérer !
Google indique une erreur commune : désigner la page 404 comme canonique, ce qui est généralement causé par des liens inutiles. Donc, évitez de modifier rel = “canonique” désignations, et d’éviter les redirections permanentes désignant les URLS canoniques. De même, ne regroupez pas les directives dans le fichier robots.txt pour annoter le contenu en double. Elle rend plus difficile la détection des doublons, selon Kupke.
Kupke dit que tenir compte des URLS canoniques pour l’indexation prend du temps. «Soyez patient et nous utiliserons vos canoniques désignées”. Le nettoyage d’une partie existante de l’indice prend encore plus de temps, et donc le doublon peut persister pendant un certain temps, malgré rel = canonique, Kupke ajoute.
Au SMX, Google a annoncé que la prise en compte dans le domaine du rel = canonique est à venir au sein de cette année. Ainsi, par exemple, si le Chicago Tribune a publié un article sur le New York Times, et le rel = canonique pointe sur le Chicago Tribune, alors Google ne créditera que le Chicago Tribune avec le contenu.
Duplicate Content dans Bing
En ce qui concerne la façon dont Bing traite les contenus en double, l’intention prime. Si votre intention est de manipuler le moteur de recherche, vous serez pénalisé.
Sasi Parthasarathy, Directeur du Programme Bing conseille de regrouper toutes les versions d’une page sous une adresse URL. “le moins est le mieux, en termes de contenu en double.” Si possible, utilisez une seule URL par morceau de contenu.
Bing ne prend pas en compte l’élément de liaison canonique (comme un facteur de classement) pour le moment, mais il est à venir. Ils disent l’utiliser, mais ce n’est pas vraiment un facteur de classement dans Bing pour le moment. Bing dit qu’il ya eu une augmentation dans l’usage des tags canonique dans les 6 derniers mois, mais les questions d’adoption existent encore. Selon Parthasarathy, 30% du point tags canonique au même domaine (ce qui est bien), et 9% l’utilisent pour pointer vers d’autres domaines. Cela pourrait être une erreur ou il pourrait y avoir manipulation. Bing dit chercher d’autres facteurs pour essayer de procéder à l’élimination des doublons.
Bing dit que les tags canoniques ne sont pas des conseils ou directives. «Utilisez-les avec prudence», et non comme une alternative à la bonne conception Web.
En ce qui concerne www vs non-www, vous n’avez qu’à choisir un et vous y tenir de manière cohérente. Supprimer les noms de fichiers par défaut à la fin de vos URL. Bing dit aussi des redirections 301 sont votre meilleur ami pour réorienter, utilisez rel = “nofollow” sur les pages inutiles, et d’utiliser un fichier robots.txt pour garder le contenu que vous ne souhaitez pas voir indexé.
Duplicate Content dans Yahoo
Si tout se déroule selon les prévisions, vous allez avoir besoin de vous soucier de la gestion de contenu en double sur Yahoo si vous vous inquiétez de la façon dont Yahoo voit votre site, mais Cris Pierry, Sr. Director of Search Yahoo, a offert quelques conseils supplémentaires.
Pierry dit que les URL descriptives doivent être facilement lisibles, et ce n’est pas une bonne idée de changer d’URL chaque année. En outre, l’utilisation canoniques, d’éviter la casse et éviter les identifiants de session et les paramètres comme à l’accoutumée.
Pierry dit aussi d’utiliser Sitemaps, et les soumettre à Yahoo Site Explorer. Améliorer l’indexation par l’usage robots.txt proprement dite, et l’utilisation du site Explorer pour supprimer les URL que vous ne vous souhaitez pas voir Yahoo indexer. Enfin, fournissez des éléments à Yahoo Site Explorer et signalez comme spam un lien vers votre dans site Explorer.
Yahoo dit que les métadonnées et SearchMonkey améliorent la présentation.
La duplication de contenu ou contenu double traquée par les moteurs de recherche :
Il ya beaucoup de moyens et outils pour améliorer le classement de votre site dans résultats de recherche naturelle dans les moteurs, mais il faut faire faire le tri.
Certains webmasters utilisent certaines méthodes pour acquérir un Pagerank élevé dans les moteurs de recherche, même si celles-ci sont considérées comme abusives en ce sens qu’elles sont conçues pour tromper les moteurs de recherche. L’une de ces méthodes est effectivement le double emploi avec du contenu web ou la reproduction de contenu déjà existant sur le Web
Qu’appelle-t-on « Duplicate Content » ou contenu dédoublé ?
Dupliquer le contenu dans le référencement naturel est en fait n’importe quel contenu web qui est considéré comme similaire à un autre provenant d’un autre site web. Les moteurs de recherche ont réellement mis en œuvre de nouveaux filtres spécialement chargés de surveiller ce type de tentatives de tromperie pour améliorer le classement du site dans les pages de recherche des moteurs.
Beaucoup de gens pensent que, en créant plusieurs contenus dédoublés similaires de leurs pages Web, ils seront en mesure d’améliorer le classement de leur site dans les recherches, car ils seront en mesure d’obtenir plusieurs affichages de leur site dans les résultats. Actuellement les moteurs de recherche scrutent ce type de ruse, les sites utilisant du contenu en double peuvent finir par être bannis de l’index des moteurs de recherche au lieu d’améliorer leurs classements. (Black List)
Ce qui est considéré comme un contenu en double ?
Il y a une utilisation massive de contenus dupliqués par beaucoup de personnes, leurs utilisations diffèrent, mais tes sont conçues dans le même but, qui consiste à tromper les moteurs de recherche pour obtenir un meilleur classement dans les résultats naturels de recherche.
Une manière d’utiliser du contenu en double, c’est d’avoir des sites web très similaires ou identiques sur des pages web différentes (sous-domaines ou domaines) qui offrent essentiellement le même contenu. Cela peut être valable pour la page d’accueil comme pour les pages de contenu menant au site en question. Assurez-vous que vous ne recourez pas à cette option si vous ne voulez pas que votre site soit exposé au filtrage que font actuellement les moteurs lors de leur recherche de contenu en double.
Une autre méthode de création de contenu en double consiste à prendre simplement le contenu d’un autre site ou juste une page et la réorganiser pour la faire apparaître différente de sa forme initiale, même si elle est identique à celle-ci.
Encore plus grave, dans le cas de commerce électronique, des descriptions de produits à partir de nombreux sites de vente en ligne sont reprises à l’identique par d’autres. Dans d’autres sites web on retrouve simplement la copie de la désignation du produit du fabricant, elle même utilisée par d’autres acteurs web concurrents. En plus, même le fait de garder le nom du produit, le nom de l’artiste, producteur, écrivain ou le créateur peut être inclus dans la même page, cela fait une quantité importante de contenu dupliqué sur votre page. Bien que ces derniers champs soient plus difficiles à personnaliser, la page les contenant peut malgré tout être considérée comme du contenu dédoublé, ou spam.
La distribution d’articles copiés par d’autres sites autres que celui qui a publié l’article original peut aussi être considérée comme un contenu en double.
Bien que certains moteurs de recherche prennent en considération l’indication du site d’où l’article original a été extrait, certains n’ont pas cette fonction.
Comment fonctionnent les moteurs de recherche pour filtrer le contenu en double ?
Pour filtrer le contenu en double, les moteurs de recherche utilisent les mêmes moyens d’analyse et d’indexation pour le classement des pages des sites, et c’est grâce à l’utilisation de robots. Ces robots vont sur les différents sites internet et catalogues de ces sites pour lire et enregistrer les informations dans leurs bases de données. Une fois cela fait, ces robots analysent et comparent, ensuite ils vont comparer toutes les informations qu’ils ont prises d’un site à toutes les autres qu’elles ont déjà enregistrées pour déterminer si le contenu du site est pertinente à l’aide de certains algorithmes, et si elle peut être considérée comme un contenu en double ou du spam.
Comment éviter les contenus dupliqués ?
Bien que vous n’ayez aucune intention de tromper les moteurs de recherche pour améliorer le classement de votre page web, votre site peut être marqué comme ayant un contenu en double.
Une manière pour éviter cela consiste à vérifier vous-même s’il ya des contenus dupliqués de vos pages. Assurez-vous d’éviter trop de similitudes avec le contenu d’une autre page, votre contenu peut encore apparaître comme étant double pour certains filtres, même si la page n’est pas considérée comme spam.
Je vous suggère de suivre attentivement cette vidéo de Matt’s Grab le gourou du référencement chez Google qui nous parle de la duplication de contenu dans les descriptions d’articles dans le cadre du e-commece :
Il existe en effet différents moyens de faire connaître un site en passant par le plus simple mais aussi le plus coûteux : campagne adwords de Google ou liens publicitaires en général. Mais quelle que soit la méthode, elle est limitée dans le temps si elle n’est pas accompagnée d’un référencement propre et naturel de votre site web. Le référencement est la seule garantie de pourvoir rester visible partout, pour tout le monde et surtout de manière durable.
Qu’est-ce que le référencement ?
Le référencement de votre site Internet consiste à enregistrer vos pages dans les principaux outils de recherche du web (annuaires et moteurs) afin que les internautes qui cherchent vos produits ou services puissent facilement vous trouver. Il s’agit d’une définition simplifiée.
Techniquement, un référenceur doit connaître votre domaine d’activité, vos compétiteurs et surtout les moyens de les dépasser dans les résultats de recherche. Il ne s’agit pas d’une science exacte mais plutôt d’un ensemble de techniques expérimentées et recommandées par voie de tests contradictoires. Les moteurs ne divulguent pas leurs algorithmes !
Le référencement : efficace et indispensable !
Comment les internautes accèdent ils aux informations disponibles sur Internet ?
On recense aujourd’hui plus de 12 milliards de pages sur le web et ce chiffre croît de jour en jour.
•La majorité des internautes débutent leur session Internet par une recherche.
•Les outils de recherche constituent le principal moyen d’accès aux sites web.
•La plupart des utilisateurs passent plus de 70% de leur temps de connexion à rechercher de l’information !
Avantages du référencement :
•La plupart des internautes trouvent les sites qu’ils visitent via les moteurs de recherche.
•Le trafic généré par les moteurs de recherche est très ciblé.
•Le référencement propose un rapport qualité-prix très intéressant par rapport aux autres stratégies marketing..
Inscription sur les Annuaires :
•Il existe autant d’annuaires que de secteurs d’activité
•Les annuaires sélectionnent en amont les sites en rapport avec le thème choisi.
•Le client qui vous trouve sur un annuaire professionnel vous accordera plus de crédibilité.
Je dois avouer que là en effet, je ne fais que survoler le métier de référencement internet. Il s’agit d’un travail minutieux et méthodique qui obéit à certaines règles pour éviter à votre site d’être banni des résultats des moteurs de recherche. Pour le référencement de votre site, recourez plutôt aux services d’un référenceur chevronné ayant déjà fait ses preuves sur des secteurs et mots clés à grand taux de compétition. Plus vous serez sur un domaine concurrentiel, plus vous aurez besoin de professionnels voir de propriétaires de réseaux pour assurer à votre site une visibilité au milieu des pages de résultats dont le nombre ne cesse de grandir.