Web scraping

Le web scraping est une méthode de référencement Black hat qui consiste à extraire le contenu d’un site web dans sa totalité et à créer une copie conforme de ce site sur une autre URL, via un programme spécifique.

Cette nouvelle URL peut être placée sur un site web dont l’optimisation est parfaite pour le SEO. Il ne reste donc plus au référenceur qu’à piller le contenu d’un site existant pour se positionner en tête des moteurs de recherche, y compris sur les mots-clés occupés autrefois par le site pillé.

Le trafic va également être détourné, puisque les visiteurs trouveront plus facilement le site scrappé que l’original.

Certains visiteurs ne remarqueront même pas qu’il ne s’agit pas de la même URL puisque les scripts de web scraping peuvent reprendre le thème du site original, afin d’en produire une copie visuelle faisant parfaitement illusion. Mis à part l’URL, rien ne permet à un visiteur de différencier les deux sites.

Dans un deuxième temps, de nouveaux contenus vont venir s’ajouter aux contenus volés, et les textes volés vont eux-mêmes être traités via des logiciels de content spinning afin d’éviter la pénalisation pour duplicate content.

Le but de cette manœuvre est de créer rapidement du contenu sur un site web afin de se positionner sur les moteurs de recherche, y compris sur les positions qu’occupait jusqu’alors le site web scrappé.

Le web scraping s’inscrit dans une stratégie de Negative SEO et est pénalisé par Google.

Une victime de web scraping peut utiliser le formulaire Google de spam report, mais la meilleure technique est encore de protéger techniquement son site de ce type de piratage.

Publié le 07/02/2018

Retourner aux définitions

Les définitions connexes

W3C Web invisible (Deep web) Web scraping Webspam Webzine White Hat Negative SEO Content spinning Black hat