Le terme scraping désigne l’action de récupérer du contenu à partir d’un ou plusieurs sites web de manière automatisée à l’aide d’un programme informatique.

Pourquoi avoir recours au scraping ? 

Le scraping est massivement utilisé aujourd’hui, notamment par les start-up, pour agréger en un temps court une grande quantité de contenu. Cette activité réduit le temps nécessaire pour passer d’une coquille vide de site internet à un outil qui peut être référencé par les moteurs de recherche et commencer à générer du trafic.

En première approche cette pratique semble assez déloyale

En remplaçant “site web” par “vaisseau de commerce” et “programme informatique” par “canons” dans la définition introductive, on obtient une bonne définition de la flibusterie dans les Caraïbes du XVIIe siècle.

Il paraît en effet hautement déloyal qu’une entreprise ou un individu puisse récupérer, à titre gratuit et en quelques lignes de code, du contenu que d’autres ont sué sang et eau pour produire.

L’auteur du contenu scrapé n’a par ailleurs aucun pouvoir sur le contexte dans lequel sera utilisé son contenu.

Mais sur un plan juridique les choses ne sont pas aussi simples

Le sujet est même éminemment complexe. Voici une mise en situation pour s’en convaincre : un internaute ou une entreprise produit et publie sur internet un ensemble d’articles. Les articles sont scrapés par un tiers et re-publiés sans modification.

Dans ce cas précis le droit d’auteur entre en oeuvre en France et dans la grande majorité des pays du monde. Mais ce droit varie entre les pays. En France et en Europe, le droit sui generis stipule qu’un “investissement substantiel” doit être réalisé pour qu’une base de données (notamment de contenus) soit protégée par le droit d’auteur.

De ce fait, le scraping et la restitution d’une base de donnée scrapée sont en violation du code de propriété intellectuelle (Article L342-1) sous réserve que la transformation réalisée sur les données ne soit pas suffisamment substantielle pour justifier que la nouvelle base soit elle-même sui generis c’est à dire « de son propre genre » .

La jurisprudence européenne offre deux compléments intéressants :  

  1. Une compagnie aérienne (Ryanair) est scrapée par un comparateur de vols en ligne (Opodo) mais une partie seulement des informations de tarifs des billets est restituée aux clients finaux, rendant l’offre peu attrayante. Ryanair a attaqué Opodo en justice en 2010 à ce sujet dans plusieurs pays européen. En France, la compagnie aérienne a été  finalement déboutée en appel.
    Parmi les raisons qui ont conduit la cour d’appel à cette décision, la transformation réalisée sur les données a été jugée suffisante pour justifier d’un investissement substantiel de la part d’Opodo. Par ailleurs,  les conditions générales invoquées comme violées par Ryanair ne sont applicables que lors d’une transaction d’achat d’un billet d’avion. L’activité de scraping d’Opodo ne viole donc pas ces conditions et a été jugée légale par la cour.
  2. Un métamoteur de recherche néerlandais spécialisé dans la vente automobile (GasPedaal) est attaqué en 2013 aux Pays-Bas par un site de recueil d’annonces de vente de voiture (AutoTrack). Le sujet est ensuite porté devant Cour de justice de l’Union Européenne (CJUE).
    La cour a estimé que l’utilisation d’un méta-moteur de recherche constituait une simple «mise à disposition» du contenu de la base de données du plaignant et que par conséquent cela entraînait la réutilisation d’une partie substantielle du contenu de la base de données sans aucune action de modifications. La cour a ainsi statué en faveur du plaignant AutoTrack.

Ces deux exemples montrent qu’une analyse plus profonde et contextuelle est nécessaire avant de statuer sur l’illégalité du scraping.

Il convient néanmoins de noter que, dans les deux cas, c’est la publication des données scrapées qui pose problème. L’action de scraping n’est pas directement mise en cause.

Le processus de scraping en lui-même n’est pas répréhensible

En effet d’un point de vue pratique le scraping de données publiques consiste à se déplacer sur un site sans créer de compte et sans s’être enregistré et par conséquent sans avoir accepté les termes d’utilisation du site en question, notamment la non-reprise du contenu.

La jurisprudence américaine considérant que les conditions d’utilisation doivent être expressément acceptées par l’utilisateur (à l’inverse des pratiques de browse wrap basées sur l’acceptation tacite des conditions par les utilisateurs), le scraper n’enfreint donc pas des conditions qu’il n’a jamais acceptées et ne viole par conséquent pas la loi.

Par ailleurs le plus gros scraper du monde n’est autre que Google lui même :

  • Google Shopping qui propose des comparaisons de prix de vente entre différents site marchands tire également ses informations du scraping ;
  • Google actualités scrape le contenu des sites de News ;
  • Cette liste n’est pas exhaustive la plupart des services Google étant basés sur des actions de scraping (à l’exception du moteur de recherche lui-même basé sur le crawling, c’est à dire de l’aspiration de données sans structuration)

L’activité de scraping n’a donc rien d’illégal, en revanche la réutilisation des données scrapées, telles quelles ou après transformation mineure, présente des risques plus importants et doit faire l’objet d’une étude juridique fine axée sur le niveau de transformation des données collectées.