article banner
Paroles d’expert

Web Crawling et RGPD

Bercy va pouvoir collecter en masse les données des particuliers sur internet

Le 13 novembre dernier dans le cadre de la loi de finances, l’Assemblée Nationale a autorisé les services du ministère de l’économie à collecter et exploiter les données des citoyens de manière automatisée pour détecter des cas de fraude ou d’activités illicites. Le texte n’est certes pas définitif, mais les débats et les avis de la CNIL et du Conseil d’Etat qui ont été produits peuvent aussi guider les entreprises qui procèdent à du web crawling ou du web scraping.

Qu’est-ce que le web crawling et le web scraping ?

Sans rentrer dans les détails techniques, il s’agit d’outils automatisés qui explorent les contenus d’un ou plusieurs sites web afin de les indexer (crawling) ou de les télécharger dans une base de données (scraping).

Ces outils regardent tous les contenus des sites visés sans distinction. Ils sont donc susceptibles de collecter des données personnelles, voir des données sensibles. Il est donc primordial de se poser la question du RGPD avant d’utiliser un tel outil.

Voici les questions à se poser avant de se lancer dans le web crawling.

Pourquoi ai-je besoin de procéder à du web crawling ?

Le web crawling peut être utilisée pour de nombreuses raisons : recherche de prospects, meilleure connaissance des clients, veille informationnelle, connaissance du marché, etc.

Définir le but de votre web crawling, c’est-à-dire la finalité de votre traitement permettra de déterminer au mieux la base légale de la collecte de données (exécution d’un contrat, intérêt légitime, etc.) ainsi que les mesures à prendre pour s’assurer de la licéité du traitement.

Pourrais-je utiliser une méthode autre que le web crawling pour atteindre mon but ?

Si la réponse est oui, il est alors conseillé de privilégier cette méthode alternative. Le web crawling est une collecte massive de données. Or le RGPD impose le principe de proportionnalité de la collecte par rapport au but recherché.

Si vous recherchez des informations sur quelques dizaines de clients, il n’est peut-être pas nécessaire de surveiller l’ensemble du web pour cela…..

Quelles mesures dois-je mettre en place pour sécuriser mon traitement de données ?

Outre les mesures de sécurité physiques et logiques classiques, le web crawling va nécessiter plusieurs mesures organisationnelles et techniques.

En premier lieu, il va falloir respecter le principe de minimisation de la collecte. Il n’est certainement pas nécessaire de scanner l’ensemble du web pour obtenir les données que vous recherchez. Il est donc conseillé de déterminer les sites ou les pages web pertinents pour vous et de n’indexer que ceux-là.

Il peut également être nécessaire de configurer votre outil de web crawling pour qu’il exclue de son indexation certaines données en fonction de mots clefs. Bannissez les mots comme NIR, handicap, religion, etc. pour éviter de collecter des données sensibles. Il est également conseillé de vérifier a posteriori que des données sensibles ne se sont pas glissés entre les mailles du filet.

Enfin, s’il n’est pas nécessaire pour vous de conserver les données personnelles collectées, il peut être opportun de mettre en place une pseudonymisation ou une anonymisation des données.

Dois-je informer les personnes concernées du traitement de leurs données ?

La réponse est en principe oui. L’article 14 du RGPD impose d’informer les personnes concernées, même quand les données ne sont pas collectées directement auprès d’eux.

Il existe cependant des exceptions à cette obligation. Il n’est pas nécessaire d’informer les personnes concernées du traitement si cela nécessiterait un effort disproportionné. Si tel est le cas, une simple information générale présente sur votre site web suffit. Déterminer si l’effort pour informer les personnes serait disproportionné nécessite de mettre en balance l’effort à fournir pour informer avec les conséquences pour la personne concernée si elle n’est pas informée.

Par exemple si vous indexez 600 annonces de marchés publics par semaine, vous n’allez pas informer systématiquement les responsables de ces annonces quand leur nom est mentionné. En revanche, si un chasseur de tête utilise un robot pour détecter puis contacter des candidats potentiels sur LinkedIn, il devra fournir au premier échange toutes les informations prévues à l’article 14 du RGPD.

Enfin, il est bon de rappeler que la personne concernée par ce traitement peut exercer l’ensemble de ses droits issus du RGPD : accès, rectification, effacement, opposition, limitation, portabilité.

En tout état de cause, nous recommandons que cette pratique fasse l’objet d’un PIA

Associé
Nicolas Gasnier-Duparc Rencontrez Nicolas