Pourquoi nos données de santé sont-elles si convoitées ?


Les données médicales sont devenues de "l'or noir" pour les chercheurs et les cybercriminels. La journaliste Coralie Lemke estime que leur utilisation peut conduire à des avancées médicales, à condition qu'elles soient traitées correctement.

Vol massif

L'Assistance publique-Hôpitaux de Paris (AP-HP) a annoncé mercredi 15 septembre que les données personnelles de quelque 1,4 million de patients ont été volées lors d'une attaque informatique au cours de l'été.

En février dernier, 500 000 dossiers médicaux ont été piratés. De plus en plus d'établissements de santé sont la cible des cybercriminels. Pourquoi nos données de santé sont-elles si convoitées et qui s'y intéresse ? Devons-nous craindre qu'elles deviennent plus accessibles aux chercheurs et aux pirates informatiques ?

 

Ces questions ont été posées à Coralie Lemke, journaliste santé à Sciences et Avenir et auteur de Ma Santé, Mes données (Premier Parallèle).

Q : Lorsque nous parlons de "données sur la santé", qu'entendons-nous exactement par là ?

Coralie Lemke : En France, il existe une définition très précise des données de santé formulée par la Commission nationale de l'information et des libertés (CNIL). Il s'agit de toutes les informations recueillies dans le cadre d'un traitement, d'un test ou d'un examen, ainsi que de toutes les informations relatives à l'état physiologique et biomédical d'une personne.

"En langage clair, il s'agit d'informations sur l'état de santé passé, présent ou futur d'une personne."

Les informations recueillies par les objets en réseau (podomètres, montres et balances en réseau, applications de surveillance du sommeil, etc.) ne sont considérées comme des données de santé que lorsqu'elles sont croisées avec d'autres informations médicales. Ainsi, si je sais grâce à une appli que je dors trois heures par nuit, cela ne dit pas grand-chose sur ma santé. En revanche, si l'on sait également que j'ai une prescription d'antidépresseurs, on peut en déduire que je souffre d'une maladie mentale. C'est le cas si la CNIL considère que ces informations sont des données de santé au sens strict.

Le suivi de notre santé est de plus en plus assuré par des ordinateurs.

Comment la numérisation a-t-elle affecté les données sur la santé ?

Elle a grandement facilité les soins et le suivi des patients. Aujourd'hui, tout ce qui se passe à l'hôpital et au cabinet du médecin est stocké sur un ordinateur. Nos radiographies et nos IRM sont numérisées, et chaque fois que vous scannez votre carte de santé, vous générez des données de santé.

La numérisation a également fait progresser la recherche en permettant l'analyse de "piles de données de santé" [dossiers de plusieurs centaines ou milliers de patients]. Il était difficile d'accéder à ces informations lorsqu'elles étaient sur papier.

L'inconvénient est que ces données sont plus vulnérables. Elles sont devenues plus accessibles aux prestataires de soins de santé, mais aussi à toute une série de parties prenantes qui s'y intéressent.

Pourquoi ces données sur la santé sont-elles si recherchées aujourd'hui ?

Tout d'abord, il est important de rappeler qu'une information isolée n'a que peu d'intérêt pour beaucoup de personnes : connaître le groupe sanguin d'une personne est peu utile. En revanche, les données de santé agrégées sur plusieurs milliers ou millions d'individus sont considérées comme un véritable "or noir" car leur étude permet de faire avancer la recherche.

Ces informations intéressent trois types d'acteurs. Le premier est celui des entreprises pharmaceutiques, qui doivent passer par de nombreuses phases et essais cliniques pour développer des thérapies. Ce processus est très long et coûteux, mais va beaucoup plus vite quand on commence à analyser des lots de données. Pour obtenir ces données, les laboratoires font appel à des "courtiers en données" spécialisés dans la recherche de données. Ces courtiers ont pour mission de contacter les établissements de santé et de s'associer avec eux pour obtenir des données anonymes.

Le deuxième type d'acteurs est constitué par les Gafam (Google, Apple, Facebook, Amazon et Microsoft), qui s'intéressent à ce domaine pour des raisons commerciales. Ils offrent leur expertise technologique aux universités ou aux centres de recherche qui recherchent des algorithmes pour traiter ces données. Une étude a montré que l'intelligence artificielle développée par Google est plus précise que les radiologues pour détecter le cancer du sein.

Le dernier type d'acteurs est, bien sûr, les cybercriminels. Leur objectif est de pirater des établissements de santé pour récupérer des données de santé et ensuite les vendre sur le dark web ou extorquer des rançons. En octobre 2020, au moins 2 000 patients finlandais ont reçu un courriel menaçant de publier les détails de leur traitement psychologique sur Internet s'ils ne payaient pas plusieurs centaines d'euros, après que les données d'un réseau de centres de psychothérapie ont été piratées.

Nos données de santé sont donc devenues une cible de choix pour les cybercriminels ?

Oui, et ce phénomène a été exacerbé par la pandémie de Covid 19 : entre février et mars 2020, on a constaté une augmentation de 475% des attaques contre les hôpitaux en France, selon la société de cybersécurité Bitdefender. Certains cybercriminels avaient promis une trêve au début de la crise sanitaire, mais cela n'a pas duré longtemps : ils ont vite compris que les établissements de santé étaient encore plus vulnérables pendant cette période.

"Au total, 192 cyberattaques ont été menées contre des hôpitaux en France en 2020, contre 54 l'année précédente."

Les établissements de santé sont particulièrement ciblés par les cybercriminels car ils sont sensibles à l'informatique. Les équipements sont souvent obsolètes et la protection informatique n'est pas à jour. Ils sont donc des cibles faciles, et les conséquences peuvent être catastrophiques. En 2017, le ransomware WannaCry [un virus malveillant qui bloque l'accès aux fichiers en échange d'une rançon] a paralysé le service national de santé britannique (NHS). En conséquence, des millions de rendez-vous médicaux et d'opérations chirurgicales ont dû être annulés, ce qui a signifié la perte de la vie de certains patients.

Les données de santé représentent une énorme manne financière pour ces cybercriminels. EY estime que les 55 millions de dossiers médicaux de citoyens britanniques valent 9,6 milliards de livres sterling, soit plus de 11 milliards d'euros. La valeur d'un seul dossier peut atteindre 5 600 € s'il comprend le séquençage de l'ADN de cette personne. (Voir pièce jointe à la fin)

Pourquoi les données génétiques sont-elles particulièrement recherchées ?

Toutes les données de santé n'ont pas la même valeur : la génétique est le Saint Graal. Notre ADN est la clé de notre identité et contient des informations cruciales sur notre apparence, notre prédisposition à certaines maladies, etc. C'est pourquoi ces données sont si précieuses.

Les entreprises qui proposent au public des tests génétiques salivaires pour en savoir plus sur leur ascendance l'ont bien compris. La plupart des gens ne lisent pas les petits caractères qui précisent que ces données peuvent être revendues. En 2018, le groupe 23andme a signé un contrat de $300 millions avec le laboratoire GSK pour 5 millions de profils génétiques anonymisés. L'objectif de ce partenariat est de travailler sur le développement de traitements pour la maladie de Parkinson, mais cela soulève des questions de sécurité et de confidentialité.

Comment les données de santé sont-elles protégées en France ?

Ils sont soumis au Règlement général sur la protection des données (RGPD), qui régit le traitement des données personnelles en France et en Europe depuis 2018. Le consentement explicite de la personne concernée est requis pour la collecte et le traitement des données de santé. Le RGPD interdit également le transfert de données en dehors de l'Union européenne. Des protections qui n'existent pas dans d'autres pays, comme les États-Unis, et qui empêchent par exemple Google de collecter des données sur nos rendez-vous médicaux dans nos emails pour les revendre à des tiers.

Est-il possible de renforcer ces mesures de protection ?

En tant qu'individus, il n'y a pas grand-chose que nous puissions faire. On peut essayer de ne pas mettre trop d'informations personnelles en ligne, mais ce n'est qu'une goutte d'eau dans l'océan de données. Dans le monde d'aujourd'hui, c'est particulièrement compliqué. Par exemple, on estime que deux tiers des Français ont un compte sur Doctolib, ce qui est logique car c'est un outil pratique pour prendre des rendez-vous médicaux. Tant que nous ne sommes pas remboursés, nous sommes tenus de remplir notre carte vitale (et donc de fournir des données sur notre santé) à chaque fois que nous nous faisons soigner.

"Par conséquent, pour protéger nos données de santé, nous avons besoin d'un système de lois complètes et robustes régissant la collecte et l'utilisation de ces données, comme le RGPD."

Mais ces lois doivent être appliquées. Les plaintes relatives au RGPD sont toutes traitées par la CNIL irlandaise, qui régit les Gafam au niveau européen. Or, cet organisme reçoit tellement de plaintes que 99,93% d'entre elles ne sont pas traitées. C'est extrêmement décourageant. Nous pouvons encore améliorer ici la protection des données de santé.

Un autre exemple de la vigilance dont nous devons faire preuve sur ces questions est le Health Data Hub. Fin 2019, le gouvernement français a décidé de créer une immense bibliothèque de données de santé. L'idée est de rassembler toutes les données qui existent déjà - données hospitalières, données de l'assurance maladie - sur une seule plateforme pour permettre aux équipes de recherche d'y accéder et de trouver de nouvelles voies thérapeutiques ou de nouveaux traitements.

Lorsqu'il s'est agi de trouver un hébergeur agréé de données de santé répondant à certaines exigences technologiques et de sécurité pour la gestion de cette base de données, qui est l'une des plus importantes au monde, le choix s'est porté sur Microsoft. Le problème est qu'il s'agit d'une entreprise soumise à la loi américaine. Il existe notamment une loi aux États-Unis, le Cloud Act, qui permet de transférer les données des filiales étrangères d'une société dans le cadre d'une procédure judiciaire. En clair, Microsoft peut théoriquement récupérer les données de santé des citoyens français et les transférer outre-Atlantique, ce qui viole absolument le RGPD. La France est en train de remettre à niveau le projet, et il est probable qu'il soit attribué à un autre acteur d'ici fin 2022.

Devons-nous donc nous inquiéter de l'exploitation croissante de nos données de santé ?

Les données de santé sont assez paradoxales : elles sont très intimes et appartiennent à la sphère privée, mais lorsqu'elles sont rassemblées, elles peuvent servir le bien commun. La médecine est déjà en train d'être révolutionnée par l'utilisation des données de santé. La Food and Drug Administration (FDA) américaine a approuvé l'utilisation de l'intelligence artificielle pour diagnostiquer la rétinopathie diabétique, l'une des principales causes de cécité chez les adultes. Il suffit d'une photo pour la détecter, ce qui a été rendu possible par l'analyse des données de santé.

L'étude de ces données peut également nous aider à mieux comprendre pourquoi certains cancers réagissent à certains traitements et d'autres non, à faire avancer la recherche sur des maladies neurodégénératives encore mal comprises, comme la maladie d'Alzheimer, ou encore à trouver des traitements pour des maladies rares qui ne touchent que quelques personnes dans chaque pays. Sans la numérisation et l'étude de ces informations médicales, il serait impossible de rassembler des informations sur quelques milliers de patients dispersés dans le monde. L'utilisation des données de santé peut donc être très utile, à condition qu'elle soit correctement encadrée par la loi.

Pièce jointe

Réaliser la valeur des données sur les soins de santé