‘Data lake’: la ciència mèdica que emergeix dels algorismes

Els últims anys, la renovació dels models de gestió sanitària ha esdevingut una prioritat per a molts Estats. Per a fer-ho, s’ha apostat per la intel·ligència artificial com una de les eines clau que ajudarà a optimitzar l’atenció dels pacients i la prevenció de malalties. Però no es tracta d’un canvi sobtat del full de ruta. Amb l’augment de l’esperança de vida i els avanços de la ciència mèdica, s’han creat els anomenats data lakes o llacs de dades, uns repositoris centralitzats de dades en brut –sense estructurar ni classificar– que poden ser processats amb eines de Big Data. L’objectiu és facilitar el flux d’informació, adequant la manera de classificar variables clíniques i, en definitiva, millorar la capacitat de prevenir els problemes de salut, diagnosticar-los i tractar-los. Amb els Fons de Recuperació Europeus, Espanya afronta el repte de convertir el sistema sanitari en un ecosistema de coneixement integrat per a fer visibles els mecanismes més desconeguts de la salut i la malaltia.

Més enllà de les històries clíniques

L’automatització de multitud de processos mitjançant la intel·ligència artificial és una constant en l’actualitat. Els llacs de dades es presenten com una solució per a emmagatzemar quantitats d’informació enormes que no estan estructurades ni filtrades. Una vegada emmagatzemades totes aquestes dades, el Big Data (intel·ligència de dades) els donarà un propòsit concret quan es consulti.

“Avui dia, la quantitat d’informació mèdica que es genera és molt abundant. Molta d’aquesta informació procedeix d’hospitals –proves de radiologia, laboratoris, tractaments– i una altra, dels nivells assistencials d’Atenció Primària, com les urgències o les receptes electròniques. En medicina és important la contextualitat dels símptomes, per això el repte és en l’homogeneïtzació de tota aquesta informació”, explica Antonio Urda, traumatòleg i vicepresident d’Hospitals a Savana, companyia tecnològica especialitzada en llacs de dades sanitaris.

La captació i el magatzematge d’informació dona lloc a dos tipus de bases de dades: una primera, sense la informació personal dels pacients, però amb un gestor que sí que mantindria la capacitat d’identificar cada dada. I una segona completament anònima, és a dir, sense possibilitat d’identificar els pacients que generen aquestes dades.

Investigacions més ràpides

“Disposar d’una base de dades per a poder contactar amb cada pacient és molt útil en els casos d’alerta sanitària, per a identificar al mateix temps totes les persones que podrien estar afectades sense que calgui acudir a moltes fonts d’informació diferents”, apunta el doctor Urda, qui cita com a exemple la detecció de defectes en lots de marcapassos, implants o pròtesis.

També pot ajudar per a reclutar pacients per a assajos clínics. “Per exemple, si hi ha un estudi obert, es pot acudir a aquesta base de dades per a detectar tots els pacients que han esgotat les diferents línies de tractament oncològic i es podrien beneficiar d’aquesta nova línia de tractament”, afegeix Urde.

Un altre cas de com pot ajudar un llac de dades sanitari l’aporta Sergio Cinza, director de l’Agència d’Investigació de la Societat Espanyola de Metges d’Atenció Primària (SEMERGEN). “Sabem des de fa anys que els pacients amb psoriasi tenen més risc cardiovascular que altres malalts perquè hi ha un mecanisme inflamatori comú darrere de les dues patologies que s’ha estudiat molt poc”, explica. Per a intentar entendre aquesta relació, han posat en marxa l’estudi REPICA, que en l’Atenció Primària està reclutant 102 pacients amb psoriasi per analitzar factors de risc cardiovascular, tractaments, si tenen malaltia cardíaca o no i el seu pronòstic per a seguir-los durant cinc anys. “Disposar d’una plataforma de llacs de dades ens permetria estalviar aquests cinc anys d’estudi i augmentar el volum de participants a 2.000 per a aconseguir una potència estadística suficient per a identificar el tipus de pacient amb psoriasis que té un risc alt de desenvolupar una malaltia cardiovascular”, explica Sergio Cinza.

Per als experts, les conclusions de l’algorisme permeten anar més enllà de l’estadística clàssica; això suposa un avanç per als estudis sobre malalties minoritàries, la baixa prevalença de les quals i la dispersió dels pacients dificulten les prediccions i actuacions sobre l’evolució de les patologies.

Si les dades són anònimes

Comptar amb una base de dades completament anònima permetria un canvi de paradigma en els estudis d’investigació amb grans mostres de població. Així, es podrien utilitzar diferents variables de l’aprenentatge automàtic per a anticipar en el temps amb més precisió els factors de risc que determinen moltes malalties. També serviria per a detectar en temps real noves epidèmies infeccioses i per a entendre els processos de transmissió i millorar així la prevenció.

De pacients a persones

La investigació basada en llacs de dades significa un canvi de situació dels malalts crònics i permet nous tractaments i oportunitats. Per a Pedro Carrascal, membre del Comitè de Directors de la Plataforma d’Organitzacions de Pacients, “les dades són una oportunitat de fer visible el que és invisible. En malalties com l’esclerosi múltiple hi ha multitud de símptomes que no es veuen. Els llacs de dades i el maneig cada vegada més detallat de la informació permetria anar més enllà de les proves hospitalàries per a integrar dades que donen una visió on es tenen en compte la qualitat de vida o els aspectes socials o vitals i que posen el pacient al centre des de la seva condició de persona única i irrepetible”.

Però les associacions de pacients saben que la idea de compartir dades genera reticències entre els usuaris de sistemes sanitaris. “Des de les associacions podem impulsar que el pacient comparteixi les seves dades i participi activament en la creació de llacs de dades mitjançant l’educació sanitària perquè vegin la utilitat d’aquestes plataformes”, afegeix Pedro Carrascal. A més, aquestes organitzacions també s’encarregarien de defensar l’elaboració d’una normativa per a l’explotació de dades en salut sense menyscabar el dret a la privacitat.

La proposta espanyola

En aquest context, el Govern d’Espanya, mitjançant el Pla de Recuperació, Transformació i Resiliència té previst destinar 100 milions d’euros per a la creació del primer llac de dades mundial que reuneixi les dades sanitàries de tot un país. Un projecte per al qual els experts coincideixen a assenyalar a la història clínica electrònica, una eina amb la qual Espanya va ser pionera al món, com la fortalesa principal respecte de la majoria de països europeus, on les històries clíniques continuen registrant-se en paper.

Aquest projecte es basarà en el machine learning (eines d’aprenentatge automàtic), la subdisciplina dins de la intel·ligència artificial definida com la capacitat que tenen les màquines per a arribar a conclusions a partir de l’algorisme. En el cas del sistema sanitari espanyol, el machine learning permetrà processar les dades de les històries clíniques per a establir prediccions, com ara l’efecte d’un tractament en el perfil d’un pacient abans de subministrar-l’hi reduint les probabilitats d’errors i negligències, i també per a detectar factors de risc i emetre diagnòstics.

Per a processar tota la informació recollida, s’utilitzarà el processament del llenguatge natural (PNL), vàlid tant per a construir bases de dades a partir de documents mèdics, com per a detectar i eliminar automàticament informació d’identitat d’històries clíniques per a generar així conjunts de dades anònimes. En definitiva, un nou ecosistema format des de la integració del sistema sanitari amb els investigadors i els agents socials per al millor coneixement de la salut i la malaltia.

Altres experiències al món

El projecte espanyol és pioner, però la intel·ligència artificial ja s’utilitza, des de fa uns anys, en diferents projectes arreu del món. Els grans volums de dades que gestionen les institucions sanitàries dels països industrialitzats han inaugurat una tendència en el sector denominada Value-based Healthcare (l’atenció de la salut basada en el valor), un paradigma centrat en el valor que aporten al pacient els sistemes d’informació capaços d’intercanviar coneixement. Un dels projectes més rellevants és el que es va iniciar a la Xina el 2017 i que aglutina 280 milions de dades pertanyents a la National Scientific Data Sharing Platform for Population and Health (NSDSPPH, per les seves sigles en anglès) categoritzades en biomedicina, medicina bàsica, medicina clínica, salut pública, medicina tradicional xinesa, farmacologia, població i medicina reproductiva.

Per la seva banda, als EUA els llacs de dades impulsen en aquest moment multitud de projectes destinats a la medicina personalitzada. Un és el que s’ha dut a terme en un hospital d’Arizona, on un projecte basat en la intel·ligència artificial ha permès monitorar les lesions renals derivades de l’ús de certs medicaments i així desenvolupar un algorisme que permet dosificar aquests fàrmacs d’una altra manera per a evitar aquestes contraindicacions.

Al Regne Unit, d’altra banda, també hi ha projectes capdavanters en aquesta àrea, com l’anomenat DataLoch. Aquest projecte, desenvolupat a la zona d’Edimburg, es basa a intercanviar i creuar informació integrada en tres fonts: sanitat pública, sanitat privada i associacions de cures. Creat després de la pandèmia, té l’objectiu d’impulsar la investigació i la innovació mitjançant l’ús de dades.

La resposta europea: una base única

Tan important com un llac de dades sanitari és el seu desenvolupament dins d’un marc normatiu que garanteixi els drets de privacitat i la protecció de dades. Des de Brussel·les s’advoca per eliminar la compartimentació de dades sanitàries entre regions, eliminant les fronteres sanitàries. Una de les aspiracions que té és que un ciutadà pugui adquirir en qualsevol farmàcia europea un medicament pautat en qualsevol país membre, sense recórrer a cap procediment burocràtic; això ja és possible entre Finlàndia i Eslovènia. A aquest efecte, els Estats membres llançaven el 2018 la Xarxa Europea de Dades i Evidència de Salut (EDHEN) a fi de crear, al 2024, una xarxa federada de grans dades per a estandarditzar 100 milions de dades mèdiques europees, amb l’aplicació d’un model que assegura que totes les bases de dades tenen la mateixa forma d’estructurar-les i etiquetar-les amb la finalitat que els investigadors puguin enviar la mateixa pregunta de dades alhora. Per exemple: “Quantes persones amb diabetis de tipus 2, majors de 55 anys, que prenen cert tipus de medicaments han desenvolupat una complicació cardiovascular els últims 12 mesos?”.

Per a què es pot utilitzar?

Estudis observacionals basats en l’evidència de casos reals. Es pot aplicar a la investigació clínica de fàrmacs, de productes sanitaris o de protocols d’abordatge clínic o terapèutic.
Reclutar pacients per a assajos clínics. Els investigadors a càrrec d’aquests assajos poden accedir a la informació de possibles pacients de manera molt ràpida.
Plataforma de visualització i anàlisi de dades. Aquesta informació estarà disponible per als centres i autoritats sanitàries, per a la gestió de recursos o la presa de decisions.
Models predictius. Per a l’elecció guiada de tractaments (medicina personalitzada) o per a anticipar la derivació a especialistes.
Nous models de gestió sanitària. Fer seguiment de la nova tecnologia sanitària adquirida pels hospitals per a saber si és efectiva o no.

Font: Savana 2021.

‘Data lake’: la ciència mèdica que emergeix dels algorismes