AI in Santià al 2025 (Cap.3): 5 Fattori Chiave per l’Ingresso dell’AI nella Clinica

Con i recenti progressi nell’apprendimento supervisionato e auto-supervisionato, l’intelligenza artificiale (AI) promette di affrontare efficacemente molte delle sfide del settore sanitario. È già stata dimostrata la sua capacità nel trattamento di malattie come il cancro della pelle, il cancro al seno e le patologie oculari. Inoltre, si stanno sviluppando progetti innovativi dedicati alla scoperta di farmaci e all’automazione dei compiti amministrativi in medicina.

Negli ultimi anni, è stato osservato un notevole aumento di articoli scientifici che esplorano l’intersezione tra deep learning e sanità. Data l’adozione crescente delle tecnologie di deep learning nei prodotti di consumo, e una serie di casi di studio significativi provenienti dal mondo della ricerca, ci si aspetterebbe un aumento dei prodotti sanitari abilitati dall’AI.

Tuttavia, questo passaggio è stato ed è più lento del previsto. Questa lentezza è attribuita a fattori chiave sottovalutati e a miti che devono essere sfatati per superare le sfide di traduzione dell’AI in soluzioni pratiche nel settore sanitario.

1. Assicurare la Qualità dei Dati per Modelli Affidabili

Per qualsiasi problema di machine learning, abbiamo bisogno di dati etichettati per costruire il modello. Ad esempio, se si desidera costruire un modello che distingua le immagini cancerose da quelle non cancerose, servono le immagini e le etichette “cancro” o “non cancro”.

Il modo in cui otteniamo le etichette per i dati può influenzare significativamente le performance dei modelli di intelligenza artificiale. Esistono tre approcci principali per acquisire queste etichette:

  1. Singola Lettura: Utilizziamo un’interpretazione singola, spesso basata su una diagnosi già esistente, analizzando dati raccolti precedentemente (retrospettivamente). Questo metodo è abbastanza semplice ma può mancare di completezza.
  2. Letture Multiple: In questo caso, più esperti esaminano lo stesso dato. Si può arrivare a un consenso usando un “voto di maggioranza” o attraverso una discussione per definire l’etichetta finale. Questo approccio migliora l’affidabilità rispetto a una singola lettura.
  3. Dati Aggiuntivi e Letture Dettagliate: Si integrano dati aggiuntivi al fine di ottenere una rappresentazione più accurata della realtà (verità di base). Questo può includere l’analisi da parte di uno o più specialisti, come patologi che valutano le biopsie, oppure l’uso di informazioni a lungo termine, come i tassi di sopravvivenza dei pazienti.

In sintesi, se il volume di dati disponibile è lo stesso, le letture multiple forniscono risultati più affidabili rispetto a una singola lettura. Tuttavia, se si ha accesso a più dati, l’integrazione di informazioni dettagliate e aggiuntive rappresenta la modalità ottimale per migliorare la precisione delle etichette e, di conseguenza, le prestazioni dei modelli.

Se utilizziamo il parere di più medici per costruire un’etichetta possiamo chiaramente migliorare notevolmente le performance dei modelli.

Caso studio 1

Alcuni anni fa, i ricercatori di Harvard hanno intrapreso uno studio per determinare se fosse possibile addestrare un modello di intelligenza artificiale per classificare le fotografie del fondo oculare nel contesto della retinopatia diabetica (DR), una complicanza del diabete che può spesso portare alla perdita della vista. Hanno avviato il progetto con un set iniziale di 130.000 immagini e collaborato con 54 oftalmologi per produrre un totale di 880.000 etichette diagnostiche di elevata qualità, utilizzate come verità di base.

Il modello è stato addestrato utilizzando un’architettura di rete neurale convoluzionale già esistente, nota come Inception Network. Questo approccio ha permesso di ottenere un modello di accuratezza comparabile a quella degli esperti oftalmologi, come osservato dai ricercatori. I risultati di questo studio sono stati riportati in un articolo pubblicato sul Journal of the American Medical Association.

Un elemento particolarmente interessante, spesso trascurato, è stato l’esame dell’influenza delle dimensioni del set di dati e del numero di etichette sulle prestazioni dell’algoritmo. Sebbene generalmente un maggior numero di dati migliori le prestazioni, la ricerca ha evidenziato come la qualità dei dati e una strategia di etichettatura efficiente siano cruciali. In concreto, i test hanno dimostrato che un dataset di 50.000-60.000 immagini ben etichettate poteva garantire prestazioni simili a quelle dell’intero dataset originale di 130.000 immagini.

Un’altra parte dello studio ha esaminato come le prestazioni dell’algoritmo variano in base al numero di etichette per immagine, rivelando che il set di sviluppo contenendo una media di quattro e mezzo di etichette per immagine, beneficiava di più opinioni mediche rispetto a una singola opinione. Gli esperimenti hanno dimostrato che la riduzione delle etichette nel set di addestramento ha influito poco sulle performance. Tuttavia, l’accuratezza delle etichette nel set di tuning ha avuto un impatto significativo. Pertanto, il suggerimento chiave è investire in una etichettatura accurata del set di tuning, data l’importanza della qualità non meno della quantità dei dati.

Questo studio sottolinea come, nel contesto dell’apprendimento automatico applicato alla diagnosi medica, la qualità delle etichette e la gestione dei dati possono portare a risparmi significativi di tempo e denaro, assicurando al contempo che i modelli mantengano alta precisione diagnostica.

Un luogo comune riguardo l’AI che dobbiamo sfatare, quindi, è che basta avere una grande quantità di dati per addestrare un modello potente. Tuttavia, l’esperienza dimostra che la qualità dei dati è cruciale tanto quanto la quantità. Per problemi di machine learning, avere dati etichettati con precisione è essenziale.

  • Gulshan, V., Peng, L., Coram, M., et al. (2016). Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs. Journal of the American Medical Association, 316(22), 2402–2410. doi:10.1001/jama.2016.17216.

Caso Studio 2

In un articolo pubblicato su Lancet Digital Health, i ricercatori hanno dimostrato una nuova metodologia per stratificare i pazienti con livelli lievi o inesistenti di retinopatia diabetica (DR) basandosi sul rischio di progressione della malattia invece che sul livello attuale della stessa.

Punti Chiave dello Studio:

  • Stratificazione del Rischio: Invece di categorizzare i pazienti solo in base alla gravità della loro condizione attuale (nessuna o lieve DR), il nuovo metodo identifica chi è più a rischio di peggioramento futuro.
  • Identificazione delle Coorti ad Alto Rischio: Sono stati identificati gruppi di pazienti con un rischio significativamente maggiore (fino a otto volte superiore) di sviluppare forme più gravi di retinopatia rispetto ai gruppi a basso rischio.
  • Tempismo e Contesto del COVID-19: Questo approccio è stato particolarmente rilevante durante la pandemia di COVID-19, poiché molti programmi di screening erano in ritardo e con capacità ridotte. Implementando questa strategia, il Ministero della Salute Pubblica in Thailandia è riuscito a individuare oltre l’80% dei pazienti ad alto rischio anche con una capacità di screening ridotta al 50%.

Sviluppi nei Modelli Fondazionali:

  1. Diversità dei Dati: Non tutti i dati sono uguali. È essenziale che dati di qualità diversa possano essere combinati per migliorare i risultati.
  2. Apprendimento Auto-supervisionato: L’uso di tecniche di apprendimento automatico senza supervisione completa (auto-supervisionato) permette di costruire modelli di base robusti da grandi collezioni di immagini generiche o non etichettate.
  3. Riduzione dei Dati Necessari: Questo metodo può ridurre drasticamente la quantità di dati etichettati necessari per addestrare modelli efficaci, diminuendo potenzialmente i requisiti da tre a cento volte rispetto ai metodi tradizionali.

In sintesi, la ricerca suggerisce che combinare diverse qualità di dati e utilizzare avanzati modelli di apprendimento può condurre a risultati più accurati con minori risorse, un vantaggio cruciale sia in tempi normali che in contesti di emergenza come la pandemia.

  • Gulshan, V., Peng, L., Coram, M., et al. (2016). Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs. Journal of the American Medical Association, 316(22), 2402-2410. doi:10.1001/jama.2016.17216.

2. Integrazione dell’AI nei Flussi di Lavoro Clinici

Abbiamo già visto come la qualità dei dati e delle etichette sia fondamentale per costruire un modello accurato. Sebbene l’ottenere un modello accurato sia vitale, non garantisce necessariamente un prodotto utile.

L’AI deve essere integrata in prodotti utilizzabili da medici e infermieri nel mondo reale. È cruciale validare le prestazioni del modello in contesti reali. Ad esempio, in Tailandia, uno studio prospettico ha valutato la possibilità di integrare l’AI nei programmi di screening per la retinopatia diabetica, dimostrando che l’AI poteva fornire capacità di rilevamento in tempo reale paragonabili a un specialista in retina.

Una sfida osservata era il sovra-riferimento degli algoritmi ai specialisti a causa della bassa qualità delle immagini, in pratica nei casi in cui un algoritmo invia un numero eccessivo di pazienti agli specialisti per ulteriori verifiche, spesso a causa della bassa qualità delle immagini. Nonostante ciò, nella sperimentazione tailandese, gli infermieri che utilizzavano il dispositivo ritenevano che fosse un miglioramento sostanziale per i pazienti, che in precedenza aspettavano settimane o mesi per ricevere i risultati dello screening, e si sentivano potenziati a fornire una guida migliore ai loro pazienti in tempo reale.

Per ottenere il massimo da un modello AI accurato, è fondamentale integrarlo bene nel lavoro clinico quotidiano. Questo significa adattare il sistema alle reali esigenze del personale sanitario e dei pazienti nelle strutture in cui verrà utilizzato. A volte, gli algoritmi possono indirizzare troppi pazienti verso ulteriori esami specialistici, un fenomeno noto come “sovra-riferimento”. Questo può accadere quando la qualità delle immagini analizzate non è ottimale.

Per evitare tali problemi, è importante progettare il sistema AI tenendo conto del contesto specifico in cui opererà. Ciò include considerare le dinamiche di lavoro del personale sanitario e migliorare l’esperienza di utilizzo lavorando con esperti di interfacce e user experience. In questo modo, l’AI diventa uno strumento che si integra senza problemi nel flusso di lavoro esistente, migliorando l’efficienza e l’efficacia della cura del paziente.

3. Un buon prodotto non basta

Anche se un prodotto può essere eccellente in termini di qualità, la sua influenza effettiva nel mondo reale dipende dall’accessibilità ai pazienti. Questo è il terzo mito: che un buon prodotto da solo garantisca l’impatto clinico.

Accessibilità e Logistica del Paziente

Non basta avere un prodotto innovativo; è fondamentale che i pazienti possano effettivamente accederci. Ad esempio, in alcune aree rurali o svantaggiate, raggiungere una struttura sanitaria specializzata può richiedere molto tempo e costi elevati per il paziente. Fornire lo screening in luoghi più vicini ai pazienti abbatte queste barriere, consentendo loro di ottenere cure senza sacrificare bisogni familiari o lavorativi.

Vantaggi dell’AI nel Migliorare l’Accesso

L’intelligenza artificiale non solo offre precisione diagnostica, ma anche la capacità di fornire risultati quasi immediati. In contesti in cui i tassi di follow-up sono bassi, come nelle cliniche meno attrezzate, la possibilità di eseguire lo screening e ricevere i risultati nello stesso giorno migliora significativamente l’adesione dei pazienti. In uno studio condotto in collaborazione con cliniche federali, fornendo i risultati immediatamente e consentendo di programmare subito un follow-up, i tassi di adesione sono passati dal 20% a quasi il 67%.

Importanza dell’Efficienza Economica

L’efficacia di un prodotto non riguarda solo l’accessibilità ai pazienti ma anche la sua convenienza economica. È essenziale considerare non solo i costi iniziali dello screening, ma anche quelli legati al follow-up e al trattamento. Un esempio concreto è una ricerca presso il Singapore Eye Research Institute, dove un approccio semi-automatizzato di deep learning è risultato più efficiente in termini di costi rispetto sia ad approcci completamente automatizzati che a valutazioni umane.

Conclusione

Il messaggio centrale è che avere un prodotto di alta qualità non è sufficiente per garantirne l’impatto clinico. Deve essere implementato tenendo conto delle realtà logistiche, economiche e sanitarie locali. Solo considerando tutti questi fattori si potrà realizzare il potenziale completo delle innovazioni tecnologiche in sanità.

4. Comunicazione Chiara e Trasparente

Un importante elemento per il successo di un prodotto AI, quindi, è la trasparenza. Garantire che gli utenti comprendano il modo in cui un prodotto funziona e come si integra nelle loro necessità è critico per guadagnarne la fiducia. La trasparenza nell’AI si divide tra globale e locale: le spiegazioni globali riguardano l’intento e i fallimenti noti dei modelli, mentre quelle locali si concentrano sulle singole previsioni, aiutando gli utenti a decidere come utilizzare i risultati del modello.

Proprio come le etichette nutrizionali ci dicono degli ingredienti alimentari in modo che gli utenti possano capire cosa c’è nel cibo e se possono mangiarlo in sicurezza, i modelli di machine learning devono arrivare con etichette simili per aiutare le persone a utilizzarli in sicurezza. Un modo che Google fa questo è creando le “model cards”. Questi sono documenti ricchi di informazioni che dicono all’utente cosa c’è nel modello e cosa sappiamo davvero di esso. Prendiamo questo modello, ad esempio, che esegue il rilevamento del volto. La model card ci informa su cosa farà l’algoritmo, che è rilevare i volti e posizionare un riquadro attorno a loro, ma anche cosa l’algoritmo non farà o non può fare, come scoprire identità o demografi

Queste model cards sono un modo autonomo di aiutare gli utenti a capire se il modello si adatterà alle loro esigenze e quindi impostare le aspettative dell’utente riguardo alle capacità del modello e alla performance per garantire un utilizzo appropriato e sicuro. Oltre alle model cards, possiamo fornire agli utenti informazioni simili, forse meno dettagliate, tramite l’onboarding.

Gli “onboarding”, ovvero programmi formativi iniziali, guidano i professionisti della salute a comprendere e utilizzare le nuove tecnologie AI. Questo aiuta a far sì che i clinici possano integrare con successo gli strumenti AI nel loro lavoro quotidiano, comprendendone bene le capacità e i limiti.

Case Studio Onboarding

Un caso di studio ha evidenziato come un corretto approccio di spiegazione, che paragonava la prestazione dell’AI a quella dei patologi, forniva una comprensione chiara degli ambiti in cui il modello era vantaggioso rispetto agli esperti umani. Questo tipo di comunicazione ha migliorato l’accuratezza complessiva nel rilevare e classificare tumori, dimostrando l’importanza di spiegazioni orientate all’utente.

Il gruppo di ricerca della Harvard Medical School ha sviluppato uno strumento di intelligenza artificiale per assistere i medici nella rilevazione e classificazione della gravità del cancro alla prostata utilizzando biopsie tissutali colorate. Durante questo processo, l'”onboarding” si è rivelato essenziale. Questo ha incluso il fornire ai medici le informazioni e il supporto necessari per comprendere e utilizzare efficacemente il nuovo strumento.

Processo di Onboarding

  • Preparazione: Il team ha condotto interviste con 20 diagnostici, sia prima che dopo l’uso dello strumento AI, per determinare quali informazioni fossero necessarie affinché i medici si sentissero sicuri nell’utilizzare il sistema.
  • Materiali di Supporto: In risposta ai bisogni rilevati, i ricercatori hanno creato materiali di supporto mirati che chiarivano domande comuni, come quali casi il modello aveva analizzato durante l’addestramento e come aveva performato in situazioni complesse, note per mettere alla prova anche gli esperti umani.
  • Struttura e Disponibilità: A differenza delle “model cards”, che offrono una panoramica generale del modello, queste informazioni di onboarding sono state fornite in piccoli blocchi facilmente assimilabili, disponibili durante l’interazione con lo strumento. Questo ha assicurato che i medici avessero una comprensione chiara su come usare l’AI in modo efficace.

Scoperte Chiave

Una scoperta notevole del gruppo di ricerca è stata che l’approccio più efficace per comunicare le capacità del modello AI era quello di relazionare le sue prestazioni alle capacità dell’utente. Ad esempio, spiegare che il modello identifica tumori ad alta malignità nell’80% dei casi è meno utile rispetto al dire che il modello è più preciso di un diagnostico generale e simile a uno specialista nel riconoscere tumori gravi. Questo tipo di comunicazione strategica dà ai medici indicazioni su quando fare affidamento sui risultati dell’AI e quando utilizzare il loro giudizio clinico.

Risultati della Ricerca: I partecipanti che hanno assimilato questa strategia di onboarding sono stati complessivamente più precisi nell’identificare e classificare i tumori rispetto a coloro che hanno seguito metodi diversi.

Esigenze di Spiegazione e Comprensione

Il team ha osservato un crescente interesse per i metodi di visualizzazione delle decisioni AI, come le mappe di attenzione che indicano quali parti dell’immagine hanno influenzato il modello. Tuttavia, queste visualizzazioni possono essere complesse per l’utente finale. Pertanto, i ricercatori si sono impegnati a tradurre queste informazioni tecniche in termini che i professionisti e i consumatori possano comprendere.

Esempio di Approccio Minimalista: Prendendo ispirazione da un’app per depositare assegni, il gruppo ha sviluppato un modo per comunicare solo ciò che è essenziale: se un’immagine è valida per il deposito e, in caso contrario, come correggerla. Questo approccio minimalista riduce il carico cognitivo, fornendo informazioni concise ed orientate all’azione.

I ricercatori sottolineano che è fondamentale adattare il livello di spiegazione alle necessità effettive dell’utente: evitare sia eccessi sia difetti, al fine di non distrarre o confondere le persone nell’uso dello strumento.

5. Monitoraggio Proattivo delle Performance

Un elemento cruciale per garantire che un prodotto di intelligenza artificiale (AI) in ambito sanitario sia sia efficace che efficiente è il monitoraggio proattivo. L’integrazione del monitoraggio come parte integrante del design del prodotto fin dalla fase di sviluppo consente una gestione più consapevole e mirata, diversamente da un approccio in cui il monitoraggio è considerato solo a posteriori.

Tradizionalmente, il monitoraggio post-mercato si è concentrato su strumenti descrittivi, come le segnalazioni di non conformità e i problemi riportati dai clienti. In contrasto, il monitoraggio proattivo offre una valutazione continua e oggettiva delle prestazioni del prodotto, confrontandole con standard di riferimento predefiniti. Questo approccio assomiglia al processo di apprendimento continuo che utilizza le prestazioni nel mondo reale, come raccomandato anche dalla FDA.

Implementando il monitoraggio proattivo, le aziende possono migliorare costantemente i loro prodotti AI, garantire che siano allineati alle esigenze operative effettive e rispondere rapidamente a eventuali discrepanze o difetti. Ciò non solo migliora l’efficacia clinica dei prodotti, ma rafforza anche la fiducia degli operatori sanitari nelle soluzioni basate su AI.

Il monitoraggio proattivo permette di identificare e affrontare problemi prima che diventino criticità, migliorando l’efficacia e la sicurezza dei prodotti AI in contesti clinici reali. I dati raccolti consentono agli sviluppatori di aggiornare e perfezionare i modelli, assicurando che i prodotti mantengano le loro prestazioni ottimali nel tempo.

Un prodotto AI deve essere monitorato costantemente per assicurare che resti efficace nel tempo. Un “monitoraggio proattivo” implica l’analisi costante delle prestazioni del sistema per identificare e risolvere eventuali problemi prima che diventino criticità. Nel caso del sistema per la retinopatia diabetica ARDA, questo approccio ha permesso di intervenire precocemente su problemi legati alla qualità delle immagini, migliorando così la performance del sistema.

Conclusione

In conclusione, il passaggio dell’AI dalla ricerca al contesto clinico presenta sfide significative, molte delle quali derivano da miti comuni riguardanti i dati, i modelli e i prodotti. Mentre l’AI promette di rivoluzionare la sanità, è essenziale investire tempo e risorse nel superare questi miti attraverso una strategia che integri dati di alta qualità, validazione in contesti reali, trasparenza, monitoraggio costante e un approccio centrato sull’uomo. Solo così l’AI potrà realizzare il suo pieno potenziale nell’impatto clinico, rendendo la cura sanitaria più accessibile, precisa ed efficiente.

Per favorire l’adozione dell’AI nella pratica clinica, è cruciale vederla come un’opportunità di miglioramento continuo. Stimolare chi adotta e migliora efficacemente questi punti può promuovere l’innovazione. Concentrandosi su dati di alta qualità, una valida integrazione nei flussi di lavoro sanitari, test approfonditi in contesti reali, chiarezza comunicativa e un attento monitoraggio, l’AI può elevare gli standard della sanità rendendola più accessibile, precisa ed efficiente.

  • Topol, E.J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25, 44–56. doi:10.1038/s41591-018-0300-7.