Dall'EPFL un nuovo modello multimodale per un'AI più flessibile

È in grado di apprendere da testo, immagini, video e suoni e, grazie alla modularità, produce qualsiasi numero o combinazione di previsioni

Machine Learning: dall'EPFL un nuovo modello multimodale per un'AI più flessibile
Dall'EPFL un nuovo modello multimodale per un'AI più flessibile (Foto: Brian Penny/Pixabay)

Che si parli di OpenAI o di ChatGPT, la stragrande maggioranza dei chatbot di intelligenza artificiale generativa si basano sui cosiddetti Large Language Model (LLM), modelli di deep learning su larga scala addestrati a fornire risposte alle domande che vengono poste loro grazie all’apprendimento di informazioni attraverso grandi quantità di testo.

L’ultima frontiera dell’IA generativa sono i modelli multimodali, che combinano comprensione del linguaggio e immagini, video e audio per offrire un’esperienza e un servizio ancora più avanzati.

La loro creazione, però, pone di fronte a diverse sfide, soprattutto se l’intenzione è costruire i modelli multimodali in scala ridotta: la frequente presenza di dati mancanti per l’indisponibilità di informazioni, quasi sempre a causa di una parziale disponibilità delle risorse.

Il rischio è insomma che il modello apprenda sulla base di una mancanza, e che le elaborazioni e le previsioni siano distorte. Ed è da qui che è partito l’EPFL per il suo nuovo progetto.

Dai Politecnici di Losanna e Zurigo una coalizione per l’energia verde
In 3D il guanto tecnologico che renderà tangibile la Realtà Virtuale

Machine Learning
Il Campus del Politecnico Federale a Losanna (Foto: Facebook/EFPL)

MultiModN, il modello multimodale modulare nato a Losanna

I ricercatori del Politecnico federale di Losanna (EPFL), una delle migliori università al mondo per quanto nel campo dell’ingegneria e dell’informatica, hanno infatti messo a punto MultiModN, un modello multimodale modulare unico presentato di recente al NeurIPS2023.

I ricercatori dei laboratori Machine Learning for Education (ML4ED) e Machine Learning and Optimization (MLO) della Scuola di Scienze Informatiche e della Comunicazione dell’EPFL hanno deciso di sviluppare e testare l’esatto opposto di un modello linguistico di grandi dimensioni, ma di pensare in scala ridotta.

Guidato dalla professoressa Mary-Anne Hartley, direttrice del Laboratorio per le Tecnologie Sanitarie Globali Intelligenti ospitato congiuntamente presso l’MLO e la Yale School of Medicine, e dalla professoressa Tanja Käser, direttrice di ML4ED, il team ha creato un modello multimodale che può apprendere da testo, immagini, video e suoni ma che, a differenza di quelli esistenti, è costituito da un numero variabile di moduli più piccoli, autonomi e specifici per gli input.

Questi ultimi possono essere selezionati in base alle informazioni disponibili e quindi messi insieme in una sequenza di qualsiasi numero, combinazione o tipo di input . Può quindi produrre qualsiasi numero, o combinazione, di previsioni.

Abbiamo valutato MultiModN in dieci attività reali, tra cui il supporto per la diagnosi medica, la previsione del rendimento accademico e le previsioni meteorologiche”, ha spiegato Vinitra Swamy, dottoranda presso ML4ED e MLO e primo coautore del progetto.

“Attraverso questi esperimenti, riteniamo che MultiModN sia il primo approccio intrinsecamente interpretabile e resistente alle diverse tipologie di dati mancanti alla modellazione multimodale“.

La “ricetta” dell’EPFL per computer quantistici più potenti
Dall’Intelligenza Artificiale un decisivo boost alle criptovalute?

Machine Learning
La scuola di Scienze Informatiche e della Comunicazione dell’EPFL (Foto: Facebook/EPFL IC)

Il primo caso d’uso: le decisioni cliniche per il personale medico

Il primo caso d’uso di MultiModN sarà come sistema di supporto alle decisioni cliniche per il personale medico in contesti con risorse limitate.

Nel settore sanitario, infatti, spesso i dati clinici mancano, magari a causa di risorse limitate (un paziente non può permettersi uno specifico test) o di contro per abbondanza di risorse e informazioni. MultiModN è in grado di apprendere da questi dati del mondo reale senza assorbirne i cosiddetti bias, e di adattare le previsioni a qualsiasi combinazione o numero di input.

La mancanza di dati è un segno distintivo in contesti con risorse limitate, e quando i modelli apprendono questi modelli di mancanza, possono codificare errori nelle loro previsioni”, ha sottolineato Mary-Anne Hartley.

“La necessità di flessibilità a fronte di risorse disponibili in modo imprevedibile è ciò che ha ispirato MultiModN“.

In un evento al top l’impatto di AI e machine learning sui servizi
Tutti i perché della crescente influenza dell’AI nell’arte digitale

Machine Learning
Un laboratorio di analisi (Foto: Michal Jarmoluk/Pixabay)

Dal laboratorio alla vita reale: al via un trial su polmonite e tubercolosi

La pubblicazione, tuttavia, è solo il primo passo verso la messa in pratica e i test sul campo. La professoressa Hartley ha lavorato con i colleghi dell’Ospedale Universitario di Losanna (CHUV) e dell’Inselspital, l’Ospedale Universitario di Berna, per condurre studi clinici incentrati sulla diagnosi di polmonite e tubercolosi in contesti con risorse limitate, ed è in fase di reclutando di migliaia di pazienti in Sud Africa, Tanzania, Namibia e Benin.

I gruppi di ricerca hanno intrapreso un’ampia iniziativa di formazione, insegnando a più di 100 medici a raccogliere sistematicamente dati multimodali tra cui immagini e video ecografici, in modo che MultiModN possa essere addestrato a essere sensibile ai dati reali provenienti da regioni con scarse risorse.

“Stiamo raccogliendo esattamente il tipo di dati multimodali complessi che MultiModN è progettato per gestire”, ha dichiarato la dottoressa Noémie Boillat-Blanco, specialista in malattie infettive presso il CHUV.

“Siamo entusiasti di vedere un modello in grado di apprezzare la complessità delle risorse mancanti nei nostri contesti e della sistematica mancanza di valutazioni cliniche di routine”, ha aggiunto la dottoressa Kristina Keitel dell’Inselspital, il nosocomio universitario della capitale svizzera.

La sicurezza dell’AI? La dichiarazione di Bletchley Park è cruciale
Asse Axel Springer-OpenAI per una IA al servizio del giornalismo

L’innovazione dell’EPFL è progettata per migliorare il processo decisionale clinico fornendo l’accesso a conoscenze mediche specializzate (Foto: Irwan/Unsplash)

Machine Learning al servizio del bene pubblico

Lo sviluppo e la formazione di MultiModN rappresentano la continuazione degli sforzi dell’EPFL per adattare gli strumenti di apprendimento automatico alla realtà e per il bene pubblico, e arriva a poca distanza dal lancio di Meditron, un modello di intelligenza artificiale specificamente progettato per il settore medico.

Meditron appartiene anch’esso alla categoria dei Large Language Model (LLM), ma a differenza dei modelli generalisti, che servono a una vasta gamma di compiti, è focalizzato sul campo medico, ed è più compatto in termini di dimensioni, ancorché altrettanto efficace.

L’obiettivo di Meditron è quello di democratizzare l’accesso alle informazioni mediche di alta qualità, aiutando così le decisioni cliniche.

I ricercatori dell’EPFL ne hanno sviluppato due versioni rispettivamente con 7 miliardi e 70 miliardi di parametri, e i modelli sono stati addestrati su fonti di dati medici selezionate e di alta qualità, comprese letteratura scientifica revisionata dai pari e varie linee guida cliniche, garantendo una base di conoscenza ampia e accurata.

Sia Meditron, presentato a novembre 2023, sia MultiModN sono quindi in linea con la missione del nuovo Centro AI dell’EPFL, che si concentra su come un’intelligenza artificiale responsabile ed efficace possa promuovere l’innovazione tecnologica a beneficio di tutti i settori della società.

I rivoluzionari sensori che possono risparmiare milioni di batterie
IA: la guerra che sta per scatenarsi non sarà come ci aspettiamo…

Machine Learning: dall'EPFL un nuovo modello multimodale per un'AI più flessibile
L'esterno del campus dell'EPFL con il logotipo del Politecnico Federale di Losanna (Foto: Facebook/EFPL IC)