Intelligenza Artificiale Multimodale all’Edge

Comprensione audio e video in tempo reale senza cloud — validata in una sfida sulla conformità chirurgica

⚡ La sfida: intelligenza dove si trovano i dati

L’intelligenza artificiale moderna ha compiuto progressi straordinari nell’elaborazione di audio e video. Ma quasi tutto ciò che esiste oggi presuppone una connessione cloud affidabile, capacità di calcolo remota abbondante e la disponibilità a inviare dati sensibili a server esterni. Nei reparti produttivi, nelle sale operatorie, nelle operazioni sul campo e in altri ambienti reali, nessuna di queste ipotesi è valida.

⏱️ La latenza è determinante quando una deviazione procedurale sta accadendo in questo momento. 🔒 La privacy è fondamentale quando audio e video catturano informazioni cliniche o riservate. 📡 La connettività non può essere data per scontata quando le operazioni si svolgono in ambienti isolati o con larghezza di banda limitata.

La risposta di Spazio IT a questa sfida è rappresentata da due sistemi complementari — SI-Listener e SI-Watcher — progettati fin dall’inizio per funzionare all’edge: localmente, in tempo reale, senza trasmettere dati sensibili al cloud.

🎙️ SI-Listener: dalla voce alla conoscenza

SI-Listener è un motore di trasformazione della voce in conoscenza strutturata, operante in tempo reale. Acquisisce l’audio parlato da microfoni o flussi audio, lo trascrive in modo continuo e converte il testo risultante in conoscenza strutturata — eventi, osservazioni, indicatori di conformità — utilizzando modelli linguistici eseguiti localmente sul dispositivo. Nessun audio lascia l’ambiente locale. Il codice sorgente è disponibile su GitHub come Speech-to-Knowledge, un sistema C++ originariamente progettato per applicazioni in ambito sanitario.

📷 SI-Watcher: dal video alla conoscenza

SI-Watcher è un motore di trasformazione del video in conoscenza strutturata, operante in tempo reale. Acquisisce flussi video live o registrati, applica AI generativa multimodale per identificare azioni, oggetti e fasi procedurali, e produce dati semantici strutturati. Il suo strumento mobile complementare, VideoToKnowledge, è un’applicazione .NET MAUI che porta le stesse capacità direttamente su smartphone o tablet. Il codice sorgente è disponibile su GitHub come Video-to-Knowledge, un sistema C++ edge-first costruito per l’inferenza locale a bassa latenza.

🔀 Fusione di audio e video: il Data Aggregator and Analyzer

SI-Listener e SI-Watcher possono operare in modo indipendente, ma la loro vera potenza emerge quando i loro output vengono combinati. Il Data Aggregator and Analyzer prende il flusso di trascrizioni da SI-Listener e il flusso di eventi semantici da SI-Watcher e li fonde tramite un LLM compatibile con le API OpenAI, producendo un CSV strutturato con allineamento temporale e un rapporto di analisi della qualità e della conformità. L’intera pipeline — dall’input dei sensori live all’output analitico strutturato — gira su hardware standard senza richiedere abbonamenti cloud né connessione a internet.

🏥 Validazione in un contesto ad alta criticità: il MedGemma Impact Challenge

Per testare questa architettura in condizioni genuinamente impegnative, Spazio IT ha partecipato al MedGemma Impact Challenge su Kaggle — una competizione aperta focalizzata sull’applicazione del modello medico di visione e linguaggio MedGemma di Google a problemi reali in ambito sanitario.

Il contributo presentato ha applicato la pipeline combinata SI-Listener / SI-Watcher / Data Aggregator al problema del monitoraggio delle procedure chirurgiche: rilevare in tempo reale se le fasi procedurali vengono eseguite correttamente, utilizzando esclusivamente audio e video locali.

Le procedure chirurgiche seguono protocolli rigorosi — conteggio degli strumenti, igiene delle mani, checkpoint di comunicazione del team, gestione del campo sterile. Le deviazioni da questi protocolli sono una fonte significativa di eventi avversi prevenibili. La sala operatoria è anche uno degli ambienti più esigenti per un sistema di AI all’edge: 🔒 requisiti di privacy elevatissimi (nessun audio o video del paziente deve uscire dalla stanza), ⏱️ sensibilità alla latenza (i segnali devono apparire in tempo quasi reale) e necessità di ragionare simultaneamente su ciò che viene detto e su ciò che viene fatto.

La sfida ha dimostrato che l’approccio di fusione multimodale produce un tracciamento procedurale più ricco e accurato rispetto a quanto ottenibile con una singola modalità. 🎙️ L’audio cattura le conferme verbali e la comunicazione del team; 📷 il video cattura le azioni fisiche che potrebbero non essere verbalizzate. Insieme forniscono una copertura complementare e temporalmente allineata dell’intera procedura. Il writeup completo, incluso l’approccio tecnico e i risultati, è disponibile su Kaggle.

🏭 Oltre la sala operatoria

L’architettura è indipendente dal dominio applicativo. La stessa combinazione di comprensione audio in tempo reale, analisi semantica video e fusione multimodale si applica ovunque siano rilevanti la conformità procedurale, la consapevolezza situazionale o la registrazione degli eventi, e la connettività cloud non possa essere garantita:

🔩 Controllo qualità industriale · 🏗️ Audit dei processi manifatturieri · ✈️ Ispezioni di manutenzione aerospaziale · 🧪 Conformità dei protocolli di laboratorio · 🌍 Registrazione delle operazioni sul campo · 🦺 Sicurezza nei cantieri

L’esperienza consolidata di Spazio IT nella verifica del software aerospaziale — incluso il lavoro sul software di volo IXV e il programma ISVV per Space Rider — informa un approccio rigoroso all’affidabilità e alla correttezza dei sistemi di AI. La stessa disciplina che si applica al software di volo si applica qui: il sistema deve comportarsi in modo prevedibile, i suoi output devono essere interpretabili e i suoi modi di guasto devono essere compresi.

💻 Repository open source

I componenti principali sono disponibili su GitHub sotto l’account mmartign:

🎙️ Speech-to-Knowledge — il motore di SI-Listener: conversione in tempo reale del parlato in dati strutturati, scritto in C++, progettato per applicazioni sanitarie.
📷 Video-to-Knowledge — il motore di SI-Watcher: sistema edge-first per la trasformazione video in conoscenza tramite AI generativa multimodale, scritto in C++.
🔀 Data-Aggregator-and-Analyzer — il livello di fusione: combina trascrizioni audio e dati semantici video tramite un LLM compatibile OpenAI per produrre output CSV strutturato e rapporti di conformità.
🔩 S7-Generic-Client — client C++ generico per PLC Siemens S7 tramite Snap7, utilizzato nelle soluzioni Industry 4.0 di Spazio IT.
🔌 OPC-UA-Generic-Client — client C generico per la lettura e scrittura di variabili su server OPC-UA.
✅ SAFacilitator — strumento Java a supporto del SAFe Toolset per le attività di verifica e validazione del software.

📬 Contattaci

Se stai lavorando su un problema in cui la comprensione audio o video in tempo reale è rilevante — in ambito sanitario, industriale, aerospaziale o in qualsiasi altro settore — Spazio IT è disponibile a esplorare come questa architettura possa essere adattata al tuo contesto. Contattaci.

Pagine correlate: SI-Listener · SI-Watcher · AI Generativa @ Spazio IT · Applicazione dell’ISVV al Software AI · Industry 4.0 @ Spazio IT

Spazio IT

Spazio IT

Prevent your code from rusting.

Spazio IT solutions have been in space.

SAFe Toolset

Industry 4.0

Oracle ADF

Space Rider ISVV

Project-Machinery