Raffaele Gareri, direttore future communities di Tiscali, e Francesco Buemi, responsabile linea di prodotto videosorveglianza e videoanalisi di Aitek, presentano la piattaforma Highview basata su AI, che vuole proporsi anche alla pubblica amministrazione come strumento per l’analisi delle immagini in ambito urbano.
HighView - VMS è un’applicazione di centro per la gestione, la visualizzazione e la trasmissione dei flussi video provenienti da telecamere e apparati che compongono sistemi di videosorveglianza: è stata realizzata da Aitek, azienda specializzata nella progettazione di soluzioni tecnologiche innovative per sistemi intelligenti impiegati nei trasporti, nella videosorveglianza per la sicurezza e nel digital signage per la comunicazione, in partnership con i servizi di telecomunicazione forniti da Tiscali.
In sperimentazione dallo scorso autunno, la piattaforma HighView è oggi attiva sul sito di Tiscali. A Raffaele Gareri, direttore Future Communities di Tiscali, e a Francesco Buemi, responsabile linea di prodotto videosorveglianza e videoanalisi di Aitek, abbiamo chiesto di descrivere com’è nata l’idea di questa piattaforma basata sull’utilizzo dell’intelligenza artificiale, addestrata e implementata per rispondere alle diverse esigenze dei clienti utilizzatori.
Come nasce e come si sviluppa il progetto (e poi la realizzazione) di highview?
Raffaele Gareri (R.G.): «Il progetto è nato sulla scorta di un percorso di fusione di competenze con Aitek per sviluppare un piano industriale finalizzato a collaborare nel tradizionale ambito della comunicazione. In particolare, in considerazione della complessità dell’attuale mercato Telco, l’idea era quella di individuare anche un nuovo percorso di business (una sorta di Telco 2.0, da cui è poi scaturita anche una componente del piano industriale) adatto a cogliere l’attuale momento di trasformazione della società, così da sviluppare piattaforme e servizi per accompagnare il cambiamento in atto (sia dal lato dei cittadini che da quello delle imprese) con riferimento allo sviluppo in ambito urbano e alle comunità del futuro.
Un primo step è consistito nel predisporre una piattaforma di analisi delle immagini di tipo trasversale, con vari ambiti applicativi. La videoanalisi con HighView, infatti, serve tanto per il controllo della mobilità quanto per il monitoraggio ambientale in ambito di protezione civile. In ambito urbano il sistema è progettato per il traffico sia veicolare sia pedonale, in un contesto finora caratterizzato da strutture operative molto verticali: siamo quindi andati alla ricerca di un modello architetturale di impatto sulla comunità, in modo da rispondere, con HighView, alla necessità di un’azione di tipo più trasversale».
Highview è quindi implementabile per varie applicazioni in base all’ambito in cui si sceglie di utilizzarla?
R.G.: «Esatto. Se tipicamente pensando all’impiego delle telecamere in ambito sicurezza si fa riferimento alla videosorveglianza, per quanto riguarda HighView ci troviamo di fronte a una “piattaforma di videoanalisi” complessa: certamente consente anche questo tipo di funzionalità, ma è approntata tanto per la gestione della sicurezza quanto per altri ambiti applicativi.
Ci siamo infatti orientati anche verso il mondo della PA (Pubblica Amministrazione): si tratta di uno dei settori sicuramente investiti dal cambiamento digitale in corso, dal momento che per i servizi delle città è spesso il settore pubblico che svolge il ruolo di gestore (sebbene molte delle componenti di servizio siano fornite da soggetti privati). L’idea di partenza è stata quella di inserirci come attori nel processo di cambiamento tecnologico in atto, che tramite i fondi del PNRR ci sta consentendo anche di velocizzare ulteriormente lo sviluppo del prodotto. Per ottenere questo risultato, come Tiscali abbiamo cercato un partner qualificato e con esperienza sul piano del know-how tecnologico, trovando in Aitek l’azienda adatta».
Nella relazione con il mondo delle PA, qual è il ruolo svolto da Tiscali e quale quello di Aitek rispetto alla promozione e allo sviluppo di Highview?
R.G.: «La piattaforma è nata dal connubio tra l’esperienza di Aitek in ambito industriale e di Tiscali per gli aspetti di contestualizzazione in ambito pubblico, in un’ottica di interoperabilità: i vari frame ricavati dalle immagini acquisite (per analisi della mobilità, del territorio ecc.) vengono trasmessi a chi ha la competenza per la gestione in un determinato comparto, con l’obiettivo di implementare la conoscenza di quanto avviene in tempo reale e produrre nuove politiche guidate più dai dati che dall’esperienza del singolo».
In base a quali criteri sono stati addestrati gli algoritmi di intelligenza artificiale?
Francesco Buemi (F.B.): «Quello dell’addestramento specializzato è un lavoro meticoloso e mirato alle differenti applicazioni cui la videoanalisi è destinata.
I tempi richiesti in partenza sono piuttosto lunghi (salvo per le successive applicazioni, per cui la base è quanto già acquisito): vanno infatti acquisite migliaia di immagini, selezionando poi ciascun frammento utile ad addestrare l’AI al riconoscimento di un dato oggetto e raggiungere la “verità”, ossia l’immagine che la rete neurale riconoscerà come esattamente corrispondente all’oggetto specifico.
La rete di HighView, per esempio, distingue una moto da un pedone o da un’automobile, piuttosto che un mezzo pesante o ancora un cassonetto della spazzatura e altri elementi utili per l’applicazione in ambito urbano».
L’AI è quindi sottoposta a input e controllo esterni?
F.B.: «Esatto, infatti si parla di addestramento di rete neurale supervisionata, che per step successivi riceve conferme (tramite input in positivo, ricevendo ulteriori immagini del soggetto da classificare per aumentare la precisione) o correzioni (tramite input di valore negativo) ove necessario.
Supponiamo che la rete neurale debba riconoscere un furgone ma inquadrando l’area di riferimento fornisca una risposta imprecisa, segnalando un autoarticolato; in questo caso il tecnico darà all’AI una risposta negativa per poi procedere a raffinare l’addestramento fino al corretto riconoscimento».
L’intervento umano esterno prevede un controllo continuo?
F.B.: «Nella fase di addestramento, poiché le immagini da scansionare e immagazzinare sono migliaia fino a quando si riesce a far convergere la rete su una risposta sufficientemente adeguata e a passare alla fase operativa. Successivamente il controllo esterno permane, ma solo per intervenire nel caso di eventuali imprecisioni, così da rimodulare la risposta e migliorare ulteriormente le prestazioni».
Quanto tempo ha richiesto l’addestramento di Highview?
F.B.: «In questo caso, abbiamo potuto usufruire di reti addestrate in precedenza: come Aitek, infatti, solitamente lavoriamo su impianti piuttosto grandi (porti, autostrade, ferrovie, reti metropolitane, in alcuni casi anche navi militari), per cui disponiamo di reti addestrate in funzione di scenari similari a quelli che servono per High- View, (per esempio, il tracciamento di persone e mezzi in ambito cittadino).
Oltre a questo, sono attualmente in corso fasi di addestramento per altri compiti nell’ambito della sorveglianza urbana, tra cui il riconoscimento di bidoni della spazzatura o ingombranti accatastati a bordo strada; tutti elementi funzionali alle attività che interessano le amministrazioni comunali».
Riguardo a riguardo a compatibilità e integrazione, con quali dispositivi funziona la piattaforma e quali sono le specifiche tecniche richieste?
R.G.: «La piattaforma HighView è compatibile con il protocollo ONVIF, quindi con qualunque telecamera certificata in base ai parametri previsti».
F.B.: «L’esperienza di ormai 25 anni che Aitek può vantare in quanto a impianti realizzati si rifà a installazioni molto grandi, sviluppate grazie all’apporto di supervisori così da garantire che la piattaforma principale possa colloquiare con terze parti a livelli sottostanti; anche nel caso di HighView è fondamentale questo interscambio con altri sistemi, secondo i protocolli di comunicazione più aggiornati.
Il più utilizzato al momento è il protocollo MQTT (MQ Telemetry Transport o Message Queue Telemetry Transport), adatto a distribuire metadati quali rilevamenti e conteggi di persone e automezzi o allarmi per eventi imprevisti (per esempio, un automezzo contro mano); è valido anche per segnalazioni diagnostiche in tempo reale, nel caso di applicazioni in area medico-sanitaria ove è vitale il monitoraggio costante del funzionamento della TLC (Total Lung Capacity). Si tratta di informazioni esportate con protocolli standard e open source, ormai ampiamente diffusi nel mondo IT e di facile integrazione con altri sistemi».
Deep learning, quali vantaggi?
La videoanalisi con deep learning è una tecnica di AI, che consiste nella creazione di algoritmi in grado di imparare dall’esperienza e apprendere informazioni direttamente dai dati elaborati dalle immagini. Si tratta di un approccio innovativo per aumentare le prestazioni della videoanalisi e offrire soluzioni allo stato dell’arte tecnologico, con grandi vantaggi rispetto a solo pochi anni fa: le prestazioni che si ottengono sono infatti decisamente superiori anche in situazioni critiche.
È sufficiente pensare alle telecamere installate sui pali della luce, che possono venire sottoposte a condizioni meteo avverse (per esempio, forte vento); in tali frangenti la videoanalisi tradizionale verrebbe condizionata dalle oscillazioni subite dal supporto, mentre con la tecnologia deep learning le immagini vengono elaborate riconoscendo comunque i target (persone, animali, mezzi) e garantendo un’affidabilità superiore. Vale lo stesso per le riprese di oggetti statici, che la videoanalisi tradizionale non è in grado di rilevare oltre un dato tempo.
I MODULI SOFTWARE DI HIGHVIEW
Individua la presenza di affollamenti all’interno dell’area monitorata, attraverso l’impostazione di una soglia massima di occupazione consentita. Adatto per il monitoraggio di piazze, luoghi pubblici, banchine e stazioni ferroviarie, varchi di accesso ecc.
Rileva gli oggetti all’interno del sensore virtuale disegnato sull’inquadratura, generando un allarme dopo che è trascorsa una soglia temporale configurabile. Ideale per il monitoraggio di aree operative, depositi e magazzini e il rilevamento di situazioni di potenziale pericolo in ambiente ferroviario (ostacoli sui binari, superamento linea gialla ecc.)
Rileva oggetti in movimento lungo una direzione di riferimento, stabilita in fase di configurazione del sensore. Genera un allarme ogni volta che un oggetto attraversa l’area selezionata muovendosi nella direzione stabilita. Ideale per il rilevamento di veicoli contromano o di accessi di persone in direzione non consentita in un varco monodirezionale.
Genera un allarme quando all’interno del sensore virtuale disegnato sull’inquadratura viene rilevato un oggetto per un periodo di tempo superiore ad una soglia temporale configurabile. Ideale per il monitoraggio perimetrale e il rilevamento di scavalcamenti di cancelli e recinzioni.
Il sistema genera un allarme quando l’area sensibile (per esempio corrispondente a una corsia di marcia) risulta occupata dai veicoli oltre una soglia percentuale prestabilita. Ideale per il monitoraggio del flusso veicolare e il rilevamento di ingorghi e incidenti stradali.
Genera un allarme ogni volta che un oggetto staziona all’interno dell’area sensibile per un periodo di tempo superiore a una soglia temporale minima, stabilita in fase di configurazione dell’area. Ideale per il rilevamento di veicoli fermi o in sosta vietata, incidenti stradali, oggetti abbandonati ecc.