Il riconoscimento facciale supportato dagli algoritmi ai rende la videosorveglianza ancora più sicura, efficace e intelligente. Ecco come funzionano i moduli e i processi di algoritmo.
Il riconoscimento facciale è una delle più importanti tecnologie di analisi biometrica per il controllo degli accessi, la videosorveglianza, le indagini delle forze dell’ordine ecc. Grazie all’intelligenza artificiale, la crescita delle applicazioni delle tecnologie di riconoscimento del volto sarà sempre più esponenziale in ambito sicurezza, istruzione, finanza, commercio ecc.
Il riconoscimento facciale “potenziato” dall’AI è, di fatto, uno dei pilastri della nuova rivoluzione tecnologica: grazie allo sviluppo degli algoritmi di deep learning e all’aumento dell’accuratezza delle tecniche di riconoscimento, l’AI semplifica e rafforza i sistemi di controllo accessi in uffici, scuole, luoghi pubblici e hub di trasporto, previene la criminalità e rende le città più sicure e vivibili.
I principi base
Per comprendere il funzionamento dei sistemi di riconoscimento facciale basati sull’AI analizzando i moduli e i processi di algoritmo, è utile fissare alcuni concetti base.
Un algoritmo è un elenco di istruzioni dettagliate, elaborate per svolgere una determinata attività o risolvere un problema specifico.
Il modulo di algoritmo fa riferimento alla progettazione di diversi algoritmi in svariati moduli software, richiamati da diverse applicazioni per risol vere problemi differenti e ampliare il campo di applicazione dell’algoritmo.
Il processo di algoritmo implica invece l’acquisizione di un input e l’applicazione di una serie di passaggi logici o regole (elaborazione) per produrre un risultato (output).
Modulo di algoritmo: come funziona
Il modulo di algoritmo utilizzato per il riconoscimento facciale attraverso una telecamera di videosorveglianza (o una qualsiasi altra sorgente foto/video) si articola principalmente in tre parti: la prima parte (Face Snapshot) rileva uno o più volti presenti in una ripresa video oppure in una sequenza di immagini (Face Detection), li traccia (Face Tracking), delinea il loro profilo e fissa i punti di riferimento (Face Profile and Landmarks) e li seleziona (Face Quality) per il successivo riconoscimento e l’analisi.
La seconda parte (Face Recognition) è il fulcro dell’operazione di riconoscimento facciale, dal momento che si occupa di estrarre gli attributi (Face Feature Extraction) e compararli (Face Comparison). La terza parte (Face Attribute Recognition) analizza e rileva gli attributi del volto (Face Attribute) come genere, età ed espressione, caratteri fisici e accessori come barba, baffi, occhiali e maschere.

Processo di algoritmo: le fasi
Il processo di algoritmo è composto da diversi step: la fase di rilevamento del volto determina la posizione del volto di riferimento (target) utilizzando un modello di deep learning, avvia il tracciamento e la stima della qualità. L’immagine del volto richiesto viene selezionata in modo preferenziale, tenendo conto della strategia di selezione e della stima della qualità. Il processo di rilevamento della vitalità serve a capire se l’immagine del volto appartiene a una persona reale oppure proviene da una foto.
Come ultimo step, per riconoscere e analizzare il volto presente nell’immagine vengono eseguiti il riconoscimento degli attributi, l’estrazione delle caratteristiche e il confronto con le immagini presenti nel database di riferimento. Segue l’analisi dei moduli e dei processi più importanti individuati nel riconoscimento facciale con AI: Face Detection, Face Tracking, Face Quality, rilevamento della vitalità e Face Recognition.

Face Detection
Nell’ambito del Face Snapshot, Face Detection individua la posizione, le dimensioni e altre informazioni sui volti, sia in 2D che in 3D, presenti in una ripresa video live oppure registrata, ignorando altri elementi presenti nella scena (per esempio, edifici, alberi, corpi, segnaletica ecc). È uno degli elementi chiave del sistema di riconoscimento facciale. L’efficacia dell’algoritmo di rilevamento dipende da due fattori: durata del processo e precisione di rilevamento.

edifici, alberi, corpi, segnaletica, ecc.
Il tempo impiegato dall’algoritmo per il processo di rilevamento dei volti è correlato all’hardware utilizzato e all’efficacia dello stesso algoritmo. L’impiego di piattaforme hardware poco potenti e algoritmi non ottimizzati può richiedere più tempo, mentre algoritmi ottimizzati per una specifica piattaforma (seppur non particolarmente performanti) generano risultati più rapidi. Anche gli algoritmi semplificati utilizzati su hardware con capacità limitate e con restrizioni energetiche (come i dispositivi mobili o le telecamere wireless) permettono di accorciare i tempi di rilevamento con una riduzione trascurabile in termini di efficacia e precisione.
Per quanto riguarda la precisione di rilevamento, essa dipende - una volta determinato il limite inferiore della scala di rilevamento del volto - dal tasso di rilevamento (o tasso di richiamo) e dal tasso di falsi rilevamenti. L’algoritmo di rilevamento del volto si adatta anche a condizioni ambientali complesse, come luce intensa o debole, in notturna ecc. L’algoritmo consente di rilevare volti frontali, di profilo e altre pose.
Face Tracking
La parte di Face Snapshot comprende anche il Face Tracking, che collega i volti della stessa persona tra fotogrammi video continui: a seconda della posizione rilevata o prevista dal tracciamento, ogni volto nel fotogramma corrente viene infatti associato a uno specifico volto nell’ultimo fotogramma, così da ricondurne l’appartenenza allo stesso individuo. In questo modo, il tracciato del volto di una persona in sequenza temporale viene identificato e contrassegnato con un ID univoco. Le misure di valutazione per il tracciamento del volto sono l’accuratezza e il tempo.
L’accuratezza dipende dalla corretta velocità di tracciamento, ovvero dal rapporto tra il numero di volti tracciati correttamente e il numero totale di volti tracciati dal sistema. Il tempo di tracciamento del target risulta importante per determinare se un algoritmo di tracciamento è idoneo per l’utilizzo in ambito commerciale, specialmente per quanto riguarda la videosorveglianza, dove i risultati devono essere in tempo reale. Di norma, gli algoritmi di rilevamento e tracciamento del volto delle telecamere di produttori importanti (per esempio Dahua Technology) sono adatti a scenari applicativi molto differenti tra loro, a bassa e alta densità (per esempio, rispettivamente 16 e 64 volti nello stesso fotogramma).
Gli algoritmi di rilevamento e tracciamento possono essere utilizzati in tempo reale, basandosi solo sul volto o combinando varie informazioni da volto, testa e spalle per migliorare la stabilità del tracciamento dei volti. Supportano anche il rilevamento di volti “anomali” come quelli mascherati o coperti, inclinati a 45 gradi e/o ruotati a ± 90 gradi, sovraesposti o sottoesposti a causa di ombra, luce solare o artificiale diretta ecc.
Face Quality
A completamento del Face Snapshot, si trova la stima e selezione della qualità del volto (Face Quality), che rappresenta un piano tecnico per migliorare il riconoscimento sequenziale del volto, una sorta di “ponte” tra rilevamento, tracciamento, localizzazione di punti di riferimento e riconoscimento di attributi o ID. Il suo compito principale è selezionare uno o più volti di alta qualità per il riconoscimento della sequenza di volti di una persona.

A seconda delle diverse attività, si articola in stima della qualità per il riconoscimento dell’ID o per il riconoscimento degli attributi, con differenti metodi e misure di valutazione: per il riconoscimento dell’ID viene solitamente utilizzata la stima della qualità del volto, a partire da fattori come postura e angolazione, sfocatura/nitidezza, dimensione pixel, condizioni di luce, occlusione del volto, ecc.
Le telecamere IP con Face Recognition in tempo reale supportano diverse strategie di selezione (processo di Face Selection): lo “snapshot in tempo reale” cattura la prima immagine del volto rilevata in tempo reale con una buona strategia, mentre lo “snapshot prioritario” seleziona l’immagine del volto con la qualità più elevata rilevata durante il periodo di selezione desiderato.
Un’altra strategia utilizzata è quella di “qualità prioritaria”, dove l’algoritmo cattura la prima immagine del volto che raggiunge la soglia di qualità richiesta dall’utente. Se nessuno dei volti raggiunge la soglia di qualità desiderata, viene selezionata l’immagine del volto con la qualità più elevata rilevata durante il periodo di selezione impostato.
Rilevamento della vitalità
Il riconoscimento facciale viene ormai ampiamente utilizzato per lo sblocco di sicurezza di smartphone e tablet, nei pagamenti elettronici e molto altro. Come altri sistemi di accesso e verifica dell’identità, può essere hackerato da un malintenzionato utilizzando foto e video del volto di persone autorizzate e spesso ignare dell’uso fraudolento. I sistemi 3D (come FaceID di Apple) sono più difficili da hackerare, perché utilizzano una fotocamera sensibile ai raggi infrarossi abbinata a un sistema di mappatura laser (LiDAR), che colpiscono il viso e rimbalzano verso la fotocamera IR per creare uno schema 3D con mappa di profondità.
I sistemi di Face Detection delle telecamere di videosorveglianza, invece, possono essere ingannati perché lavorano su dati bidimensionali che non permettono a priori di valutare l’autenticità del volto inquadrato. Il rilevamento della vitalità su sistemi 2D si occupa quindi del riconoscimento delle informazioni biologiche su un corpo vivente, agendo nell’ambito del Face Recognition per cercare di distinguere un volto reale da quello riportato in foto, video, stampe ecc.

Le tecnologie di rilevamento della vitalità si basano sull’analisi dei seguenti fattori:
- micro-texture, ossia gli elementi presenti in foto, visualizzate su schermo o stampate, che l’algoritmo rileva dalle immagini ripetute del volto tramite acquisizione primaria, secondaria e multipla. Questo metodo è facilmente influenzato dalla luce e dalla risoluzione e offre una protezione debole nei confronti degli attacchi video;
- informazioni di movimento, ossia quei parametri specifici in un’area del viso che vengono estrati dal video per determinare l’autenticità del volto tramite verifica interattiva;
- rilevazione multispettro per determinare l’autenticità in base alla differenza di riflettanza spettrale tra la pelle e altri materiali. È un metodo efficace, ma richiede rigide condizioni di acquisizione, capacità e costi hardware più elevati.
Il rilevamento della vitalità può essere basato anche su una combinazione di tutti questi metodi, che tuttavia allunga i tempi di elaborazione e necessita di requisiti hardware più rigorosi.
Face recognition
L’estrazione delle caratteristiche del volto (Face Feature Extraction) è una tecnologia di riconoscimento facciale (in senso stretto), che estrapola le caratteristiche dalle immagini selezionate per la rappresentazione dell’identità. Le due modalità di applicazione sono la verifica 1:1 e l’identificazione 1:N.
Entrando nei dettagli, la verifica 1:1 determina se i due volti analizzati, quello reale e quello riportato su un documento, appartengono alla stessa persona. La misura di valutazione comunemente utilizzata per la verifica del volto è VR@FAR (Tasso di verifica@Tasso di accettazione dei falsi). Dopo aver impostato un tasso adeguato di accettazione dei falsi per ottenere una soglia in base a diversi scenari applicativi, si utilizza il tasso di verifica di tale soglia come misura di valutazione.

L’identificazione 1:N effettua una ricerca in un registro specifico per determinare se le immagini del volto acquisite appartengono effettivamente alla persona. In caso affermativo, è necessario determinare il target registrato corrispondente (ricerca statica e identificazione dinamica). Per la ricerca statica, il tasso di richiamo top-N viene solitamente utilizzato come indicatore di valutazione, mentre l’identificazione dinamica è simile alla verifica del volto.
Tecnologie di esposizione mista e auto-adattiva
Alcune telecamere di videosorveglianza impiegano tecnologie di esposizione specifica nelle riprese dei volti che migliorano l’accuratezza del riconoscimento negli scenari con illuminazione complessa, come per esempio corridoi e varchi di ingresso.
L’esposizione auto-adattiva del volto rileva i bersagli in base all’algoritmo di intelligenza artificiale e offre un controllo adattivo della luminosità per un’istantanea ottimale e precisa del volto. La tecnologia a esposizione mista, invece, risolve uno dei problemi tipici delle telecamere con AI negli scenari notturni con persone e veicoli.
In questi contesti, le telecamere non possono generare un’istantanea ottimale del volto e del veicolo (targa), perché il parametro di esposizione del volto porta a una targa sfocata e sovraesposta, mentre quello del veicolo genera un volto scuro e povero di dettagli importanti.
Per risolvere questo problema senza ricorrere a due telecamere distinte, si può utilizzare una sola telecamera con esposizione mista (disponibile su alcuni modelli Dahua) che assicura istantanee nitide e bilanciate sia del volto sia della targa del veicolo per il riconoscimento biometrico/LPR .

all’interno della stessa ripresa video grazie al bilanciamento indipendente - Fonte: Dahua Technology



