H.264+, smart codec a elevate prestazioni

 

Migliorare l’efficienza riducendo banda e spazio di storage, mantenendo la migliore qualità video possibile e la retrocompatibilità con i sistemi esistenti: è il motivo che ha spinto alcuni produttori a perfezionare lo standard di compressione H.264

 

La compressione video digitale è una tecnica molto sofisticata, che permette di ridurre le dimensioni di un flusso video digitale eliminando tutte le informazioni “ridondanti” che non compromettono la qualità delle immagini.

Con la progressiva digitalizzazione degli impianti video, le tecniche già utilizzate in ambito consumer sono state estese anche ai sistemi di videosorveglianza professionale: la quasi totalità delle telecamere IP adotta, infatti, lo stesso standard di compressione utilizzato nelle trasmissioni digitali terrestri e satellitari, ovvero l’H.264.

Pur non essendo la soluzione più performante (il più recente HEVC impiegato nei sistemi video Ultra HD è due volte più efficiente) è tuttavia quella più bilanciata.

Non richiede, infatti, chipset potenti e costosi (diversamente dall’HEVC), assicura eccellenti prestazioni e la qualità video necessaria per le esigenze degli utenti, almeno fino alla risoluzione Full HD.

 

 

H.264, il codec nato dall’MPEG-4

L’H.264 rappresenta l’evoluzione dell’MPEG-4 perché eredita lo stesso concetto di quantizzazione, rivisto e perfezionato per migliorare l’efficienza e la qualità video.

Ogni frame di un’immagine codificata in H.264 viene suddiviso in una griglia di blocchi che possono contenere da un minimo di 16 (4x4) a un massimo di 256 pixel (16x16).

Per ogni blocco (e non per ogni singola immagine, come nell’MPEG-4) viene ricercata una corrispondenza tra i fotogrammi precedenti o successivi allo stesso e, se presente, inviate le informazioni necessarie a correggere eventuali differenze.

Questo meccanismo risulta fondamentale per garantire un forte risparmio di banda/storage nelle immagini catturate dalle telecamere di videosorveglianza.

Rispetto ad altri contenuti video molto più “dinamici” come, ad esempio i programmi televisivi, le riprese di una telecamera digitale sono principalmente statiche: buona parte della scena rimane immutata per lunghi periodi di tempo e l’attenzione dell’osservatore è sempre concentrata sugli oggetti in movimento, che spesso appaiono solo sporadicamente e per breve tempo.

Di contro, le riprese vengono registrate in continuo (H24) e non è possibile esagerare, né con la compressione né con il filtraggio del rumore, perché la conseguente perdita di dettaglio nelle immagini vanificherebbe l’utilità delle riprese.

 

 

Banda ridotta del 60-70%

Per migliorare ulteriormente le performance dell’H.264 nell’ambito della videosorveglianza e risolvere alcuni difetti congeniti, è stato messo a punto l’H.264+ (smart codec sviluppato da Hikvision sulla base dello standard H.264. n. d. r.).

Il “plus” presente nella sigla fa riferimento ad alcune tecnologie e soluzioni di nuova generazione, che hanno lo scopo di migliorare l’efficienza della compressione.

Nelle applicazioni di videosorveglianza con pochi oggetti in movimento, l’H.264+ è in grado di ridurre del 60-70% la banda utilizzata rispetto all’H.264.

Se la scena si fa più dinamica, il risparmio si riduce al 40-50% e può addirittura annullarsi in condizioni estreme.

Anche in questo caso, però, l’H.264+ offre ancora diversi vantaggi grazie al controllo intelligente del bitrate, che approfondiremo tra poco.

Gli affinamenti introdotti si basano sostanzialmente su tre elementi chiave”: l’encoding predittivo basato sullo sfondo, la riduzione intelligente del rumore video grazie alla compressione diversificata soggetto/sfondo e il sistema di controllo del bitrate di lungo periodo.

 

 

Codifica predittiva

Gli attuali algoritmi di compressione sono basati su fotogrammi ibridi, ovvero creati in base alle informazioni estratte da quelli immediatamente precedenti e successivi.

I tipi di fotogramma più comuni utilizzati dagli algoritmi sono tre: I-Frame (Intra-coded Frame), P-Frame (Predicted Frame) e B-Frame (Bi-Predicted Frame).

L’I-Frame contiene un’immagine perfettamente definita in tutti i suoi particolari: è il meno compresso e non richiede altri fotogrammi per essere decodificato.

Il P-Frame può utilizzare i dati del fotogramma precedente e contiene solo la parte dell’informazione dell’immagine che è cambiata rispetto al fotogramma precedente come, ad esempio, un soggetto in movimento su uno sfondo fisso.

Il B-Frame è ancora più complesso, perché utilizza come riferimento i fotogrammi precedenti e successivi al fine di incrementare la compressione e ridurre lo spazio di banda/storage.

Per fare questo, adotta un segnale di predizione che consiste nella media di due fotogrammi di riferimento. Una sequenza video è composta da due i-Frame, un P-Frame e un B-Frame.

Per migliorare la compressione complessiva della sequenza video e, in particolare, degli I-Frame, le cui informazioni risultano ripetitive se lo sfondo non cambia, l’H.264+ adotta una relazione di referenza della codifica predittiva basata sul modello dello sfondo.

Osservando la Figura 1, il blocco rosso è il fotogramma dello sfondo che utilizza la codifica predittiva intra-frame, i blocchi blu sono i fotogrammi di refresh (con codifica predittiva intra-frame per gli oggetti in movimento e inter-frame per quelli statici), mentre quelli bianchi sono i normali fotogrammi con codifica predittiva intra-frame.

L’algoritmo dell’H.264+ effettua un’analisi intelligente del segnale scegliendo il blocco rosso per la sua staticità e aumentando l’intervallo con il fotogramma di sfondo successivo rispetto a quello classico degli I-Frame.

Le dimensioni del fotogramma di refresh sono più ridotte di quelle dell’I-Frame, mentre l’intervallo tra due fotogrammi di refresh è lo stesso degli I-Frame.

Il fotogramma di refresh può essere utilizzato come I-Frame e ottenere la stessa qualità video di una codifica H.264, riducendo sia la banda che lo spazio di storage.

 

 

Riduzione intelligente del rumore

Grazie al fatto che, di norma, lo sfondo delle riprese di una telecamera di videosorveglianza rimane pressoché immutato, l’algoritmo di analisi intelligente è in grado di separare quest’ultimo dai soggetti “dinamici” come, ad esempio, le vetture in transito (riquadri rossi nella Figura 2). Per garantire la qualità degli oggetti in movimento, l’encoder deve occuparsi anche del rumore presente nella scena.

Tuttavia, grazie all’analisi intelligente, è possibile applicare una minore compressione agli oggetti in movimento e una maggiore allo sfondo (Figura 3), così da ridurre il rumore e il bitrate complessivo, senza inficiare sulla qualità degli elementi chiave della scena.

 

Allocazione del bitrate

L’abbattimento del rumore sull’immagine di fondo comporta una fluttuazione del bitrate a seconda della superficie dell’area occupata. Nelle riprese diurne di un incrocio cittadino, ad esempio, la parte dell’immagine che muta poco o nulla occupa una superficie ristretta perché gli oggetti in movimento - automezzi e pedoni - sono numerosi e frequenti.

Il bitrate, di conseguenza, risulta elevato. Di notte, invece, l’area occupata dall’immagine di fondo è maggiore per la scarsità di movimenti e il bitrate si riduce (Figura 4).

Se si applicassero differenti bitrate a seconda delle fasce orarie, si potrebbe ridurre lo spazio di storage e mantenere elevato il dettaglio degli oggetti in movimento.

A tale proposito, l’H.264+ adotta il controllo del bitrate a lungo termine per consentire all’encoder di adattarsi automaticamente alle condizioni ambientali e raggiungere il valore di compressione ottimale.

Per fare questo, è stato introdotto il concetto di “Average Bitrate” (Bitrate Medio), calcolato su vari intervalli di tempo, solitamente nell’arco delle 24 ore.

L’analisi intelligente delle riprese effettua un controllo del bitrate su diversi periodi, lo regola automaticamente e riutilizza quello in eccesso (rispetto alla media) nei periodi in cui è necessaria una minore compressione, cioè nelle ore diurne (Figura 5).

La tecnologia H.264+ rispetta le specifiche dello standard H.264/AVC ed è compatibile con la maggior parte dei sistemi hardware e software che già utilizzano l’H.264, anche senza bisogno di particolari upgrade.

 

Giacomo Bozzoni

 

Pubblica i tuoi commenti