Il percorso evolutivo del codec H.265

 

Anche per il codec H.265, così come già visto per il predecessore H.264, stiamo assistendo a un percorso evolutivo di affinamento che punta a migliorare l’efficienza riducendo la banda occupata.

 

I codec di vecchia generazione come l’MPEG-2, MPEG-4 e l’H.264 potevano garantire buoni risultati con i formati SD e HD, ma con il passaggio al Full HD e all’Ultra HD hanno mostrato tutti i loro limiti intrinseci.

Ormai da diverso tempo, i leader del mercato della videosorveglianza hanno in catalogo diverse telecamere ed NVR che supportano l’H.265 (High Efficency Video Coding - HEVC), il codec di ultima generazione impiegato anche nelle trasmissioni satellitari HD e Ultra HD, nello streaming sul Web e, dal 2022, anche per quelle digitali terrestri.

L’HEVC rappresenta lo step più recente dell’evoluzione degli standard di compressione video, in quanto è capace di raddoppiare il rapporto di compressione dati rispetto all’H.264 (50% di risparmio), migliorare la qualità video a parità di bitrate e supportare i formati ad altissima definizione come il 4K (3840x2160 pixel) e l’8K (7680x4320).

Per ottenere queste prestazioni, i gruppi di lavoro hanno raffinato ulteriormente l’algoritmo dell’H.264 sotto diversi aspetti: aumentando la densità di pixel del blocco di codifica (da 16x16 a 64x64 pixel), così da sfruttare meglio la correlazione tra pixel vicini con segnali Ultra HD, utilizzando partizioni complesse (es.: rettangolari e combinate) al posto dei precedenti macroblocchi, migliorando l’accuratezza delle tecniche di predizione tra i quadri nell’ambito dello stesso quadro, ottimizzando il sistema di trasmissione dei vettori in movimento all’interno del flusso video, parallelizzando il processo di compressione (intraframe e interframe).

 

Margini di miglioramento

Anche se tutti questi interventi hanno permesso di ottenere un’efficienza e una precisione sconosciute ai precedenti codec, esistono ancora ampi margini di miglioramento ottenibili anche senza attendere lo step successivo, ovvero il Future Video Codec (FVC - H.266), attualmente in fase embrionale.

A tale proposito, i big del mercato della videosorveglianza hanno già affrontato la questione sviluppando e integrando nei loro prodotti di punta una versione migliorata del codec HEVC, chiamata rispettivamente H.265+ e Smart H.265+.

Entrambe le tecnologie si adattano perfettamente alle riprese H24 delle telecamere, dove buona parte della scena rimane immutata per lunghi periodi di tempo e l’attenzione dell’osservatore è concentrata sugli oggetti in movimento che, solitamente, appaiono sporadicamente e per pochi secondi.

Sia l’H265+ che lo Smart H.265+ sono stati sviluppati sulla base dello standard HEVC H.265.

Teoricamente, il risparmio rispetto allo standard H.265 è assolutamente sorprendente: a seconda della luce ambientale (giorno/notte - che influisce sul rumore come vedremo tra poco) e dell’affollamento della scena ripresa (interni/esterni), il bitrate medio può ridursi da un minimo del 40% a un massimo del 98%.

 

Bitrate diversi

Dal momento che la percezione visiva umana relativa a un oggetto, sia durante una normale osservazione sia nell’analisi delle immagini di videosorveglianza, varia a seconda della tipologia di scena, è possibile variare i parametri di codifica, così da eliminare la ridondanza e incrementare l’efficienza.

Ad esempio, l’occhio umano presta maggiore attenzione alle riprese in interno - dove sono generalmente sufficienti bitrate da 4 Mbps per garantire una qualità soddisfacente - e meno a quelle esterne dove, invece, bastano 1-2 Mbps per ottenere gli stessi risultati.

Gli H.265+/Smart H.265+ raggiungono un’elevata efficienza perché implementano differenti strategie di codifica basate sull’analisi della scena (luce, rumore, movimenti ecc.).

Si parla, quindi, di “Dynamic ROI” (area di interesse dinamica) e di “Dynamic GOP” (gruppo di immagini dinamico).

Se consideriamo che gli operatori della videosorveglianza sono interessati molto più agli oggetti in movimento (persone, automezzi, ecc.) che allo sfondo (statico), è possibile individuare aree differenti e applicare a ciascuna un livello di compressione diverso, solitamente più alto per gli oggetti chiave (quelli in movimento) e più basso per lo sfondo e gli altri elementi non importanti.

Visto che gli elementi dinamici, solitamente, compaiono sulla scena per brevi periodi, è facile intuire che la diversificazione del bitrate apporta grandi benefici in termini di risparmio di banda e storage. Nell’immagine in figura 1 sono evidenziati due elementi: il primo, delimitato da una linea rossa (F), è l’autobus che percorre la strada su cui è concentrata l’attenzione dell’operatore, mentre il secondo (B) è lo sfondo, ovvero tutto il resto dell’immagine.

 

Analisi e gestione differenziata

Gli attuali algoritmi di compressione sono basati su fotogrammi ibridi, ovvero creati in base alle informazioni estratte da quelli immediatamente precedenti e successivi.

L’I-Frame contiene un’immagine perfettamente definita in tutti i suoi particolari: non richiede altri fotogrammi per essere decodificato, è il meno compresso e, quindi, quello che occupa più spazio.

Il P-Frame può utilizzare i dati del fotogramma precedente e contiene solo la parte dell’informazione dell’immagine che è cambiata rispetto al fotogramma precedente, come, ad esempio, un soggetto in movimento su uno sfondo fisso.

Per migliorare la compressione complessiva della sequenza video e, in particolare, degli I-Frame, le cui informazioni risultano ripetitive se lo sfondo non cambia, gli H.265+/Smart H.265+ adottano la strategia dei GOP dinamici (D-GOP), inserendo gli I-Frame aggiuntivi solo in presenza di modifiche sostanziali alla scena.

La lunghezza del GOP può quindi essere adattata dinamicamente a seconda delle reali applicazioni della videosorveglianza, migliorando ulteriormente l’efficienza rispetto alla sola differenziazione del bitrate tra oggetto in movimento e sfondo.

Nella figura 3 è riportato un tipico esempio di ripresa video con GOP fisso, ovvero con intervallo tra due I-Frame non modificabile e impostato generalmente a 2 secondi.

Si tratta di uno spreco di risorse nel caso frequente in cui la telecamera riprende una scena totalmente statica per lunghi periodi di tempo, come, ad esempio, gli spazi lavorativi di un’azienda quando il personale è assente oppure quelli commerciali di un negozio durante la chiusura.

L’utilizzo del GOP dinamico (D-GOP - figura 4), ovvero l’inserimento degli I-Frame solo quando la scena inquadra un oggetto in movimento, riduce questi sprechi, non compromette la qualità delle immagini ma potrebbe addirittura incrementarla scegliendo un bitrate più elevato.

 

Struttura dei fotogrammi di riferimento

Gli H.265+/Smart H.265+ aggiungono una struttura dei fotogrammi di riferimento decisamente più flessibile rispetto agli standard da cui derivano, grazie all’adozione delle tecniche “Dual-Frame Reference” e “Virtual I-Frame”.

Contrariamente alle codifiche standard che utilizzano un solo fotogramma di riferimento (Single-Frame - I-Frame o quello precedente), la tecnica Dual-Frame ne utilizza due a cui si aggiunge poi l’IDR (Instantaneous Decoder Refresh).

Nella figura 5, il secondo P-Frame fa riferimento sia all’IDR (frame 0) sia al primo P-Frame.

Nelle scene in movimento, la Dual-Frame permette di rilevare più efficacemente il blocco di riferimento rispetto al Single-Frame, così da garantire una separazione più netta e accurata dell’oggetto in movimento rispetto allo sfondo.

La tecnica Virtual I-Frame permette, invece, al P-Frame di puntare al precedente IDR come l’unico fotogramma di riferimento (il 5° P-Frame all’IDR 0 nella figura 5), in modo da abilitare la funzione di inserimento/aggiunta ogni volta che si rende necessario invece di fare riferimento al precedente P-Frame.

 

Rumore: un taglio netto

Il rumore video è una componente il cui livello è inversamente proporzionale alla quantità di luce ambientale e, come le altre informazioni (spesso anche di più), occupa spazio (in questo caso inutile).

Per eliminare questo spreco e migliorare l’intelligibilità della scena, si utilizzano filtri di riduzione del rumore.

Seppur personalizzabili, faticano a trovare il giusto bilanciamento tra risparmio di banda e qualità dell’immagine: se troppo blandi, assicurano un buon livello di dettaglio ma fanno innalzare il bitrate, mentre, se troppo invasivi, rischiano di cancellare dettagli importanti presenti nelle riprese.

Per superare questo limite, le tecnologie H.265+/Smart e H.265+ sfruttano ancora una volta l’analisi video intelligente per separare e distinguere l’area dove si verificano i movimenti da tutto il resto, applicando diversi livelli di filtraggio del rumore (figura 6).

La versione “plus” del codec H.265+ si spinge addirittura oltre, introducendo (come già fatto per l’H.264+), il controllo del bitrate a lungo termine, per consentire all’encoder di adattarsi automaticamente alle condizioni ambientali e raggiungere il valore di compressione ottimale.

Per fare questo, si utilizza il concetto di “bitrate medio” calcolato su vari intervalli di tempo, solitamente nell’arco delle 24 ore.

 

Giacomo Bozzoni

 

Pubblica i tuoi commenti