Il Video VM è dedicato alla ``rappresentazione basata sul contenuto'' dei dati video. Una sequenza video è data dalla composizione degli Oggetti Video (VO, per Video Objects), ognuno dei quali ha precise proprietà, quali la forma, il movimento e la texture (``tessitura'', ovvero ciò che appare all'interno dei confini definiti dalla forma). La rappresentazione basata sul contenuto è fondamentale per consentire all'utente l'accesso e la manipolazione di oggetti di forma arbitraria.
Il processo di formazione di un VO dipende dall'applicazione e dal sistema in uso: un VO può essere una semplice matrice rettangolare di pixel, o un oggetto sintetico bi- o tridimensionale, o altro. Questo processo non viene standardizzato da MPEG-4, si richiede solo che gli oggetti prodotti siano conformi agli standard di decodifica previsti. Tuttavia, un Video VM deve essere completamente definito, e quindi occorre dare una definizione sia alla codifica che alla decodifica di un VO. Attualmente, si usa la seguente convenzione: un VO è un'intera sequenza video, oppure una parte di un frame della sequenza.
Dopo la decompressione, un VO è rappresentato come un insieme di componenti YUV e di informazioni sulla forma, memorizzate per ogni frame a intervalli temporali prestabiliti. Il modello non definisce esplicitamente un frame rate, ciò significa che il codificatore e il decodificatore possono funzionare a differenti frame rate, che non devono necessariamente essere costanti per tutta la sequenza video.
L'utente può interagire a diversi livelli:
La figura
mostra il codificatore e il decodificatore video: la struttura è simmetrica, eccetto per il blocco di composizione dopo il demultiplexer.