L'architettura MPEG-4 supporta la composizione di scene ibride, contenenti oggetti sia naturali che sintetici. Più oggetti possono essere raggruppati in un oggetto composito, e oggetti compositi possono essere suddivisi in sotto-oggetti. Ogni oggetto può essere manipolato individualmente nello spazio tridimensionale specificando una trasformazione dal sistema di coordinate locali a un altro sistema di coordinate qualsiasi; l'utente specifica tale trasformazione di coordinate controllando il punto di osservazione di una scena. L'utente può selezionare ogni oggetto, ad esempio tramite un mouse: l'evento viene passato ad un gestore di eventi, che si occupa della distribuzione degli eventi agli oggetti di competenza; il risultato della selezione può essere il cambiamento di colore o forma dell'oggetto. Effetti speciali, quali dissolvenze, possono essere realizzati tramite combinazione di alpha-blending e trasformazioni di coordinate.
Gli oggetti audio sono accoppiati a quelli video. Ciò permette la localizzazione di un suono in uno spazio tridimensionale, e l'interazione tra la sorgente audio e altri oggetti nella scena.
I sistemi di coordinate comprendono anche la dimensione tempo, che permette lo scalamento e il posizionamento arbitrario di un oggetto nel tempo. Ad esempio, l'avanzamento veloce può essere applicato ad un solo oggetto nella scena. La composizione gerarchica di oggetti è supportata tramite multiplazione gerarchica del bitstream. Differenti algoritmi di compressione possono essere scaricati, permettendo future evoluzioni dello standard.