Isolated audio track containing only one element (dialogue, music, effects).
Technische Details
Standard-Stems werden als 24-Bit/48kHz-Dateien in WAV- oder AIFF-Format geliefert, bei Kinofilmen häufig auch als 24-Bit/96kHz. Ein typisches 5.1-Stem-Set besteht aus sechs separaten Kanälen (L, C, R, Ls, Rs, LFE), während moderne 7.1.2-Atmos-Produktionen bis zu zehn Kanäle pro Stem umfassen. Die gängige Praxis unterscheidet zwischen Pre-Dub-Stems (Zwischenmischungen einzelner Kategorien) und Final-Stems (endgültige Tongruppen nach dem finalen Mix). Stems werden typischerweise mit -20dBFS Referenzpegel erstellt und enthalten keine Kompression oder Limiting.
Geschichte & Entwicklung
Die Stem-Technik entwickelte sich in den 1970er Jahren parallel zur Mehrkanal-Tontechnik, als Studios begannen, separate Tonelemente für internationale Verwertung zu archivieren. Mit der Einführung digitaler Workstations wie Pro Tools (1991) und Fairlight (1979) wurde die Erstellung von Stems standardisiert. Der Übergang zu objektbasiertem Audio (Dolby Atmos, 2012) erweiterte das Konzept um Stem-Objects, die räumliche Metadaten enthalten. Moderne Streaming-Plattformen wie Netflix fordern seit 2018 obligatorisch separate Stems für alle Originalproduktionen.
Praxiseinsatz im Film
Christopher Nolans "Dunkirk" (2017) nutzte separate Stems für Hans Zimmers Shepard-Ton-Komposition, um nachträglich Intensitätsvariationen für verschiedene Szenenversionen zu ermöglichen. Bei "Mad Max: Fury Road" (2015) erstellte Sound Designer Mark Mangini über 40 Fahrzeug-Stems, die individuell für jede Actionsequenz neu kombiniert wurden. Stems ermöglichen nachträgliche Anpassungen ohne Zugriff auf die ursprünglichen Pro-Tools-Sessions und sind essentiell für internationale Versionen, da Dialog-Stems durch lokalisierte Fassungen ersetzt werden können.
Vergleich & Alternativen
Stems unterscheiden sich von Tracks (einzelne Audiospuren) durch ihre bereits gemischte Beschaffenheit und von Laybacks (fertige Mischungen) durch ihre Editierbarkeit. ADM-BWF-Dateien (Audio Definition Model) ersetzen zunehmend traditionelle Stems, da sie neben Audio auch Rendering-Informationen enthalten. Für reine Stereo-Produktionen genügen oft einfache Track-Exports, während komplexe VR-Produktionen auf ambisonische Stems in B-Format setzen. Netflix-Produktionen erfordern M&E-Stems (Music & Effects) ohne Dialog für internationale Verwertung.