Zum Inhalt springen

Audio-basierte Segmenterkennung mit Deep Learning

Bei AudioIndex analysieren wir Medieninhalte, darunter Radio. Hierfür werden Sendungssegmente klassifiziert – Nachrichten, Werbung, Moderation, Musik, Layout, etc.
Audio-basierte Methoden (im Vergleich zu Text-basierten) werden dabei immer wichtiger.

Die Frage: Wie performen dabei unterschiedliche Ansätze im Vergleich?

Herbert Grünsteidl hat genau das in seiner Masterarbeit im Studiengang AI Engineering an der FH Technikum Wien untersucht. In Zusammenarbeit mit AudioIndex.

Warum Audio-basiert?

Klassische Ansätze setzen auf Speech-to-Text und NLP. Das funktioniert – hat aber Grenzen: hoher Rechenaufwand, Sprachabhängigkeit, Probleme bei Dialekten, überlappenden Sprechern oder musikreichem Audio.

Der alternative Ansatz: Direkt auf dem Audiosignal arbeiten. Mel-Spektrogramme dienen als visuelle Repräsentation, über die via Deep Learning klassifiziert werden kann.

Mel-Spektrogramme der verschiedenen Klassen
Mel-Spektrogramme der verschiedenen Klassen

Die Datenbasis

Rund 110 Stunden Audio von Radio Niederösterreich. Acht Segmentklassen:

MusikSongs, instrumentale Segmente
JingleStationskennungen, Übergänge
NachrichtenNachrichtensendungen
BeitragBerichte, Features
Nachrichten VerkehrVerkehrsmeldungen
Nachrichten WetterWetterbericht
Nachrichten SportSportnachrichten
WerbungWerbespots

Die Audiodaten wurden in 2-Sekunden-Segmente zerlegt und als Mel-Spektrogramme für das Training aufbereitet.

Der Modellvergleich

Drei Deep-Learning-Architekturen im direkten Vergleich:

ModellTypAccuracyInferenzzeit
ResNet-18CNN90,4%0,055s
ASTTransformer91,4%0,080s
YAMNetEmbedding-basiert84,9%0,101s
Ensemble (ResNet + AST)Kombiniert92,7%0,136s
Hinweis: Evaluation auf dem unbalancierten Validierungsset – also der natürlichen Klassenverteilung im Radio. Es dominiert Musik (wird zu ~99% erkannt), was die gesamte Accuracy nach oben hebt.

Alle Modelle durchliefen einen zweistufigen Trainingsprozess: Vortraining auf gelabelten Daten, anschließend Feinabstimmung auf manuell annotierten Segmenten.

Die Ergebnisse im Detail

Was sehr gut funktioniert:

  • Musik wird nahezu perfekt erkannt (bis 99% Accuracy)
  • Nachrichten-Subkategorien (Verkehr, Wetter, Sport) werden kaum verwechselt – obwohl sie thematisch verwandt sind
  • Die Inferenzzeiten ermöglichen Echtzeitanwendungen

Wo es schwieriger wird:

  • Werbung bleibt die größte Herausforderung – oft akustisch kaum von Beiträgen zu unterscheiden
  • Sportnachrichten variieren stark im Stil: mal eingebettet in reguläre News, mal mit Hintergrundmusik und höherer Energie

Learnings

  1. Audio-basierte Klassifizierung funktioniert.
    Spektrogramm-basierte Modelle erreichen über 90% Accuracy bei der Segmentklassifikation – und das sprachunabhängig.
  2. Ensemble-Ansätze lohnen sich.
    Die Kombination aus CNN und Transformer übertrifft beide Einzelmodelle. Ein Ansatz, der sich auf andere Audio-Klassifikationsprobleme übertragen lässt.
  3. Datenqualität ist entscheidend.
    Eindeutige Klassendefinitionen und präzise Segmentgrenzen sind die Grundlage für jedes gute Modell. Unschärfen im Labeling begrenzen die erreichbare Performance.
  4. Echtzeitfähigkeit ist gegeben.
    Mit Inferenzzeiten unter 0,1 Sekunden pro 2-Sekunden-Segment sind diese Modelle für Live-Anwendungen geeignet.

Fazit

Die Zusammenarbeit mit Herbert war ein Gewinn für beide Seiten.

Die Arbeit liefert eine solide Grundlage für weitere Entwicklungen – insbesondere im Bereich multimodaler Ansätze, die Audio, Text und Metadaten kombinieren.

Wir gratulieren Herbert zum erfolgreichen Abschluss!

*Herbert Grünsteidl, BSc, hat seine Masterarbeit „Audio-Based Classification and Segment Detection of Radio Broadcasts Using Machine Learning Tools“ im Studiengang AI Engineering an der FH Technikum Wien eingereicht (Juni 2025). Betreut wurde die Arbeit von Dr. Rosana De Oliveira Gomes (FHTW) und Johannes Busching (AudioIndex).*