Machine-Learning-Modelle im Vergleich
Bei AudioIndex analysieren wir Medieninhalte, darunter Radio. Hierfür werden Sendungssegmente klassifiziert – Nachrichten, Werbung, Moderation, Musik, Layout, etc.
Audio-basierte Methoden (im Vergleich zu Text-basierten) werden dabei immer wichtiger.
Die Frage: Wie performen dabei unterschiedliche Ansätze im Vergleich?
Herbert Grünsteidl hat genau das in seiner Masterarbeit im Studiengang AI Engineering an der FH Technikum Wien untersucht. In Zusammenarbeit mit AudioIndex.
Warum Audio-basiert?
Klassische Ansätze setzen auf Speech-to-Text und NLP. Das funktioniert – hat aber Grenzen: hoher Rechenaufwand, Sprachabhängigkeit, Probleme bei Dialekten, überlappenden Sprechern oder musikreichem Audio.
Der alternative Ansatz: Direkt auf dem Audiosignal arbeiten. Mel-Spektrogramme dienen als visuelle Repräsentation, über die via Deep Learning klassifiziert werden kann.

Die Datenbasis
Rund 110 Stunden Audio von Radio Niederösterreich. Acht Segmentklassen:
| Musik | Songs, instrumentale Segmente |
| Jingle | Stationskennungen, Übergänge |
| Nachrichten | Nachrichtensendungen |
| Beitrag | Berichte, Features |
| Nachrichten Verkehr | Verkehrsmeldungen |
| Nachrichten Wetter | Wetterbericht |
| Nachrichten Sport | Sportnachrichten |
| Werbung | Werbespots |
Die Audiodaten wurden in 2-Sekunden-Segmente zerlegt und als Mel-Spektrogramme für das Training aufbereitet.
Der Modellvergleich
Drei Deep-Learning-Architekturen im direkten Vergleich:
| Modell | Typ | Accuracy | Inferenzzeit |
|---|---|---|---|
| ResNet-18 | CNN | 90,4% | 0,055s |
| AST | Transformer | 91,4% | 0,080s |
| YAMNet | Embedding-basiert | 84,9% | 0,101s |
| Ensemble (ResNet + AST) | Kombiniert | 92,7% | 0,136s |
Alle Modelle durchliefen einen zweistufigen Trainingsprozess: Vortraining auf gelabelten Daten, anschließend Feinabstimmung auf manuell annotierten Segmenten.
Die Ergebnisse im Detail
Was sehr gut funktioniert:
- Musik wird nahezu perfekt erkannt (bis 99% Accuracy)
- Nachrichten-Subkategorien (Verkehr, Wetter, Sport) werden kaum verwechselt – obwohl sie thematisch verwandt sind
- Die Inferenzzeiten ermöglichen Echtzeitanwendungen
Wo es schwieriger wird:
- Werbung bleibt die größte Herausforderung – oft akustisch kaum von Beiträgen zu unterscheiden
- Sportnachrichten variieren stark im Stil: mal eingebettet in reguläre News, mal mit Hintergrundmusik und höherer Energie
Learnings
- Audio-basierte Klassifizierung funktioniert.
Spektrogramm-basierte Modelle erreichen über 90% Accuracy bei der Segmentklassifikation – und das sprachunabhängig. - Ensemble-Ansätze lohnen sich.
Die Kombination aus CNN und Transformer übertrifft beide Einzelmodelle. Ein Ansatz, der sich auf andere Audio-Klassifikationsprobleme übertragen lässt. - Datenqualität ist entscheidend.
Eindeutige Klassendefinitionen und präzise Segmentgrenzen sind die Grundlage für jedes gute Modell. Unschärfen im Labeling begrenzen die erreichbare Performance. - Echtzeitfähigkeit ist gegeben.
Mit Inferenzzeiten unter 0,1 Sekunden pro 2-Sekunden-Segment sind diese Modelle für Live-Anwendungen geeignet.
Fazit
Die Zusammenarbeit mit Herbert war ein Gewinn für beide Seiten.
Die Arbeit liefert eine solide Grundlage für weitere Entwicklungen – insbesondere im Bereich multimodaler Ansätze, die Audio, Text und Metadaten kombinieren.
Wir gratulieren Herbert zum erfolgreichen Abschluss!
—
*Herbert Grünsteidl, BSc, hat seine Masterarbeit „Audio-Based Classification and Segment Detection of Radio Broadcasts Using Machine Learning Tools“ im Studiengang AI Engineering an der FH Technikum Wien eingereicht (Juni 2025). Betreut wurde die Arbeit von Dr. Rosana De Oliveira Gomes (FHTW) und Johannes Busching (AudioIndex).*