Sprachmerkmale extrahieren
Nachdem das Signal in den Frequenzbereich konvertiert wurde, kann man nun die Merkmale extrahieren. Im Beispiel wird MFCC verwendet.
Die Mel Frequency Cepstral Coefficients (MFCC; deutsch Mel-Frequenz-Cepstrum-Koeffizienten) werden zur automatischen Spracherkennung verwendet. Sie führen zu einer kompakten Darstellung des Frequenzspektrums. Das Mel im Namen beschreibt die wahrgenommene Tonhöhe.
MFCCs werden auch zur Analyse von Musik herangezogen. Insbesondere werden sie für die Erkennung von Musikstücken eingesetzt, um ihnen Metadaten zuordnen zu können.
pip install python_speech_features
Beispiel - Datei: ExtractingFeaturesFromSpeech.py
sd