Stopwörter
In jeder Sprache werden mehr oder weniger viele Wörter verwendet, die für die Bedeutung eines Satzes relativ unwichtig sind. Das sind vorwiegend unbestimmte Artikel, oder Formen von sein. Dies Wörter werden als "Stop Words" bezeichnet.
In der Bibliothek nltk gibt es Listen von diesen Wörtern in verschiedenen Sprachen. Diese Bibliotheken müssen explizit geladen werden.
Datei: StopWords.py
# Beispiel für Stoppwörter
# 2021 Ehrenfried Stuhlpfarrer
from random import shuffle
from nltk.corpus import stopwords
stoppwoerter = stopwords.words('german')
print("Stoppwörter: ", stoppwoerter[:5])
zufaellig = stopwords.words('german')
shuffle(zufaellig)
print("Zufällige Anordnung der Stoppwörter: ", zufaellig[:5])
Stoppwörter: ['aber', 'alle', 'allem', 'allen', 'aller'] Zufällige Anordnung der Stoppwörter: ['ihre', 'keinem', 'unsere', 'welche', 'seinem']