Stemming
Eine wichtige Technik, die den Text von Satzzeichen befreit. Weiters werden die Wörter auf das vermeintlich Wesentliche reduziert. Dies ist wichtig für Suchmaschinen, da nicht alle Variationen von Wörtern durchsucht werden müssen.
Beispiel für Stemmer - Datei: StemmingTest.py
import nltk
from nltk.stem import PorterStemmer
stemming_word = PorterStemmer()
print("Portstemmer: ", stemming_word.stem("writing"))
print("Portstemmer: ", stemming_word.stem("working"))
from nltk.stem import LancasterStemmer
stemmein_Lanc = LancasterStemmer()
print("Lancaster Stemmer:", stemmein_Lanc.stem("reads"))
print("Lancaster Stemmer:", stemmein_Lanc.stem("sweets"))
# Snowball Stemmer - unterstützt 15 nicht englische Sprachen
from nltk.stem import SnowballStemmer
# Welche Sprachen werden unterstützt?
print("Unterstützte Sprachen: ", SnowballStemmer.languages)
Language_German = SnowballStemmer("german")
print("German Stemmer:", Language_German.stem("autofahrend"))
-------------------------------------------------------------------------
Portstemmer: write Portstemmer: work Lancaster Stemmer: read Lancaster Stemmer: sweet Unterstützte Sprachen: ('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish') German Stemmer: autofahr
-------------------------------------------------------------------------