AI Artificial Intelligence

Viele Teile ergeben ein Ganzes! Die Kunst unwichtige Details zu vermeiden!

Stemming

Eine wichtige Technik, die den Text von Satzzeichen befreit. Weiters werden die Wörter auf das vermeintlich Wesentliche reduziert. Dies ist wichtig für Suchmaschinen, da nicht alle Variationen von Wörtern durchsucht werden müssen.

Beispiel für Stemmer - Datei: StemmingTest.py

import nltk
from nltk.stem import PorterStemmer
stemming_word = PorterStemmer()
print("Portstemmer: ", stemming_word.stem("writing"))
print("Portstemmer: ", stemming_word.stem("working"))

from nltk.stem import LancasterStemmer
stemmein_Lanc = LancasterStemmer()
print("Lancaster Stemmer:", stemmein_Lanc.stem("reads"))
print("Lancaster Stemmer:", stemmein_Lanc.stem("sweets"))

# Snowball Stemmer - unterstützt 15 nicht englische Sprachen
from nltk.stem import SnowballStemmer
# Welche Sprachen werden unterstützt?
print("Unterstützte Sprachen: ", SnowballStemmer.languages)

Language_German = SnowballStemmer("german")
print("German Stemmer:", Language_German.stem("autofahrend"))
-------------------------------------------------------------------------
Portstemmer:  write
Portstemmer:  work
Lancaster Stemmer: read
Lancaster Stemmer: sweet
Unterstützte Sprachen:  ('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')
German Stemmer: autofahr
-------------------------------------------------------------------------

KI

Copyright © 2022. All Rights Reserved. Ehrenfried Stuhlpfarrer