KI Elemente

Viele Teile ergeben ein Ganzes! Die Kunst unwichtige Details zu vermeiden!

Textdaten

Arbeitet man mit Texten, dann müssen diese irgendwie in Eingabevektoren umgewandelt werden.

Mehrere Schritte sind meistens als Vorarbeit erforderlich:

  • Cleaning - Säubern
  • Removal - Entfernen
  • Stem - Wortwurzln
  • Tokenization - Tokenisierung

Es gibt eine Python-Bibliothek namens "nltk", die uns bei Experimenten hilfreich ist:

Hier der hilfreiche Link für die Installation: https://riptutorial.com/nltk

In Kombination mit Anaconda: 

conda install nltk
Python - Datei: TestDownloadNltk.py


Für die Versuche: Popular packages herunterladen. Nicht vergessen: Passendes Download - Directory auswählen.

Beispiel: Text in Tokens (Folge von zusammengehörigen Zeichen) aufteilen.
Datei: Tokens.py
import nltk
from nltk.tokenize import word_tokenize
# Eingabetext in Einzelteile aufteilen
derText = "Meist bezeichnet künstliche Intelligenz den Versuch, bestimmte Entscheidungsstrukturen des Menschen nachzubilden."

tokens = nltk.word_tokenize(derText, 'german')
print("Die Einzelteile: ", tokens)

# Interpunktion liefert keine Information und muss entfernt werden
# Eine Normalisierung auf Kleinschreibung erfolgt gleichzeitig
tokens = [w.lower() for w in tokens]
worte = [w for w in tokens if w.isalpha()]
print("Ohne Punktation und klein: ", worte)
Die Einzelteile:  ['Meist', 'bezeichnet', 'künstliche', 'Intelligenz', 'den', 'Versuch', ',', 'bestimmte', 'Entscheidungsstrukturen', 'des', 'Menschen', 'nachzubilden', '.']
Ohne Punktation und klein:  ['meist', 'bezeichnet', 'künstliche', 'intelligenz', 'den', 'versuch', 'bestimmte', 'entscheidungsstrukturen', 'des', 'menschen', 'nachzubilden']


KI

Copyright © 2021. All Rights Reserved. Ehrenfried Stuhlpfarrer