KI Elemente

Viele Teile ergeben ein Ganzes! Die Kunst unwichtige Details zu vermeiden!

Worte in einen Vektor überführen

Um mit Texten zu arbeiten ist es erforderlich die gesäuberte Wortliste in einen Vektor überzuführen. Es geht vorwiegend um die Häufigkeit des Vorkommens von Wörtern. Der Fachbegriff dafür lautet "Bag - of Words". Dabei wird jedes Dokument durch einen Vektor dargestellt und jede Koordinate repräsentiert ein Wort. Wie oft kommt ein Wort im Dokumenttext vor? Genau diesen Wert enthält diese Koordinate.

Die Python Bibliothek sciKit-learn ist dabei sehr hilfreich.

Datei: TextInVektor.py

# Umwandlung von Text in einen Vektor
# Koordinate = Häufigkeit des Wortes

from sklearn.feature_extraction.text import CountVectorizer

derText = ["Meist bezeichnet künstliche Intelligenz den Versuch, bestimmte Entscheidungsstrukturen des Menschen nachzubilden."]

cout_vector = CountVectorizer()
ergebnis = cout_vector.fit_transform(derText)
print(cout_vector.vocabulary_)

{'meist': 7, 'bezeichnet': 1, 'künstliche': 6, 'intelligenz': 5, 'den': 2, 'versuch': 10, 'bestimmte': 0, 'entscheidungsstrukturen': 4, 'des': 3, 'menschen': 8, 'nachzubilden': 9}

KI

Copyright © 2021. All Rights Reserved. Ehrenfried Stuhlpfarrer