AI Artificial Intelligence

Viele Teile ergeben ein Ganzes! Die Kunst unwichtige Details zu vermeiden!

Tokenization

Einer der wichtigsten Schritte ist es, das Muster in einem Text zu erkennen.

Tokenization ist das Aufteilen von Text in kleine Stücke, diese heißen Tokens. Um "Tokenization" zu erreichen gibt es das Paket nltk.tokenize. 

Ein Beispiel - Datei: tokenizeTest.py

import nltk
from nltk import word_tokenize

print("word tokenize: ", word_tokenize("This module can be used for basic tokenizing of sentences into words."))
print("word tokenize: ",word_tokenize("Geht das auch in Deutsch."))

# Wenn der Text aus mehreren Sätzen besteht
from nltk.tokenize import TreebankWordTokenizer

satz = "Ich bin der erste Satz. \n Ich bin der zweite\n."
print("TreebankWordTokenizer: ",TreebankWordTokenizer().tokenize(satz))
-------------------------------------------------------------------------
word tokenize:  ['This', 'module', 'can', 'be', 'used', 'for', 'basic', 'tokenizing', 'of', 'sentences', 'into', 'words', '.']
word tokenize:  ['Geht', 'das', 'auch', 'in', 'Deutsch', '.']
TreebankWordTokenizer:  ['Ich', 'bin', 'der', 'erste', 'Satz.', 'Ich', 'bin', 'der', 'zweite', '.']
-------------------------------------------------------------------------
 Weiters gibt es noch: WordPunctTokenizer, RegexpTokenizer und Tokenizig Paragraphs.

KI

Copyright © 2022. All Rights Reserved. Ehrenfried Stuhlpfarrer