Automatisiertes Clustering von Texten mit Self-Organizing Maps
Thesis Type | Bachelor |
Thesis Status |
Finished
|
Student | Yusuf Ipek |
Init |
|
Final |
|
Start |
|
Thesis Supervisor | |
Contact | |
Research Field |
Durch die Extraktion verschiedenster Merkmale eines Textes können u.a. Autoren zugeordnet, Plagiate erkannt aber auch Ähnlichkeiten zwischen Texten bestimmt werden.
Ziel dieser Arbeit ist es, sämtliche Bücher, die in der Project Gutenberg - Bibliothek frei zugänglich sind, zu analysieren und nach Ähnlichkeit zu gruppieren. Die zu verwendende Methode dabei basiert auf sog. Self-Organizing Maps (SOM), die das Gruppieren aufgrund der gelieferten Merkmale semiautomatisch durchführen. Die berechneten SOM's sollen schlussendlich grafisch ansprechend in einer Web-Applikation interaktiv präsentiert werden.