Als Followup auf meinen Artikel
"Das freie Wort" dataminen habe ich mir noch die Mühe gemacht, sämtliche Beiträge in DFW runterzuladen, die eigentlichen Texte zu extrahieren, und diese dann mit Hilfe von
Wortwolken zu visualisieren (als Tool dafür kam
wordle.net zum Einsatz).
Wortwolke November/Dezember 2006:
Wortwolke 2007:
Wortwolke 2008:
Wortwolke 2009:
Wortwolke Mai-Juli 2009:
Eine Wortwolke des gesamten Textkorpus habe ich nicht generiert, da wordle.net mit der Textmenge von 25 MB nicht zurechtkommt. Aus Gründen der einfachen Umsetzung habe ich auf
Stemming verzichtet, und mich ebenso beim Filtern von
Stoppwörtern auf die in wordle.net integrierte Funktionalität dafür verlassen.
Die Rohdaten gibt's wieder zum Download, und zwar
hier.
Eine meiner Meinung nach deutlich umfassendere und auch visuell interessantere Analyse der "Krone"-Leserbriefe von 2008 findet sich übrigens bei
wissenbelastet.com, sehr empfehlenswert.