Methodik der Datenerhebung
So funktioniert verworfen.at:
- Automatisierte Erfassung: Die Überschriftenänderungen auf verworfen.at werden automatisiert erfasst, indem die Startseite von news.orf.at regelmäßig analysiert wird.
- Automatisierte Datensammlung: Alle 10 Minuten ruft ein Python-Skript den HTML-Code der ORF-Nachrichtenseite ab. Dies geschieht über eine reguläre HTTP-Anfrage mit der Bibliothek
requests
.
- Extraktion der Schlagzeilen: Mit
BeautifulSoup
werden die Überschriften aus bestimmten HTML-Elementen ausgelesen. Dabei werden sowohl <h1>
-Überschriften als auch <h3>
-Elemente berücksichtigt - dies beinhaltet die bebilderten Top-Schlagzeilen, sowie die Artikel-Headlines darunter.
- Speicherung und Abgleich: Die extrahierten Schlagzeilen werden in einer MySQL-Datenbank gespeichert. Dabei wird jede neue Überschrift mit den zuletzt gespeicherten Einträgen verglichen. Wenn sich eine Überschrift zu einem bereits bekannten Artikel geändert hat, wird diese Änderung mit einem Zeitstempel dokumentiert.
- Darstellung der Änderungen: Die gesammelten Daten werden auf verworfen.at in einer Tabelle dargestellt. Nutzer*innen können die letzten 20 oder 100 Änderungen einsehen oder im Archiv nach Monaten sortiert stöbern.
- Zeichenbasierter Filter: Um geringfügige Änderungen herauszufiltern, wie das Einfügen von Bindestrichen oder die Umstellung einzelner Wörter, nutzt verworfen.at eine SQL-Funktion zur Berechnung der Levenshtein-Distanz. Diese Funktion bestimmt, wie viele Zeichenänderungen (Einfügungen, Löschungen oder Ersetzungen) erforderlich sind, um eine geänderte Überschrift in die ursprüngliche Version umzuwandeln. Nutzer*innen können über eine Filteroption wählen, ob nur Überschriftenänderungen mit einer Differenz von mehr als fünf Zeichen angezeigt werden sollen. Dadurch werden minimale stilistische Anpassungen ausgeblendet.
- Ausblenden von Sportmeldungen: Da viele Nutzer*innen hauptsächlich an politischen, wirtschaftlichen oder gesellschaftlichen Themen interessiert sind, bietet verworfen.at eine Filteroption, um Sportmeldungen auszublenden. Dabei wird geprüft, ob die URL eines Artikels auf sport.orf.at verweist.
- Hinweis zu Formatänderungen: Die Überschriften der bebilderten Top-Stories auf der ORF-Nachrichtenseite folgen häufig dem Muster „Thema XY: Konflikt zwischen A und B eskaliert“. Wenn diese Artikel aus den Top-Stories verschwinden und in die Liste der regulären Schlagzeilen verschoben werden, ändert sich oft die Formulierung – meist ohne inhaltliche Änderung. Ein Beispiel: „Konflikt zwischen A und B zu Thema XY eskaliert“. Der Vollständigkeit halber werden auch solche rein stilistischen Anpassungen in der Liste der Überschriftenänderungen erfasst.
- Einschränkungen: Da ausschließlich die öffentlich sichtbaren Überschriften auf der ORF-Startseite analysiert werden, können Änderungen innerhalb von Artikeln oder auf Unterseiten nicht erfasst werden. Es kann vorkommen, dass die auf der Startseite verlinkten Artikeln andere Überschriften aufweisen als der Beitragstitel auf der Übersichtsseite. Zudem ist nicht ausgeschlossen, dass sich technische Änderungen auf ORF.at auf die Erfassungsmethode auswirken.
verworfen.at ist ein Open Source Projekt und Sie können den Quellcode bei GitHub einsehen. Wenn Sie Fehler finden oder Verbesserungsvorschläge haben, nehmen Sie bitte Kontakt auf.
Zurück zur Startseite