Datenjournalismus

Aus MedienWiki

Wechseln zu: Navigation, Suche

Datenjournalismus ist eine Form des Journalismus, die Daten zum zentralen Gegenstand der Berichterstattung macht. Datenjournalismus umfasst neben der Recherche in Datenbanken auch die Analyse, Validierung, Visualisierung und Publikation von Daten.




Begriff

Lorenz Matzat, Gründer der Datenjournalismus-Agentur Open Data City und einer der führenden Datenjournalisten in Deutschland, definiert den Begriff so: „Datenjournalismus setzt auf Datensätze nicht nur als Recherchequelle, sondern macht die Daten zum zentralen Gegenstand der Geschichte und deren Präsentation. Dabei liegt er in der Schnittmenge von drei Bereichen: erstens visueller Journalismus oder Infografiken, zweitens multimediales und interaktives Storytelling und drittens investigativer Journalismus“. (Quelle: http://www.bpb.de/gesellschaft/medien/opendata/64069/datenjournalismus)

Führend im Datenjournalismus sind amerikanische und britische Journalisten, im englischen Sprachraum ist der Begriff „data driven journalism“ (DDJ) - wörtlich übersetzt: Daten-getriebener Journalismus - gebräuchlich. Der Begriff "data-driven-journalism" ist treffender als das deutsche Wort Datenjournalismus, da die journalistische Berichterstattung mit Unterstützung von Datensätzen erfolgt. Veröffentlicht werden datenjournalistische Projekte in der Regel im Internet in Form von interaktiven Anwendungen, die auf Datenbanken zugreifen.

Datenjournalismus ist die aktive journalistische Auseinandersetzung mit einem Datensatz: Entweder mit dem Ziel, eine These mit Hilfe von Datenmaterial zu untermauern. Oder offen an einen vermeintlich interessanten Datensatz heranzugehen und mit journalistischen Kriterien nach einer Geschichte in den Daten zu suchen. Die reine Wiedergabe von Statistiken wie Wahl- oder Meinungsumfragen oder Sporttabellen ist also kein Datenjournalismus.

Ambitioniert gemachter Datenjournalismus bringt viele Vorteile: Journalisten können Geschichten anhand von Datenmaterial belegen, Informationen strukturieren, Relevanz in Themen bringen und neue Ansätze für die Art, Geschichten zu erzählen, sprich fürs Storytelling, gewinnen. Beim Publikum wächst das Verständnis für das Wie und Warum eines Sachverhalts. Bei interaktiven Grafiken können sie zudem selbst bestimmen, wie tief sie in ein Thema einsteigen und ambitionierte Nutzer haben immer die Möglichkeit, die Daten selbst herunterzuladen und eigene Interpretationen von offiziellen Daten vorzunehmen.


Geschichte

Datenjournalismus ist keine Erfindung des 21. Jahrhunderts. Schon 1821 hat der Guardian eine Tabelle veröffentlicht, in der die Kosten pro Schüler an den Schulen von Manchester dokumentiert wurden. 1952 sprach man erstmals vom Computer Assisted Reporting, als der Fernsehsender CBS mit einem frühen Computer den Ausgang der US-Präsidentschaftswahl richtig vorhersagte. Der amerikanische Journalist und Journalismus-Professor Philipp Meyer führte in Siebzigern den Begriff „precision journalism“ ein und plädierte für sozialwissenschaftliche Methoden auch im Journalismus. Den Begriff „Data Driven Journalism“ prägte die englische Tageszeitung The Guardian im März 2009. Im Data Store der Zeitung werden maschinenlesbare Informationen per Software miteinander verknüpft und analysiert. Das Ergebnis dient als Basis für interaktive Visualisierungen, die mit dem Datensatz und Erläuterungen zum Kontext publiziert werden. Als Wikileaks 2010 Zigtausende Datensätze des US-Militärs aus Afghanistan und Iran veröffentlichte, war das ein Katalysator für den Datenjournalismus. Große und renommierte Medien wie der Guardian, die New York Times und der SPIEGEL analysierten die hunderttausenden Datensätze und machten so das Ausmaß der Opfer transparent - aufgeschlüsselt nach (US-)Soldaten, Zivilisten oder Aufständischen. Vor allem der Guardian tat sich hier mit seiner interaktiven Zeitleiste, den Erklärvideos und der Möglichkeit, die Daten herunterzuladen, hervor. Ein noch größeres Ausmaß hatten 2013 die Offshore-Leaks. Medien aus knapp 50 Ländern taten sich hier zusammen, um die 2,5 Millionen Dokumente mit einem Datenvolumen von 260 Gigabyte auszuwerten. Die beiden Beispiele zeigen: Datenjournalismus ist investigative Recherche. Hier waren jeweils zig Journalisten, Programmierer und Designer monatelang damit beschäftigt, die riesigen Datensätze zu strukturieren, zu bereinigen, zu analysieren, die jeweilige Geschichte zu finden, zu schreiben und optisch aufzubereiten.

Daten finden

Definition von Datensätzen

Wer an Daten denkt, denkt vielleicht als erstes an Zahlen. Und in der Tat sind es oft Zahlen, die im Mittelpunkt von datenjournalistischen Anwendungen stehen: Die Zugverspätungen beim Zugmonitor der SZ, die Opferzahlen bei den Afghanistan War Logs oder die Einkommenszahlen beim Zensus. Doch all diese Zahlen gewinnen ihre Bedeutung erst im Zusammenhang mit anderen Daten: geographische Angaben, Zeiträumen oder Beziehungen zwischen Menschen.

Wenn man Informationen über Personen sammeln will, gibt es jede Mengen von Daten, die - je nach Thema und Erkenntnisinteresse - interessant sein können, hier am Beispiel von Wirtschaftsthemen illustriert:

  • Namen
  • Adressen
  • Telefonnummern
  • Handelsregistereinträge
  • Bankverbindungen
  • Schufa-Auskunft
  • Gerichtsurteile (bzw. Aktenzeichen davon)
  • Verträge
  • öffentliche Aufträge

Auch Verbindungen von Personen können relevant für eine Datengeschichte sein:

  • standesamtliche Daten über Heirat und/oder Scheidung
  • Verwandte (die Frau eines amerikanischen Gerichtsmediziners postete auf Facebook Fotos von Fernreisen, während ihr Mann sich seine angeblich nicht in Anspruch genommenen Urlaubsansprüche auszahlen ließ)
  • Freunde
  • Geschäftspartner
  • Mittelsmänner bzw. -frauen
  • Bevollmächtigte

Natürlich ist es hier reizvoll und praktisch, mit Daten zu arbeiten, die online erhältlich sind - oder einer Redaktion auf anonymem Wege zugespielt worden sind - wie die Festplatte, aus der Offshoreleaks wurde. Es wird jedoch auch immer Fälle geben, in denen Daten nur in Papierform vorliegen. Hier ist dann eine (OCR-)Software gefragt, die diese Dokumente digitalisiert.


Quellen von Datensätzen

Datensätze gibt es wie Sand am Meer. Immer mehr Institutionen stellen maschinenlesbare Datensätze zur Verfügung. An erster Stelle sind öffentliche Einrichtungen zu nennen. Immer mehr Ministerien, Ämter und Behörden stellen Statistiken auf ihren Websiten online. Besonders ergiebig ist die Website des Statistischen Bundesamtes: www.destatis.de Hier veröffentlicht der Bund z.b. Einwohner-, Arbeitslosen- oder Exportstatistiken. Die Statistischen Ämter der Bundesländer sind eine weitere lohnende Fundgrube. Zensusdaten - also Statistiken zu verschiedensten Merkmalen der Bevölkerung - werden in fast jedem Staat und von überstaatlichen Organisationen wie der EU erhoben. Im März 2013 hat die Süddeutsche Zeitung aufwändig die EU-Zensusdaten ausgewertet und visualisiert: http://www.sueddeutsche.de/thema/Europa-Atlas

Eine Sammlung von Datenbanken und -katalogen aller deutscher Verwaltungsebenenen ist ist unter www.govdata.de zu finden. In Deutschland gibt es eine starke Open Data Bewegung, deren erklärtes Ziel es ist, mehr staatliche Daten öffentlich zu machen. Vor allem die Open Knowledge Foundation Deutschland (OKF DE) ist hier zu nennen, die auf www.offenedaten.de Links zu Datenkatalogen sammelt. Die OKF DE betreibt auch die Website www.fragdenstaat.de, auf der (Antworten auf) Anfragen versammelt sind, die interessierte Bürger aufgrund des Anspruches aus dem Informationsfreiheitsgesetz an staatliche Stellen gerichtet haben. Auf europäischer Ebene wäre www.asktheeu.org das entsprechende Pendant. Obwohl es in jüngster Zeit Fortschritte gab, hinkt Deutschland mit der Datentransparenz noch hinter den USA (www.data.gov) oder Großbritannien hinterher. Möglicherweise ist auch das ein Grund, warum Journalisten in diesen Ländern mit dem Datenjournalismus schon weiter sind. Weitere öffentliche Quellen wären UN-Datenbanken (http://data.un.org/) oder Amtsblätter der EU (http://eur-lex.europa.eu/JOIndex.do?ihmlang=de) oder von Regierungen. Wenn man eine konkreten Datensatz sucht und den auf der Website der zuständigen Behörde nicht findet, kann auch ein Anruf helfen: Auf Nachfrage werden die gewünschten Daten in der Regel auch bereitgestellt, so sie vorhanden (weil erhoben worden) sind.

Manchmal geht es noch viel einfacher - mit einer erweiterten Google-Suche. Auf die Eingabe „Langzeitarbeitslose filetype:xls“ spuckt Google alle Excel-Dokumente aus, in deren Metadaten das Wort „Langzeitarbeitslose“ vorkommt. Es kann auch hilfreich sein, die Suche auf eine bestimmte Website zu beschränken, z.B. „site:bundesregierung.de“. Google bietet auch ein publicdata directory an (http://www.google.com/publicdata/directory). Nicht zu vergessen sind wissenschaftliche oder Uni-Webseiten. Auch NGOs erheben immer häufiger eigene Daten.

Fortgeschrittene Datenjournalisten bzw. Programmierer können sich ein ganz mächtiges Werkzeug basteln: Einen „Scraper“, d.h. ein Programm, das Daten strukturiert aus einer Website ausliest. In diesem Fall kann das Team von www.scraperwiki.com weiterhelfen.

Daten bereinigen und filtern

Es gibt hunderte Dateiformate, der beste Freund des Datenjournalisten ist ein maschinenlesbares Format, am liebsten also .xls oder .csv. Diese Formate lassen sich in Tabellenkalkulationsprogrammen öffnen, am häufigsten werden Microsoft Excel, Google Spreadsheets oder LibreOffice verwendet.

Noch häufiger verbreitet sind pdf-Dokumente, die bequem für den Download sind, dem ambitionierten Datenjournalisten aber erst mal nicht viel weiterhelfen, weil sie eben nicht maschinenlesbar bzw. kompatibel mit Tabellenkalkulationsprogrammen sind. Auch in einem solchen Fall kann eine OCR-Software helfen, die pdf in xls verwandelt (im großen Stil hat das lanacion.com.ar/data mit Reiseausgaben-pdfs argentinischer Senatoren gemacht). Ein praktisches Webtool hierfür ist https://www.pdftoexcelonline.com/. Ist dieser Schritt geschafft und liegen alle Daten in xls vor, gilt es, die Struktur der Daten zu überprüfen bzw. herzustellen. Ganz grob gesagt geht es hier um Reihen und Spalten. Jede Reihe stellt einen Fall dar, die einzelnen Spalten die Attribute zu diesem Fall.

Es ist ungemein wichtig, dass man eine einheitliche Struktur in seinem Datensatz hat, dass zu jeder Reihe auch ALLE Spalten einen Wert haben. Wo das nicht der Fall ist, ist es am besten, die fehlenden oder inkonsistenten Daten zu recherchieren - oder wenn möglich sie abzuleiten oder auszurechnen. Nur im Notfall sollte man die fehlenden Datenfelder löschen. Dennoch sind fast immer nicht alle Spalten für eine Geschichte relevant. Um den Fokus zu schärfen und auch die optische Aufbereitung nicht zu sehr zu zerfasern, hilft es, einige irrelevante Datenspalten zu löschen. Mitteilen heißt auswählen - auch im Datenjournalismus. Vorher sollte man aber in jedem Fall die unveränderte Originaldatei abspeichern. Auch eine einheitliche sprachliche Bezeichnung ist wichtig. Unterschiedliche Schreibweisen desselben Ortes sollten vereinheitlicht werden. Dateneinzigartigkeit ist eminent wichtig fürs Funktionieren einer Data-Website: Es kann sein, dass es zwei Personen mit identischem Namen gibt, die am selben Tag verhaftet wurden. Das muss dann über andere Attribute wie Ort oder Festnahmegrund unterschieden werden.

Hand in Hand mit der Datenbereinigung geht das Hinterfragen der Daten oder „Interviewing the Data“, wie es Derek Willis, Entwickler bei der New York Times, formuliert. Natürlich muss man sich auch bei Datensätzen fragen: Woher kommen Sie? Wer hat die Daten erhoben? In wessen Auftrag? Welches Interesse könnte dahinter stecken? Was steht drin? Und was steht nicht drin? Wie war die Methodik bei der Erhebung? Welche Antwortmöglichkeiten gab es? (und welche nicht?) Allein die Kategorisierung von Daten kann oft sehr irreführend sein. Versuchen Sie immer den Kontakt zu der Person herzustellen, die für die Datenerhebung zuständig ist. Beim Statistischen Bundesamt steht immer ein Ansprechpartner dabei. Wo das nicht der Fall ist, sollte der Journalist nachhaken. Außerdem ist es ratsam, die Daten anhand anderer Quellen gegenzuchecken. Wenn es zum gleichen Thema komplett unterschiedliche Zahlen gibt, ist Vorsicht geboten. Derek Willis zufolge machen Datenrecherche und das Hinterfragen von Datensätzen 75 Prozent der Zeit eines datenjournalistischen Projekts aus.

Bei der Analyse von Datensätzen gibt es immer zwei zentrale Fragen: 1. Was ist die Geschichte? 2. Warum ist das so? Die Nadel im Heuhaufen findet man durch Filtern. Anfangen sollten man mit groben Filtern und dann Schritt für Schritt immer speziellere Fragen stellen. Zum Beispiel: „Wie viele tödliche Jagdopfer mit Kopfverletzung unter 21 Jahren gibt es?“ Je mehr Attribute man filtert, desto weniger Treffer erhält man, so lange, bis man die Nadel im Heuhaufen gefunden hat. Wenn man nach einer sauberen Datenrecherche, -bereinigung und -analyse einen interessanten Befund hat, kann man sich in weiteren Geschichten auf das WARUM konzentrieren.

Datenbasierte Geschichten visualisieren

Wenn sich aus der Datenanalyse ein Ansatzpunkt für eine Geschichte gefunden hat, gibt es verschiedene Möglichkeiten, diese Geschichte zu erzählen. Das kann zum einen ein ganz normaler Text sein, in dem das Ungewöhnliche geschildert wird, angereichert durch Zitate von Betroffenen oder Verantwortlichen. Trotzdem hat man Datenjournalismus betrieben. Immer häufiger gehen Redaktionen aber noch einen Schritt weiter und versuchen, ihre Geschichte zu visualisieren. Ein Bild sagt mehr als 1000 Worte, heißt es und dieses Prinzip lässt sich auch auf den Datenjournalismus übertragen: Eine Grafik sagt mehr als 1000 Worte, eine interaktive Grafik zumal. In beiden Fällen ist es wichtig, dass die Visualisierung nicht überfrachtet und nicht zu kleinteilig ist: weder durch die visualisierte Datenmenge noch durch die Beschriftung oder Erklärung. Streng genommen sollte es gar keiner Erklärung oder Gebrauchsanweisung bedürfen. Gute Grafiken kommen mit einer schlanken Legende aus. Gutes Design ist intuitiv. Für einfache Grafiken ist der Datawrapper eine gute Wahl. (www.datawrapper.de). Hier kann man in vier Schritten (Daten hochladen, Prüfen und Beschreiben, Visualisieren, Veröffentlichen und Einbetten) ansehnliche Grafiken erstellen.

Bei interaktiven Grafiken bietet es sich an, auf der Startseite eine Entwicklung oder einen Trend zu zeigen, z.B. die Entwicklung von gefallenen US-Soldaten in den letzten zehn Jahren. Von der Start- oder Übersichtsseite aus sollte es dann möglich sein, tiefer einzusteigen. Die Washington Post hat z.B. in „Faces of Fallen“ (http://apps.washingtonpost.com/national/fallen/) die Gesichter von gefallenen US-Soldaten auf der Übersichtsseite ins Zentrum gestellt. Man kann jedes Gesicht anklicken und kommt dann auf eine Detailseite, die weitergehende Informationen zu dem/der Gefallenen anbietet: Einheit, Einsatzort, Todesursache, etc. (Attribute). Von jedem Einzelfall führt wieder ein Link zurück auf die Übersichtsseite. Bevor man sich groß ans Programmieren macht, hilft es ungemein, den Aufbau der Anwendung auf Papier zu skizzieren. Hier kann man schnell feststellen, ob die Struktur zu umständlich ist und wie viele Klicks man braucht, um jede angebotene Information zu erreichen. Es gibt unheimlich viel Visualisierungssoftware und -Tools, die hier nicht im Einzelnen geschildert werden können. Eine Aufzählung nützlicher Visualisierungstools samt kurzer Erläuterung gibt es im Data Journalism Handbook: http://datajournalismhandbook.org/1.0/en/delivering_data_7.html

Literatur

Weblinks