In meinem Blogbeitrag „Warum ich mich für open data engagiere“ habe ich beschrieben, dass ein großes Potential von quelloffenen Daten z.B. in der Visualisierung von Informationen liegt. Vorhandene Daten wie z.B. Budgets können grafisch so aufbereitet werden, dass wesentliche Informationen auf einen Blick erfassbar sind und kein Durchackern von PDF-Seiten mit reinen Zahlenkolonnen erforderlich ist.
Angelehnt an die Visualisierung des deutschen Bundeshaushaltes www.offenerhaushalt.de habe ich begonnen, die Ausgaben des Wiener Budgets für 2009 auch in einer sogenannten Treemap aufzubereiten. Leider wurde meine Anfrage an das Magistrat, ob ich denn ein Excel- oder CSV-File haben könnte, negativ beantwortet. Warum kann ich nicht wirklich nachvollziehen: alle Daten sind auf der Webseite in PDF-Form vorhanden – ein Anbieten der Daten in maschinenlesbareren Formaten hätte mir die Erstellung der Treemap jedenfalls wesentlich erleichtert.
Die Grobübersicht der einzelnen Ausgaben-Gruppen ist soweit fertig – hier ein „Sneak Preview“ der statischen Version (klicken um zu vergrößern):
Die endgültige Version wird interaktiv sein und Anzeigemöglichkeiten ähnlich wie auf www.offenerhaushalt.de bieten. Wer darüber informiert werden möchte, sobald diese fertig ist, bitte ich meinen RSS-Feed oder die Email-Benachrichtigungen zu abonnieren.
Stichworte: budget, opendata, visualisierung, wien
Beeindruckend wieviel Mühe und Engagement du da hineingelegt hast. Ab damit zur Presse, Standard und Co.
lg
Kommentar von Andreas Hafenscher am 12. Nov.. 2010 um 07:39 Uhr
Das wäre ja ein besonders würdevoller erster Dtaensatz, den Du in at.ckan.net einstellen kannst. UNd natürlich freue ich mich auf Deine Präsentation beim Globalen Open Government Hackday in Wien (http://gov.opendata.at/site/node/32)
Kommentar von Thomas Thurner am 12. Nov.. 2010 um 10:09 Uhr
gute Idee – sobald ich fertig bin, werd ich den Eintrag auf ckan erstellen. Hab übrigens heute auch mit Rudolf Legat wegen möglicher Datenquellen des Umweltbundesamtes für den Hackathon am 4.12. gesprochen – er wird dies intern besprechen und mir dann Bescheid geben.
Kommentar von Robert Harm am 12. Nov.. 2010 um 22:34 Uhr
genial, weiter so!
Kommentar von Christian Ziegler (via facebook) am 12. Nov.. 2010 um 10:31 Uhr
„Alles so schön bunt hier“ (Karl Lagerfeld)
Super Arbeit, Robert!
Wäre für Salzburg auch sehr interessant.
Könnte man den PDF´s nicht mit einem Parser beikommen? (vielleicht gibt´s dann ja auch ein Umdenken bei den Erzeugern, wenn sie merken, dass man Daten nicht mehr in PDFs einsperren kann) just my 2 cents.
lg
Harry
mondolingua.com/dcs
Kommentar von Harry am 12. Nov.. 2010 um 10:57 Uhr
Ich kann dir ja den Erstellungsprozess gern am Barcamp Wien zeigen, wenn du möchtest & wir füllen dann offenerhaushalt.at mit Inhalten 🙂
Die Schwierigkeit hier war die richtigen Tools zu finden, danach wars eh relativ einfach (halt etwas monton, weil viel copy+paste).
PDF-parsen halte ich bei diesem Umfang für weniger zielführend, weil da auch viel Zeit drauf geht bis man die Daten genau so hat wie man sie braucht.
Meine Hoffnung ist, dass in Zukunft auch andere Formate angeboten werden – ich sehe es nicht wirklich ein, dass man Informationen zwar als PDF zur Verfügung stellt und dann die Quelldateien nicht rausrücken will – nach dem Motto „ich mach dir deine Arbeit extra aufwändig…“
Kommentar von Robert Harm am 12. Nov.. 2010 um 22:32 Uhr
Hi Robert,
Da ich gerade an ähnlichem arbeite, stellt sich mir auch die Frage: Wie hast du die Daten ausgelesen? Tatsächlich alles händisch per C&P oder hast du einen Scraper genutzt? Wenn ja, welchen? Und die Treemap? Webservice oder Framework? 🙂
Du siehst, Fragen über Fragen… würd mich daher über einen Post zur Umsetzung des Ganzen freuen!
Gruß
Tobias
Kommentar von Tobias am 13. Nov.. 2010 um 11:08 Uhr
Hi Tobias,
Blogpost zur Erstellung werd ich machen, sobald ich fertig bin. Soviel vorab: sehr viel automatisiert hab ich nicht, weil ich den Fokus auf die Erstellung eines Showcases legen wollte, was möglich ist, wenn die Daten in maschinenlesbarer Form vorliegen.
lg
Robert
Kommentar von Robert Harm am 13. Nov.. 2010 um 11:54 Uhr
Ah, ok, verstehe.
Aus reiner Neugierde hab ich mal herumgeforscht und probiert die Salzburger Budget Seite zu scrapen. Das ginge relativ gut, da die dort ein relativ brauchbare HTML Tabellen haben. Da ließe sich etwas machen mit Yahoo Pipes und/oder mit einem umgebauten WordPress Plugin mit Treemap. Überlege gerade, ob ich da mal ein Tryout probiere.. hmm.
Vielleicht sehen wir uns am Barcamp. Würde mich freuen.
ciao
Harry
Kommentar von Harry am 14. Nov.. 2010 um 18:15 Uhr
Werd auf alle Fälle am Samstag am Barcamp sein – Sonntag weiß ich nicht, ob sich ausgeht. Setzen wir uns einfach dort zusammen oder machen wir ein Spontant-Session 😉
Kommentar von Robert Harm am 14. Nov.. 2010 um 18:36 Uhr
COOL 🙂
Kommentar von Jürgen Koprax am 12. Nov.. 2010 um 11:01 Uhr