#OSM Routing View 2010-08

Anbei die Statistiken für den Monat August 2010 vom OSM Inspector Routing View Germany. Den ersten Platz im beseitigen von Fehlern zumindest in der 1m-Fehler-Klasse teilen sich diesen Monat Hessen & Bayern 🙂 Aber auch in Rheinland-Pfalz hat sich einiges getan! Nur bei Baden-Württemberg und Nordrhein-Westfalen ist eher eine zunehmende Anzahl von Fehlern zu sehen 🙁

Die Gesamtanzahl der Fehler (nichtverbundene & doppelte Straßen) liegt im jetzigen Monat für Deutschland bei ca. 12.500. Was wiederum einer Verminderung innerhalb des letzten Monats von ca. 2.500 “Problemen” entspricht. Letzten Monat wurden noch 4mal (!!!) so viele Fehler bereinigt. Sommerloch weil Reisezeit? 😉

Im Monat August verteilen sich die Probleme im Routing View Germany auf folgende Klassen:

  • Gesamtanzahl 1m nicht verbunden: ca. 2.100 (Juli 2.700)
  • Gesamtanzahl 2m nicht verbunden: ca. 1.300 (Juli 1.500)
  • Gesamtanzahl 5m nicht verbunden: ca. 7.600 (Juli 8.600)
  • Gesamtanzahl doppelte Ways: ca. 1.400 (Juli 2.000)

„Nominal Members“ of OSM?

There has been an exciting question on the German OSM mailing list yesterday (here). To clarify this question a little to the readers of this blog, the OSM member basically asked if anybody knows how many users ever really worked on a single note in OSM at all, and how many so called “nominal members” (members that never touched any node in OSM) can be found in OSM?

It sounded interesting to me, so I started working on a way to figure out the numbers. My results showed that the entire OSM planet file (dated 08/18/2010) has about 735 million nodes that have been provided by about 93.000 OSM members. 60 million ways were mapped by 68.000 members and about 10.000 members were involved with the creation of almost 690.000 relations. The history of the objects could not be considered during the analysis! In total there were about 98.000 members that contributed to the OSM database.

However, these numbers still show an interesting result considering the actual amount of 290.000 registered OSM members. So the question remains if there are a lot of members in OSM who are still standing in the waiting line and will start with their first edits pretty soon?

To see what the numbers looked like one year ago, I changed the tool that I created one more time and repeated the analysis with the planet file of 08/19/2009. I received the following results: At the given time there were about 412 million nodes provided by 49.000 members in the database. 32 million ways were mapped by 41.000 members and about 6.000 members were involved with the creation of almost 180.000 relations.

This means that one year ago all OSM data has been provided by 51.000 members although there were about 145.000 members registered. Thus, in the year 2009 about 35% of registered members did at least one edit on the OSM database. This number does not really change with the latest OSM dataset, with 290.000 registered members and about 98.000 members with at least one edit which represent about 34%!

To give a better overview, here are even more numbers for the year 2008: 253 million nodes provided by 15.000 members. 20 million ways mapped by almost 14.000 members and about 16.000 relations created by 1.600 members. In total there were about 16.000 members that contributed to the OSM database, while there were about 55.000 members registered. Thus, the percentage of active registered members lies around 29%.

In general the remaining question is: What happened to the other 65% that registered for the project but did not contribute to it? Is it too hard or too complicated to contribute to the project? Did those members just collect data for a short period of time? Is that why they do not show up in the analysis shown above?

thx @ Dennis for helping me with the translation!

“Incomplete” Places in DE?

Bei der letzten Analyse für die Suche nach „unmapped“ Places, habe ich gleichzeitig noch nach „incomplete“ Places in OSM Deutschland suchen lassen. Bei dieser Suche wurden lediglich Ortsangaben mit dem Placetype „village“ berücksichtigt. Ein weiteres Suchkriterium war dabei, dass mindestens eine und nicht mehr als drei Straßen von der Kategorie unter einer Kreisstraße um die Ortsangabe herum vorhanden sind.

Folgende Gesamtzahlen stammen noch vom letzten Blog Post. Insgesamt gibt es in Deutschland (Stand Ende Juli 2010) ca. 71.885 Ortsangaben. Dabei ist die Aufteilung wie folgt: ca. 579 Großstädte, ca. 2.386 Städte, ca. 8.092 Stadtteile, ca. 36.893 Dörfer und 23.935 Weiler. Bei dieser Untersuchung kam ich auf eine Anzahl von ca. 830 Dörfern (ca. 2.2%) die scheinbar noch nicht vollständig sein könnten. Bei der Untersuchung bezüglich der „unmapped“ Places waren es ca. 6.010 Dörfer (16,3%).

Wie bei der letzten Untersuchung befinden sich die ermittelten Dörfer wieder eher in sehr ländlichen Gebieten. Das Ergebnis ist wieder hier als GPX-File herunterladbar. Oder hier als Overlay (http://resultmaps.neis-one.org/) auf einer OSM-Karte zu betrachten. In meiner Gegend passen die Ergebnisse dieser Untersuchung ganz gut, wie sieht es bei euch aus? Verbesserungsvorschläge?

“Unmapped” Places in DE?

Gerade vergangene Woche wurde in der Presse wieder über OpenStreetMap und dessen Datenqualität (Vollständigkeit) gesprochen. Beispielsweise gab es hier (Golem) einen Artikel: “OpenStreetMap ist reif für den geschäftlichen Einsatz”. Ich finde das diese Aussage aber differenziert betrachten werden muss, für was genau die Daten verwendet werden sollen. Für Kartendarstellungen, Geomarketing und/oder Autonavigation? Für welches Land? Wie auch immer, Qualitätsuntersuchungen gibt es schon länger und sie zeigen auch, das sich die Qualität (Vollständigkeit) von Region zu Region unterscheiden kann.

Letzte Woche bin ich eher durch Zufall auf folgende OSM-Wiki-Seite gestoßen: “Quality Assurance”. Sie zeigt eine gute Übersicht von verschiedenen für OSM wichtigen Qualitäts-Tools. Unter anderem fand ich dort auch von Gary68 das Tool “Unmappedplaces”. Die Idee hinter diesem Tool fand ich interessant: Es versucht für ein OSM-File alle “potenziell unkartografierte Places” zu finden. Die Ergebnisse in meiner Region waren allerdings nicht so, das die Places die ich ebenfalls kennzeichnen würde, auch gefunden wurden. Deswegen habe ich versucht das Ganze “neu” zu machen. Für Deutschland kam dabei mein Tool auf folgende Ergebnisse.

Insgesamt gibt es in Deutschland ca. 71.885 Ortsangaben. Dabei ist die Aufteilung wie folgt: ca. 579 Großstädte, ca. 2386 Städte, ca. 8092 Stadtteile, ca. 36893 Dörfer und 23935 Weiler. Die ersten drei Placetypes wurden bei meiner aktuellen Untersuchung außen vorgelassen, da ich denke, dass diese in Deutschland zumindest ansatzweise bereits in OSM vorhanden sein dürften. Mein Tool hat bei der Untersuchung für Deutschland ca. 14.270 Orte gefunden bei denen lediglich eine Ortsangabe und eine Kreisstraße oder Straße höherer Klasse in der Umgebung um die Ortsangabe vorhanden ist. Bei einer Summe von ca. 60.828 möglichen Ortsangaben wäre dies ein Anteil von ca. 23% !

Im Bild ist, wie oben bereits angedeutet, gut zu sehen das es außerhalb der Großstädte oder z.B. des Ruhrpottes noch einige Ortschaften gibt die anscheinend noch nicht in OSM erfasst sind. Interessant könnten eventuell noch weitere Vergleiche sein: Wie viele Ortsangaben hat ein Bundesland insgesamt und wie viele davon sind noch nicht “kartografiert“?

Das Ergebnis kann als GPX/TXT-Datei hier heruntergeladen werden (bitte die Dateiendung von *.txt in *.gpx ändern!). Weiterhin kann hier das Ergebnis als GPX-Overlay über einer OSM Map betrachtet werden.

Stats OSM Routing View 2010-07

Für die vergangenen fünf Wochen habe ich heute wieder neue Statistiken für den Routing View Deutschland (hier) erstellen lassen. Spitzenreiter im beseitigen möglicher Fehler in der 1m-Klasse ist wie letzen Monat wieder mal das Bundesland Nordrhein-Westfalen (y)

Insgesamt sind inzwischen die Hälfte aller Bundesländer in der 1m-Klasse, wie im Diagramm zu sehen, unter 100 “Fehler”. Drei Bundesländer heben sich momentan aufgrund ihrer hohen Anzahl noch etwas von den anderen ab: Niedersachen, Bayern und Hessen.

Die Gesamtanzahl der Fehler (nichtverbundene & doppelte Straßen) liegt im jetzigen Monat für Deutschland bei ca. 15.000. Was wiederum einer Verminderung innerhalb des letzten Monats von ca. 10.000 “Problemen” entsprechen würde (im Juni waren es insgesamt 25.000) 🙂

Was sehr schön zu sehen ist das die Anzahl der Fehler von doppelten Wegen innerhalb der letzten Zeit sehr stark abgenommen hat. Derzeit verbleiben in Deutschland “nur” noch ca. 2.000 Probleme mit doppelten Wegen …

Auf welche Klassen verteilen sich insgesamt die “Fehler” des Routing Views Deutschland (Juli 2010)?

  • Gesamtanzahl 1m nicht verbunden: 2.700
  • Gesamtanzahl 2m nicht verbunden: 1.500
  • Gesamtanzahl 5m nicht verbunden: 8.600
  • Gesamtanzahl doppelte Ways: 2.000

OSM-“User”-WorldmapS

In the last post “current” OSM user activities per day, week and month were shown. The table providing the information of Users per Country was limited to the “TOP 16” and just a short timeframe. The following world map shows the amount of users per country for one month i.e. 10.05-10.06.2010

However, since this first map just gives some general information about the total amount of users per country and does not consider the population in each country, we made a second map that shows the relation between active users and the population in each country. To develop this map a so called “OSM-User-Ratio” has been created which includes the amount of OSM users per 1 million citizens for each country.

Next to the amount of users also the total amount of new nodes for each country were analyzed and can be seen in the following world map. The total amount of notes does not consider modified or deleted nodes.

So called “Bots” which are able to do certain automatic tagging-changing-actions have not been considered in the world map including the total amount of new nodes. Future analysis should consider these automatically created changes to show the differences between the maps including the nodes with and without the use of bots. Furthermore it would be interesting to see how many nodes in average are being created by one user a day, a week or a month … further suggestions or ideas?

thx @ dennis z. for the maps!

Nur 1% der User in OSM aktiv?

Im letzten Post habe ich verschiedene “Statistiken” bzgl. der Nutzeraktivität von OSM in Deutschland gezeigt. Manche empfanden das diese “nichts aussagen” oder das “es ja klar ist, das größere oder bevölkerungsstärkere Länder automatisch mehr Edits haben”. Letzteres war zwar im Vorfeld denkbar, wirklich bewiesen hat es aber niemand, oder? Mir ging es eigentlich nicht darum zu zeigen, dass in den größeren Bundesländern in DE mehr los ist, sondern ich wollte vielmehr einmal Zahlen herausfiltern, um damit darzustellen, wie viele Leute denn in jedem Bundesland aktiv an der Karte arbeiten. Ok, etwas “Kritik” könnte man vielleicht am Zeitraum der Analyse (1 Woche) ausüben, es war ein Feiertag dazwischen, aber macht dies wirklich etwas aus? Waren also evtl. an einem Tag mal 50 User mehr oder weniger als einem anderen Tag aktiv? Macht sich das bei einem Mittelwert über eine Woche überhaupt bemerkbar? Da es sich, wie bereits erwähnt, vielmehr um eine “aktuelle” Angabe der aktiven User handelt, denke ich, ist dies hier mal vernachlässigbar. Vielleicht wird OSM.org kommende Woche wieder „geheist“ und dann sehen die Stats bzgl. der User wieder anders aus.

Kommen wir nun zur eigentlichen Frage: Sind weltweit nur 1% der bei OSM registrierten Usern aktiv? Als erstes sollte man unterscheiden, was “aktiv” bedeuten könnte. Ist es auf eine tägliche, wöchentliche oder gar monatliche “Aktivität” des Nutzers bezogen? Da das Tool zum Auswerten des Changefiles vorhanden war, habe ich die Analyse noch einmal für andere Zeiträume durchlaufen lassen. Das folgende Diagramm visualisiert die User-Aktivitäten der “Top 16” Länder für den Zeitraum vom 03.06.-10.06.10 (1 Woche). Die User-Anzahlen wurden jeweils über den Mittelwert der User, die mind. einen Edit im Land pro Tag ausgeführt haben, berechnet. Um in die Liste der “Top 16” aufgenommen zu werden, mussten in dem jeweiligen Land mindestens 20+ User an der Karte gearbeitet haben. Alle anderen Länder, die nicht in den “Top 16” enthalten sind, werden unter „Sonstiges“ gezählt.

Ok, jetzt werden wieder manche sagen “das sagt nichts aus!”. Naja, ich sehe das etwas anders. Hätte man nicht eigentlich erwarten müssen/sollen, dass in den USA um einiges mehr “aktive” User sind? Da wohnen doch so viele … 😉 Woran liegt es, dass es in den USA nicht so gut läuft? Wie bereits im letzen Post erwähnt, ist im Diagramm sehr gut zu erkennen, dass momentan in Deutschland durch die hohe Useranzahl am aktivsten an der Karte gearbeitet wird. Ferner ist ebenfalls ersichtlich das in Frankreich, in Russland und auch in UK jeweils mit knapp über oder unter 100 Usern an der Karte Änderungen erfolgen. Die folgenden Tabellen enthalten jeweils die Anzahl der aktiven User in OSM für weitere Zeiträume:

03.06.-10.06.2010
(pro Tag)
Anzahl User mit mind. einen Edit weltweit: ca. 1.710 (Mittelwert aus der täglichen Anzahl in einer Woche)
03.06.-10.06.2010
(7 Tage / 1 Woche)
Anzahl User mit mind. einen Edit weltweit: ca. 5.700
10.05.-10.06.2010
(31 Tage / 1 Monat)
Anzahl User mit mind. einen Edit weltweit: ca. 13.300

Nimmt man den ersten Mittelwert, die Anzahl der User für einen Tag, würde man bei ca. 1.710 aktiven Usern und einer Anzahl von derzeit grob 260.000 registrierten User über einen Anteil von noch nicht einmal 1% sprechen. Da aber nicht jeder Nutzer täglich aktiv ist, ist dieser Wert sicherlich nicht aussagekräftig. Daher wurde noch einmal die Useranzahl für eine Woche ermittelt, die jeweils mindestens einen Edit innerhalb einer Woche ausgeführt haben. Weltweit kommt dann eine Anzahl von ca. 5.700 zusammen. Dies würde wiederum einem Anteil von ca. 2% entsprechen. Abschließend wurde noch die Useranzahl ermittelt, die jeweils mindestens einen Edit innerhalb eines Monats gemacht haben. Dabei kommt man auf eine Useranzahl von ca. 13.300, was wiederum einem Anteil von ca. 5% entspricht. Dies wäre zumindest der aktive Useranteil, den man des Öfteren auf verschiedenen Konferenzen hört oder im Web liest … Aber trotzdem insgesamt eine nicht so hohe Beteiligung der „Community“ wie man es auf Grund der registrierten User vermuten lassen könnte, oder?

Wo erfolgen die meisten Edits in OSM?

Angeregt durch den vorletzten Post über die „zunehmende“ Anzahl der Fehler in OpenStreetMap DE stellte sich mir die Frage: In welchem Bundesland wird derzeit am meisten an der Map gearbeitet? Aus den daily-Planet-Changefiles für den Zeitraum vom 3.6. bis zum 10.06.2010 (1 Woche) habe ich mal die mittlere Anzahl der Node Edits pro Tag für jedes Bundesland in Deutschland ausgewertet (Edits an Ways sind in diesen Diagrammen (noch) nicht enthalten).

Im Diagramm fallen die drei „großen“ Bundesländer auf. Nordrhein-Westfahlen ist ebenfalls wieder im vorderen Feld der Statistik dabei. Diesmal aber im positiven Sinne 😉 . Bei der Statistik zum Routing View Analyse war es genau andersherum, dort war es das Bundsland mit den meisten Fehlern im Landesvergleich, (vgl. Statistik). Also somit ist NRW das wohl derzeit aktivste Bundesland in OSM DE, aber auch das mit den meisten Fehlern?!

In den Mailinglisten oder auch in den Foren liest man immer wieder eine etwas unterschiedliche Zahle wie groß denn die Beteiligung der deutschen Mapper an der OSM Karte ist. Im folgenden Diagramm sind die Anzahlen der Mapper pro Bundesland für DE für den oben angegeben Zeitraum, die dort einen oder mehrere Edits ausgeführt haben, zu sehen.

Werden die weltweiten OSM Mapper gezählt, so kommt man beim oben genannten Zeitraum von einer Woche auf eine tägliche Durchschnittszahl von ca. 1.710 die jeweils eine oder mehrere Edits an der Map vollbringen. Bei einem Mittelwert in DE von ca. 580 “Mappern” (Usern die in Deutschland an der Map gearbeitet haben) wären dies ca. 34% ! Dies würde bedeuten, dass derzeit ca. 1/3 der weltweiten OSM-Mapper in Deutschland an der Karte arbeiten. Gut für Deutschland, „schlecht“ für die restliche weltweite OSM Karte?

Eine Xls-Tabelle mit den Node Changes pro Tag für Deutschland kann hier heruntergeladen werden.

Neue Stats zum OSM DE Routing View!

Habe heute wieder neue Statistiken zum OSM Routing View erstellen lassen. Schön zu sehen das Insgesamt die Fehleranzahl bei den nicht verbundenen Straßen (1m) zurück geht.

Etwas bedenklich ist allerdings die Entwicklung in Hessen. Dort hat sich die Fehleranzahl von ca. 400 auf quasi über 800 verdoppelt. Mit dem Saarland ist auch das erste Bundesland für den dargestellten Fehlertyp auf 0, Glückwunsch 🙂 ! Spitzenreiter im beseitigen der Fehler sind für den letzten Zeitraum die Länder NRW & RLP. Beide konnten um die 400 Fehler beheben …

Die Analyse läuft jetzt etwas weniger als vier Monate und die Gesamtanzahl der Fehler (nicht verbundene Straßen & doppelte Wege) konnte von über 50.000 auf ca. die Hälfte (25.900) verringert werden!

Immer “mehr” Fehler in OSM DE?

Seit nunmehr vier Monaten setze ich mich mit der Untersuchung der OpenStreetMap (OSM) Daten auseinander. Dabei versuche ich mögliche Fehler im Kontext von Routing in Deutschland zu finden. Ein Ergebnis davon ist der Routing View, der derzeit von skobbler gesponsert wird. In diesem View werden momentan Fehler für Deutschland angezeigt, die durch nicht verbundene oder doppelte Straßen auftreten. Angefangen im März 2010 mit einer Fehleranzahl von mehr als 52.000 konnte die Gesamtanzahl auf momentan (Ende Mai) ca. 32.000 verringert werden.

http://www.flickr.com/photos/lemonpixel/246402687

http://www.flickr.com/ photos/lemonpixel/246402687/

Generell fällt dabei in der Vergangenheit auf, dass sich die Anzahl der Fehler immer nur dann vermehrt verringert, wenn das Thema in der deutschen OSM Maillingliste diskutiert oder angesprochen wird. Wurde nicht über das Thema geschrieben, verkleinerte sich die Anzahl der Fehler auch nicht groß. Zufall oder Wirklichkeit? Eine erste Gegenmaßnahme könnte sein: Mehr Werbung für die Tools machen, damit die Fehler in der OSM Datenbank behoben werden?

Eine zweiter interessanter Punkt ist: Warum werden die Fehler vereinzelt an manchen Tagen nicht weniger sondern manchmal im Gegenteil massiv mehr? Wie kann das sein? Ein gutes Beispiel war hierfür das Wochenende nach einem Feiertag, wo von einem auf den anderen Tag mehr als 2.000 neue Fehler hinzukamen, bei lediglich ca. 12.000 neuen Wegen. Dies würde bedeuten, dass durchschnittlich damals jeder sechster (!!!) neuer Weg einen Fehler beinhaltet oder verursacht hat. Ziemlich viel 🙁

http://farm3.static.flickr.com/2535/4197644976_8092c89fcf.jpg

http://www.flickr.com/photos/45419239@N02/4197644976/in/set-72157623030327270/

Hierbei stellen sich mir unterschiedliche Fragen: Sind die Fehler durch „neue“ Mapper verursacht worden? Liegt es an den OSM-Editoren? Müssten vielleicht bessere oder überhaupt irgendwelche Validierungstools direkt beim Einpflegen der Daten auf mögliche Probleme hinweisen? Manchmal habe ich das Gefühl, dass sich viele Gedanken darüber machen wie sie alles mögliche mappen könnten. Doch dabei kümmern sich anscheinend manche nicht besonders um die Qualität der Daten und vernachlässigen diese. Allgemein finde ich es gut wenn in OSM eine Vielfalt von Daten vorhanden ist oder hinzugefügt wird, aber dabei sollte nicht die Qualität der Daten außer Acht gelassen werden! Oder doch lieber: Quantität statt Qualität?! Manchmal kommt es mir so vor …