Tag: Qualität

A comparative study between different OpenStreetMap contributor groups – Outline 2016

Over the past few years I have written several blog posts about the (non-) activity of newly registered OpenStreetMap (OSM) members (2015, 2014, 2013). Similarly to the previous posts, the following image shows the gap between the number of registered and the number of active OSM members. Although the project still shows millions of new registrations, “only” several hundred thousand of these registrants actually edited at least one object. Simon showed similar results in his yearly changeset studies.

2016members

The following image shows, that the project still has some loyal contributors. More specifically, it shows the increase in monthly active members over the past few years and their consistent data contributions based on the first and latest changeset:

2016months

However, this time I would like to combine the current study with some additional research. I tried to identify three different OSM contributor groups, based on the hashtag in a contributor’s comment or the utilized editor, for the following analysis:

  1. Contributors of the MissingMaps-Project: A contributors of the project usually use #missingmaps in their changeset.
  2. Contributors that utilized the Maps.Me app: The ‘created_by’-tag contains ‘MAPS.ME’.
  3. All other ‘regular’ contributors of the OSM project, who don’t have any #missingmaps in their changesets and neither used the maps.me editor.

In the past 12 months, almost 1.53 million members registered to the OSM project. So far, only 12% (181k) ever created at least one map edit: Almost 12,000 members created at least one changeset with the #missingmaps hashtag. Over 70,000 used the maps.me editor and 99,000 mapped without #missingmaps and the maps.me editor. The following diagram shows the number of new OSM contributors per month for the three aforementioned groups.

2016permonth

The release of the maps.me app (more specifically the OSM editor functionality) clearly has an impact on the monthly number of new mappers. Time for a more detailed analysis about the contributions and mapping times: The majority of the members of the groups don’t show more than two mapping days (What is a mapping day, you ask? Well, my definition would be: A mapping day is day, where a contributor created at least one changeset). Only around 6% of the newly active members are contributing for more than 7 days.

2016mappingdays

Some members of the #missingmaps group also contributed some changesets without the hashtag. But many of those members (70%) only contributed #missingmaps changesets. Furthermore, 95% of this adjusted group doesn’t map for more than two days. Anyway, despite identifying three different contributor groups, the results are looking somewhat similar. Let’s have a look at the number of map changes. The relative comparison shows that the smaller #missingmaps group produces a large number of edits. The maps.me group only generates small numbers of map changes to the project’s database.

2016mapchanges

Lastly, I conducted an analysis for three selected tag-keys: building, highway and name. The comparison shows that the #missingmaps group generates a larger number of building and highway features. In contrast “regular” OSM’ers and maps.me users contributed more primary keys such as the name- or amenity-tag.

2016tags

I think the diagrams in this blog post are quite interesting because they show that the #missingmaps mapathons can activate members that contribute many map objects. But they also indicate that the majority of these elements are traced from satellite imagery without primary attributes. In contrast the maps.me editor functionality proofed to be successful with its in-app integration and its easy usability, which resulted in a huge number of new contributors. In summary, I think it would be good to motivate contributors not only to participate in humanitarian mapathons but also to map their neighborhood in an attempt to stick to the project. Also, I guess it would be great if the maps.me editor would work on the next steps in providing easy mapping functionality for its users (of course with some sort of validation to reduce questionable edits).

Thanks to maɪˈæmɪ Dennis.

Routing View EU 2011-01

Overall the following amount of errors appears for “Europe” at the middle of January 2011:

  • Unconnected Roads: ca. 109600
  • Duplicate Ways (number of duplicate segments): ca. 125900
  • (read more about the error-types here)

This means that altogether there are 3000 unconnected streets and 13400 duplicate way segment errors have been fixed (last month we had 112600 unconnected roads and 139000 duplicate ways errors). In total we have an increment of 1139000 (+3.8%) new OSM way segments for routing during the past 4 weeks in Europe!

  • 12/23/2010: 29400000
  • 01/20/2011: 30600000

The following image shows the amount of errors divided by country for today’s Europe OpenStreetMap dataset:

In the past month several other countries were able to reduce the amount of errors, such as in: France (-2900), Portugal (-2900) and Romania (-2200). So I think the award for this month goes to Portugal 🙂 (Is the reduction a result of this action? However, nice work!). But further countries such as Albania, Belgium, Bosnia and Herzegovina, Bulgaria, Germany, Greece, Slovakia and Sweden were able to reduce more than 1000 errors each. Only Spain (+1200) and the United Kingdom (+2000) have a gained more errors!

The following diagram shows the total amount of errors for 1m, 2m, 5m unconnected & duplicate way segments:

As usual for Germany, the comparison of federal states (includes the error type “Unconnected 1m”):

Yay, nearly all federal states could reduce their amount of errors!

thx @ Dennis

Routing View EU 2010-12

Short update with new statistics for the “Routing View EU“. Overall the following amount of errors appears for “Europe” at the middle of December 2010:

  • Unconnected Roads: ca. 112600
  • Duplicate Ways (number of duplicate segments): ca. 139000
  • read more about the error-types here

This means that altogether there are 5100 new unconnected streets and 20000 duplicate way segment errors have been fixed (last month we had 107500 unconnected roads and 160000 duplicate way errors). In total we have an increment of 1300000 (+4.6%) new OSM way segments for routing in the past 5 weeks in “Europe” (this is nearly twice the number in comparison to one month ago)!

The following image shows the amount of errors divided by country for today’s Europe dataset:

In the past month several other countries were able to reduce the amount of errors, such as in: Austria (-3200), France (-4400), Italy (-2100), Portugal (-1200), Sweden (-2000), Switzerland (-4828 !!) and the United Kingdom (-3700). So I think the award for this month goes to Switzerland 🙂 . Germany keeps going on with its negative trend: A gain of about 2700 errors! It seems like the German OSM community is primarly tracing from Bing-imagerys, doesn´t it?

In the following diagram the bars for each country shows the total amount of errors for 1m, 2m, 5m unconnected & duplicate way segments:

As usual for Germany, the comparison of federal states (includes the error type “Unconnected 1m”):

(Nearly all federal states have a positive value regarding the amount of errors, except Rheinland-Pfalz, Sachsen, Schleswig-Holstein & Hamburg)

This was my last blog post for this year, so Merry Christmas and a Happy New Year 2011!
Bye for now …

Routing View EU 2010-11

And again, here are the new statistics for the “Routing View EU“.

Overall (according to the Geofabrik extract) the following amount of errors appear for Europe at the middle of November 2010:

  • Unconnected Roads: ca. 107500
  • Duplicate Ways (number of duplicate segments): ca. 160000

Unfortunately this means that overall only 500 unconnected streets and 22000 duplicate way segment errors have been fixed (last month we had 108000 unconnected roads and 180000 duplicate way segments errors). As always, the following image shows the amount of errors divided by country:

Wow Italy! It’s really nice to see what’s happening there! During the past month they fixed more than 9000 errors again. And now they are really catching up with Germany 🙂 But also in several other countries some people were able to reduce the amount of errors too, such as in: Albania, Denmark, Greece, Iceland, Norway or Sweden. More than 1000 errors have been fixed here in each country 🙂

Slightly disturbing is the situation in Germany: A gain of more than 3.000 errors! What’s going on?! 🙁

The comparison for each month and country can be seen in the following diagram. (The bars shows the total amount of errors for 1m, 2m, 5m unconnected & duplicate way segments):

As usual, the comparison of federal states of entire Germany that included the error type “Unconnected 1m”:

Overall, nearly all federal states have a positive value regarding the amount of errors 🙁 Not quite good, especially considering the numbers of the past few months. So tell me…what’s going on in Germany? Are you not interested in fixing errors in the map or database?? What do you think is the problem?

thx @ dennis and Good Luck to you for Thursday!

Routing View EU 2010-10

As mentioned in my last post, I am trying to conduct some statistics for the “Routing View EU” each month that show the areas where the amounts of errors have changed.

Over all (according to the Geofabrik extract) the following amounts of errors appear for the area of Europe at the moment:

  • Unconnected Roads: ca. 108000
  • Duplicate Ways (number of duplicate segments): ca. 182000

This means that compared to last month about 3000 unconnected streets and 31000 duplicate way segment errors have been removed in Europe. The following image shows the amount of errors divided by country:

If Italy keeps up the good work (-11000 errors) it will catch up with Germany in one or two months. But also Austria, France and Norway were able to correct a lot of errors. For some reason the United Kingdom does not show much of a difference and still has a high amount of errors!?

The following diagram shows the total amount of errors (1m, 2m, 5m unconnected & duplicate way segments) by country compared for each month:

As I did during the past couple of months, again the comparison of federal states of Germany that included the error type “Unconnected 1m” including this month, shown below:

The federal states of Germany are split into three thirds at the moment. In one third of the states errors are being corrected, the second third shows no changes and the last third even shows an increase of errors!?

thx @ dennis 😉

“Unmapped” Places in DE?

Gerade vergangene Woche wurde in der Presse wieder über OpenStreetMap und dessen Datenqualität (Vollständigkeit) gesprochen. Beispielsweise gab es hier (Golem) einen Artikel: “OpenStreetMap ist reif für den geschäftlichen Einsatz”. Ich finde das diese Aussage aber differenziert betrachten werden muss, für was genau die Daten verwendet werden sollen. Für Kartendarstellungen, Geomarketing und/oder Autonavigation? Für welches Land? Wie auch immer, Qualitätsuntersuchungen gibt es schon länger und sie zeigen auch, das sich die Qualität (Vollständigkeit) von Region zu Region unterscheiden kann.

Letzte Woche bin ich eher durch Zufall auf folgende OSM-Wiki-Seite gestoßen: “Quality Assurance”. Sie zeigt eine gute Übersicht von verschiedenen für OSM wichtigen Qualitäts-Tools. Unter anderem fand ich dort auch von Gary68 das Tool “Unmappedplaces”. Die Idee hinter diesem Tool fand ich interessant: Es versucht für ein OSM-File alle “potenziell unkartografierte Places” zu finden. Die Ergebnisse in meiner Region waren allerdings nicht so, das die Places die ich ebenfalls kennzeichnen würde, auch gefunden wurden. Deswegen habe ich versucht das Ganze “neu” zu machen. Für Deutschland kam dabei mein Tool auf folgende Ergebnisse.

Insgesamt gibt es in Deutschland ca. 71.885 Ortsangaben. Dabei ist die Aufteilung wie folgt: ca. 579 Großstädte, ca. 2386 Städte, ca. 8092 Stadtteile, ca. 36893 Dörfer und 23935 Weiler. Die ersten drei Placetypes wurden bei meiner aktuellen Untersuchung außen vorgelassen, da ich denke, dass diese in Deutschland zumindest ansatzweise bereits in OSM vorhanden sein dürften. Mein Tool hat bei der Untersuchung für Deutschland ca. 14.270 Orte gefunden bei denen lediglich eine Ortsangabe und eine Kreisstraße oder Straße höherer Klasse in der Umgebung um die Ortsangabe vorhanden ist. Bei einer Summe von ca. 60.828 möglichen Ortsangaben wäre dies ein Anteil von ca. 23% !

Im Bild ist, wie oben bereits angedeutet, gut zu sehen das es außerhalb der Großstädte oder z.B. des Ruhrpottes noch einige Ortschaften gibt die anscheinend noch nicht in OSM erfasst sind. Interessant könnten eventuell noch weitere Vergleiche sein: Wie viele Ortsangaben hat ein Bundesland insgesamt und wie viele davon sind noch nicht “kartografiert“?

Das Ergebnis kann als GPX/TXT-Datei hier heruntergeladen werden (bitte die Dateiendung von *.txt in *.gpx ändern!). Weiterhin kann hier das Ergebnis als GPX-Overlay über einer OSM Map betrachtet werden.

Stats OSM Routing View 2010-07

Für die vergangenen fünf Wochen habe ich heute wieder neue Statistiken für den Routing View Deutschland (hier) erstellen lassen. Spitzenreiter im beseitigen möglicher Fehler in der 1m-Klasse ist wie letzen Monat wieder mal das Bundesland Nordrhein-Westfalen (y)

Insgesamt sind inzwischen die Hälfte aller Bundesländer in der 1m-Klasse, wie im Diagramm zu sehen, unter 100 “Fehler”. Drei Bundesländer heben sich momentan aufgrund ihrer hohen Anzahl noch etwas von den anderen ab: Niedersachen, Bayern und Hessen.

Die Gesamtanzahl der Fehler (nichtverbundene & doppelte Straßen) liegt im jetzigen Monat für Deutschland bei ca. 15.000. Was wiederum einer Verminderung innerhalb des letzten Monats von ca. 10.000 “Problemen” entsprechen würde (im Juni waren es insgesamt 25.000) 🙂

Was sehr schön zu sehen ist das die Anzahl der Fehler von doppelten Wegen innerhalb der letzten Zeit sehr stark abgenommen hat. Derzeit verbleiben in Deutschland “nur” noch ca. 2.000 Probleme mit doppelten Wegen …

Auf welche Klassen verteilen sich insgesamt die “Fehler” des Routing Views Deutschland (Juli 2010)?

  • Gesamtanzahl 1m nicht verbunden: 2.700
  • Gesamtanzahl 2m nicht verbunden: 1.500
  • Gesamtanzahl 5m nicht verbunden: 8.600
  • Gesamtanzahl doppelte Ways: 2.000

Immer “mehr” Fehler in OSM DE?

Seit nunmehr vier Monaten setze ich mich mit der Untersuchung der OpenStreetMap (OSM) Daten auseinander. Dabei versuche ich mögliche Fehler im Kontext von Routing in Deutschland zu finden. Ein Ergebnis davon ist der Routing View, der derzeit von skobbler gesponsert wird. In diesem View werden momentan Fehler für Deutschland angezeigt, die durch nicht verbundene oder doppelte Straßen auftreten. Angefangen im März 2010 mit einer Fehleranzahl von mehr als 52.000 konnte die Gesamtanzahl auf momentan (Ende Mai) ca. 32.000 verringert werden.

http://www.flickr.com/photos/lemonpixel/246402687

http://www.flickr.com/ photos/lemonpixel/246402687/

Generell fällt dabei in der Vergangenheit auf, dass sich die Anzahl der Fehler immer nur dann vermehrt verringert, wenn das Thema in der deutschen OSM Maillingliste diskutiert oder angesprochen wird. Wurde nicht über das Thema geschrieben, verkleinerte sich die Anzahl der Fehler auch nicht groß. Zufall oder Wirklichkeit? Eine erste Gegenmaßnahme könnte sein: Mehr Werbung für die Tools machen, damit die Fehler in der OSM Datenbank behoben werden?

Eine zweiter interessanter Punkt ist: Warum werden die Fehler vereinzelt an manchen Tagen nicht weniger sondern manchmal im Gegenteil massiv mehr? Wie kann das sein? Ein gutes Beispiel war hierfür das Wochenende nach einem Feiertag, wo von einem auf den anderen Tag mehr als 2.000 neue Fehler hinzukamen, bei lediglich ca. 12.000 neuen Wegen. Dies würde bedeuten, dass durchschnittlich damals jeder sechster (!!!) neuer Weg einen Fehler beinhaltet oder verursacht hat. Ziemlich viel 🙁

http://farm3.static.flickr.com/2535/4197644976_8092c89fcf.jpg

http://www.flickr.com/photos/45419239@N02/4197644976/in/set-72157623030327270/

Hierbei stellen sich mir unterschiedliche Fragen: Sind die Fehler durch „neue“ Mapper verursacht worden? Liegt es an den OSM-Editoren? Müssten vielleicht bessere oder überhaupt irgendwelche Validierungstools direkt beim Einpflegen der Daten auf mögliche Probleme hinweisen? Manchmal habe ich das Gefühl, dass sich viele Gedanken darüber machen wie sie alles mögliche mappen könnten. Doch dabei kümmern sich anscheinend manche nicht besonders um die Qualität der Daten und vernachlässigen diese. Allgemein finde ich es gut wenn in OSM eine Vielfalt von Daten vorhanden ist oder hinzugefügt wird, aber dabei sollte nicht die Qualität der Daten außer Acht gelassen werden! Oder doch lieber: Quantität statt Qualität?! Manchmal kommt es mir so vor …