Databáze dopravních nehod ČR

V rámci své bakalářské práce jsem vytvořil databázi dopravních nehod, které se staly na území ČR v letech 2007 - 2013. Data jsem postahoval z volně dostupných zdrojů a nyní je dávám k dispozici ve strojově čitelném formátu, vhodné pro další zpracování. Celkem se jedná o více než 600 000 záznamů, přičemž každý záznam disponuje přibližně třiceti atributy jako lokalita, výše škody nebo způsob zavinění.

Pro další analýzu ve vašem oblíbeném programu (IBM SPSS modeler, MS Excel, Matlab, ...) jsou k dispozici data ve formátu CSV. Konkrétně odpovídá každý řádek jedné nehodě, hodnoty jsou oddělené středníkem, první řádek je hlavička. Soubor je vytvořen v OS Linux, je tedy kódován v UTF-8. Velikost souboru je 588MB.

Dále je možné data prohlížet pomocí nástroje Kibana, kdy jsou data uložena v Elasticsearch. Základní dashboard je k dispozici online, pokud si však chcete vytvářet vlastní a s daty si hrát a dále je analyzovat, doporučuji si stáhnout připravený docker image. Předpokládá se, že máte nainstalovaný Docker, po spuštění kontejneru máte k dispozici celou databázi (Elasticsearch) a Kibanu.


Databáze dopravních nehod ČR v Kibaně

Pokud již Elasticsearch máte a nepoužíváte docker, můžete data nainstalovat pomocí nástroje elasticdump - jak data naimportovat by neměl být problém vyčíst z Dockerfile.

Kdyby vás náhodou má bakalářská práce zajímala, zde je ke stažení (a zde[ppt] nebo zde[pdf] jsou slajdy). Popisuju v ní jak jsem data získal, uložil do databáze Oracle a provedl základní analýzu (shlukování, rozhodovací stromy).

Luděk Veselý

PHP Developer