С 22 по 27 сентября я проходила стажировку в Институте открытых данных (Лондон).
В самый последний день тренинга мы поучаствовали в хакатоне, во время которого должны были применить свои полученные навыки и знания на практике.
Так получилось, что мы вместе с Ибрагимом (которого я уже знала по
серии вебинаров для FAO UN по связанным открытыми данным) образовали отдельную группу.
Я предложила в качестве наборов данных взять данные по выбросу углекислого газа. Это довольно удобный набор данных для проведения аналитического исследования.
На его основе можно делать выводы по уровню ВВП, экологической обстановке и т.д.
Мы нашли соответствующий набор данных здесь:
http://www.gapminder.org/data/Ибрагим предложил взять также набор данных по количеству полетов и перевозимого груза английскими авиакомпаниями:
http://www.caa.co.uk/default.aspx?catid=80&pagetype=88&pageid=3&sglid=3И мы перешли к следующему пункту нашей программы - обработке данных.
Мы взяли наборы данных из двух источников, и скопировали их в Google Spreadsheets:
https://docs.google.com/spreadsheet/ccc?key=0Al5FERcOwZzEdGR0ellDcHFDeTJKNllvZ1dFelpkemc&usp=drive_web#gid=0 (по этой ссылке вы уже можете посмотреть на окончательный вариант нашей работы)
Мы построили график на основе объединенных наборов данных, но нам также пришлось нормализовать данные по выбросу углекислого газа, т.к. в противном случае график получился бы ненаглядным и не особо пригодным для проведения анализа.
Параллельно я также построила более симпатичный график в Google Fusion Tables:
https://www.google.com/fusiontables/DataSource?docid=1vIyG69dodqBdoGbNyMQrKxhMt7Vzz4I60yfP1aY&pli=1#chartnew:id=3И как видите, никаких особых зависимостей на графиках не прослеживалось.
Но внезапно (!) я решила посмотреть, что же получится, если эти наборы данных представить при помощи комбинированной гистограммы с накоплением.
И тут выяснилось, что зависимость все же существует:
https://docs.google.com/spreadsheet/ccc?key=0Al5FERcOwZzEdGR0ellDcHFDeTJKNllvZ1dFelpkemc&usp=drive_web#gid=2Эврика!
Вот такое мини-расследование мы провели на хататоне в Институте открытых данных.
По результатам нашей работы я быстренько сделала презентацию при помощи Keynote.
Вот эта презентация:
http://www.slideshare.net/iradche/hackathon-open-data-institute-27092013#by via Ирина Радченко