четверг, 10 октября 2013 г.

Хакатон в Институте открытых данных (пятое, последнее занятие)

ODI_prezi



С 22 по 27 сентября я проходила стажировку в Институте открытых данных (Лондон).

В самый последний день тренинга мы поучаствовали в хакатоне, во время которого должны были применить свои полученные навыки и знания на практике.

Так получилось, что мы вместе с Ибрагимом (которого я уже знала по серии вебинаров для FAO UN по связанным открытыми данным) образовали отдельную группу.

Я предложила в качестве наборов данных взять данные по выбросу углекислого газа. Это довольно удобный набор данных для проведения аналитического исследования.

На его основе можно делать выводы по уровню ВВП, экологической обстановке и т.д.

Мы нашли соответствующий набор данных здесь: http://www.gapminder.org/data/

Ибрагим предложил взять также набор данных по количеству полетов и перевозимого груза английскими авиакомпаниями: http://www.caa.co.uk/default.aspx?catid=80&pagetype=88&pageid=3&sglid=3

И мы перешли к следующему пункту нашей программы - обработке данных.

Мы взяли наборы данных из двух источников, и скопировали их в Google Spreadsheets: https://docs.google.com/spreadsheet/ccc?key=0Al5FERcOwZzEdGR0ellDcHFDeTJKNllvZ1dFelpkemc&usp=drive_web#gid=0 (по этой ссылке вы уже можете посмотреть на окончательный вариант нашей работы)

Мы построили график на основе объединенных наборов данных, но нам также пришлось нормализовать данные по выбросу углекислого газа, т.к. в противном случае график получился бы ненаглядным и не особо пригодным для проведения анализа.

Параллельно я также построила более симпатичный график в Google Fusion Tables: https://www.google.com/fusiontables/DataSource?docid=1vIyG69dodqBdoGbNyMQrKxhMt7Vzz4I60yfP1aY&pli=1#chartnew:id=3

И как видите, никаких особых зависимостей на графиках не прослеживалось.

Но внезапно (!) я решила посмотреть, что же получится, если эти наборы данных представить при помощи комбинированной гистограммы с накоплением.

И тут выяснилось, что зависимость все же существует: https://docs.google.com/spreadsheet/ccc?key=0Al5FERcOwZzEdGR0ellDcHFDeTJKNllvZ1dFelpkemc&usp=drive_web#gid=2

Эврика!

Вот такое мини-расследование мы провели на хататоне в Институте открытых данных.

По результатам нашей работы я быстренько сделала презентацию при помощи Keynote.

Вот эта презентация: http://www.slideshare.net/iradche/hackathon-open-data-institute-27092013#

by via Ирина Радченко

Комментариев нет:

Отправить комментарий