пятница, 25 октября 2013 г.

Женщины в открытых данных и журналистике данных



В воскресенье 27 октября я прочту лекцию на тему "Женщины в открытых данных и журналистике данных" на Geek Girls TeST-Camp.

Есть небольшой список женщин, занимающихся открытыми данными (http://datalibre.ca/2013/02/27/women-involved-in-open-data/). И разумеется, этот список неполон.

Но его наличие говорит о том, что женщин в открытых данных существенно меньше, чем мужчин.



Еще можно посмотреть статистику аккаунтов ресурса Хабрахабр (http://habrahabr.ru/info/stats/), узнать сколько женщин являются зарегистрированными участниками этого известного ресурса, посвященного информационным технологиям.



При этом в нашей первой дата-экспедиции, которую мы проводили на базе проекта DataDrivenJournalism.ru, количество участниц было больше количества участников.



Да и в Школе открытых данных наблюдается паритет сторон.



В воскресенье я представлю побольше интересных примеров участия женщин в движении открытых данных и проектах по дата-журналистике, поэтому приходите послушать мою лекцию в DI Telegraph (Тверская ул., д.7).

by via Ирина Радченко

вторник, 15 октября 2013 г.

Немного статистики по работе Школы открытых данных

Я решила еще раз попрактиковаться в работе с данными при помощи Google Spreadsheets и обработала данные, полученные при помощи анкетирования (Заявка на обучение в Школе открытых данных), и представила их в виде круговых диаграмм:



ss01



ss02



ss03



ss04



ss05

by via Ирина Радченко

четверг, 10 октября 2013 г.

Хакатон в Институте открытых данных (пятое, последнее занятие)

ODI_prezi



С 22 по 27 сентября я проходила стажировку в Институте открытых данных (Лондон).

В самый последний день тренинга мы поучаствовали в хакатоне, во время которого должны были применить свои полученные навыки и знания на практике.

Так получилось, что мы вместе с Ибрагимом (которого я уже знала по серии вебинаров для FAO UN по связанным открытыми данным) образовали отдельную группу.

Я предложила в качестве наборов данных взять данные по выбросу углекислого газа. Это довольно удобный набор данных для проведения аналитического исследования.

На его основе можно делать выводы по уровню ВВП, экологической обстановке и т.д.

Мы нашли соответствующий набор данных здесь: http://www.gapminder.org/data/

Ибрагим предложил взять также набор данных по количеству полетов и перевозимого груза английскими авиакомпаниями: http://www.caa.co.uk/default.aspx?catid=80&pagetype=88&pageid=3&sglid=3

И мы перешли к следующему пункту нашей программы - обработке данных.

Мы взяли наборы данных из двух источников, и скопировали их в Google Spreadsheets: https://docs.google.com/spreadsheet/ccc?key=0Al5FERcOwZzEdGR0ellDcHFDeTJKNllvZ1dFelpkemc&usp=drive_web#gid=0 (по этой ссылке вы уже можете посмотреть на окончательный вариант нашей работы)

Мы построили график на основе объединенных наборов данных, но нам также пришлось нормализовать данные по выбросу углекислого газа, т.к. в противном случае график получился бы ненаглядным и не особо пригодным для проведения анализа.

Параллельно я также построила более симпатичный график в Google Fusion Tables: https://www.google.com/fusiontables/DataSource?docid=1vIyG69dodqBdoGbNyMQrKxhMt7Vzz4I60yfP1aY&pli=1#chartnew:id=3

И как видите, никаких особых зависимостей на графиках не прослеживалось.

Но внезапно (!) я решила посмотреть, что же получится, если эти наборы данных представить при помощи комбинированной гистограммы с накоплением.

И тут выяснилось, что зависимость все же существует: https://docs.google.com/spreadsheet/ccc?key=0Al5FERcOwZzEdGR0ellDcHFDeTJKNllvZ1dFelpkemc&usp=drive_web#gid=2

Эврика!

Вот такое мини-расследование мы провели на хататоне в Институте открытых данных.

По результатам нашей работы я быстренько сделала презентацию при помощи Keynote.

Вот эта презентация: http://www.slideshare.net/iradche/hackathon-open-data-institute-27092013#

by via Ирина Радченко

вторник, 8 октября 2013 г.

По следам третьего занятия в Школе открытых данных



Третье занятие Школы открытых данных было посвящено концепции связанных открытых данных, а также инструментам по работе со связанными данными.

Занятие состояло из 3 частей по 90 минут с двуми перерывами, вкусными пирогами и обсуждением связанных данных. Несмотря на то, что занятие было очень длинным, практически все слушатели сидели до последнего!

Мне также хотелось бы поделиться кое-какими полезными ссылками по результату этого занятия.

Первой выступила Амрапали Завери, которая рассказала о пятизвездочной модели открытости данных по Тиму Бернерсу-Ли, а также о пригодности и полезности различных форматов данных с точки зрения открытости.

Доклад Конрада Хеффнера был посвящен его проекту LinkedSpending. Любопытствующие могут найти исходный код проекта на Гитхабе: https://github.com/KonradHoeffner/linkedspending.aksw.org

Он также упомянул про вопросно-ответную систему, разработка которой ведется в университете Лейпцига: http://aksw.org/Projects/AutoSPARQL.html

Иван Ермилов рассказал про свой замечательный проект перевода наборов данных из формата CSV в RDF-представление CSV2RDF: https://github.com/earthquakesan/CSV2RDF-WIKI.

Иван рассказал про два удобных поисковика по семантическому вебу: Swoogle и Watson, а также про каталог словарей связанных данных: http://lov.okfn.org/dataset/lov/.

В докладе был также упомянут каталог открытых данных: http://datacatalogs.org/, система управления данными CKAN: http://ckan.org/ и хабы открытых данных: http://datahub.io/ru/ и http://hubofdata.ru/.

Он также упомянул про замечательные проекты LODRefine и Sparqlify, и средства визуализации и работы со связанными данными (CubeViz, Facete и др).

Смело могу подвести итог: мы провели в Школе открытых данных субботний день интересно, познавательно и вкусно!



by via Ирина Радченко