воскресенье, 30 октября 2016 г.

По следам конференции SECR2016


И вот я вернулась из Москвы с международной конференции SECR2016, и мне в почту пришла анкета с этой конференции, в которой, в числе прочих, был вопрос о том, в каких конференциях я принимала участие в этом году.

И тут я поняла, что как-то подзабросила свой блог, поэтому попытаюсь на следующей неделе опубликовать список конференций за этот год, а также материалы, с ними связанные.

 

Кстати, то, что я подзабросила свой блог,  связано с некоторыми техническими проблемами (в частности, завирусованностью вордпресса и тд).

Но сейчас эти проблемы решены.
by via Ирина Радченко

Тренинг в Душанбе


Электронная анкета:

http://ift.tt/2eopqDA

Хакпад:

http://ift.tt/2dT22Sn





by via Ирина Радченко

четверг, 21 апреля 2016 г.

Дата-экспедиция 5: введение



С 25 по 29 апреля будет проводиться экспедиция данных в онлайн-формате. Организаторы экспедиции – проект “Госзатраты” и проект “Журналистика данных”.

Участие в экспедиции бесплатно.

Для участия необходима регистрация по ссылке: http://ift.tt/1VBdWyX

Подробнее об организационных моментах можно прочитать здесь.

В рамках этой экспедиции будет проведено исследование базы данных по государственным закупкам.



Введение в тему исследования

Что такое база Госзакупок?

База Госзакупок – это данные о государственных контрактах, находящиеся в соответствии с законодательством (44-ФЗ и 223-ФЗ) в открытом доступе в машиночитаемом формате. Правда, Официальный портал государственных закупок (собственно Госзакупки для краткости) публикует все эти данные в формате XML. И к этим данным нет прямого машинного доступа, то есть они выкладываются архивными файлами, которые нужно скачивать.

Что такое Госзатраты?

Не путать с Госзакупками. Госзатраты – это сервис, созданный (АНО “Информационная культура” при поддержке Комитета гражданских инициатив) на основе данных, которые публикуют Госзакупки. Только в отличие от Госзакупок, Госзатраты предоставляют прямой доступ к этим данным (через API). Данные представлены в формате JSON. И еще один бонус: Госзатраты не уходят по ночам на профилактику и соответственно доступны постоянно. А данные – те же, что на Госзакупках.

Что есть в базе?

Контракты, заключенные между госзаказчиками и подрядчиками, подписанные с 2011 года и до момента (база постоянно обновляется). Сейчас (на момент написания этого текста) их больше 18 миллионов.

Какая информация содержится в контрактах?

Это зависит от того, по какому закону он проходит. Есть 223-ФЗ: по нему в основном заключают контракты госкорпорации (например, РЖД). А есть 44-ФЗ. По нему заключают контракты госучреждения и органы государственной власти (госкорпорации иногда тоже, но гораздо реже).

Законодательство по прозрачности деятельности госучреждений строже, чем в применении к госкорпорациям. Поэтому контракты по 44-ФЗ значительно подробнее.

Итак, какая информация может содержаться в контрактах по 44-ФЗ?

– Информация о контракте:

  • Регистрационный номер контракта

  • Дата подписания

  • Стадия исполнения

  • Дата публикации в базе

  • Общая стоимость

  • Валюта, в которой указана стоимость

  • Номер федерального закона, по которому он заключен

  • Уровень бюджетного финансирования


– Информация о заказчике:

  • Наименование организации

  • Регион, в котором она находится

  • ИНН и КПП заказчика

  • Юридический адрес заказчика

  • Контактная информация заказчика


– Информация о поставщиках (их может быть несколько в одном контракте, соответственно указывается отдельно по каждому поставщику)

  • Наименование организации или имя индивидуального предпринимателя

  • ИНН поставщика

  • КПП поставщика (если он не индивидуальный предприниматель)

  • Адрес поставщика


– Информация о закупленных продуктах или услугах (наименований может быть больше одного, соответственно указывается по каждому):

  • Код продукта/услуги по общероссийскому классификатору (ОКПД, ОКДП)

  • Описание продукта/услуги

  • Единица измерения (например, штука, упаковка, рулон, условная единица)

  • Количество закупленных единиц

  • Цена за единицу

  • Общая сумма за все эти продукты


Это только основная информация. На самом деле в контрактах еще больше подробностей. Полные описания полей есть в специальных справочниках, которые публикуются на Госзакупках и регулярно обновляются в соответствии с нововведениями. Пользоваться ими не очень удобно, потому что они в формате PDF, но это лучше, чем ничего. Описание нужного поля можно легко найти в справочнике методом <ctrl>+<F>.

Что еще есть в контрактах?

Еще в контрактах есть документы контрактов. Буквально документы, по которым они заключались. Это, пожалуй, самая информативная часть. Но она же и самая труднодоступная для машинной обработки. Потому что обычно эти документы прилагаются к контрактам в виде вордовских докуметов (DOC, DOCX) или сканов (PDF, JPEG, TIFF). Эти документы хранятся только на серверах Госзакупок. Госзатраты дают только ссылку на ту страницу на Госзакупках, с которой соответствующий документ можно скачать. Поэтому когда Госзакупки уходят на профилактику, документы недоступны.

Какие могут быть проблемы в базе?

Проблем очень много. Это связано с тем, что база создается людьми фактически вручную. Это значит, что она неизбежно содержит в себе неточности. Это могут быть как злонамеренные неточности (чтобы скрыть информацию), так и обычные ошибки (опечатки, недоразумения, непонимание классификаций и т.д.).

Например:

  • в коде ИНН вместо цифры 0 может быть буква о;

  • в кириллическом описании продукта могут попадаться буквы латиницы, по виду совпадающие с кириллическими);

  • закупаемому принтеру может быть присвоен код продукции, который относится к электронным вычислительным машинам, а не к копировальным устройствам, как следовало бы ожидать;

  • продукт с кодом 15.42.12.111 (Масло пальмовое пищевое рафинированное в коробках, бочках, канистрах или бидонах массой нетто не более 200 кг) может иметь описание "чай черный нефасованный, мелколистовой, байховый, первый сорт";

  • вместо количества закупленных продуктов может быть указана цена за единицу;

  • некоторые поля могут быть вообще не заполнены;

  • если посмотреть документ контракта, то может обнаружиться, что на самом деле состав закупленных товаров сильно отличается от того, что указано в базе.


И это только немногочисленные примеры "подводных камней".

Пожалуй, некоторые из них можно было бы устранить, просто усовершенствовав систему, через которую вносятся данные, но пока факт тот, что данные очень "грязные".

Что с этим делать?

Может сложиться впечатление, что при таком количестве непредсказуемых ошибок база контрактов в принципе неинформативна. Это не так.

Во-первых, чтобы обоснованно судить о ее информативности, нужно подробно изучить встречающиеся в ней погрешности и по возможности определить, насколько часто они встречаются и в какой степени искажают картину.

Над этим работает, в частности, команда "Госзатрат", но надо этим могут заниматься и все, кому это интересно, потому что база открыта. Процесс, конечно, не быстрый, потому что он требует выработки подходящих методов.

Во-вторых, база представляет собой интерес и сама по себе - как данные, позволяющие исследовать и оценивать работу системы контрактирования, устанавливать ее недоработки и тем самым способствовать ее усовершенствованию. В этом смысле она, безусловно, информативна.

Идея исследования

Проблема

Допустим, мы хотим узнать, какое учреждение покупает самое дорогое постельное белье. Выгружаем из базы все данные с соответствующим кодами продукции (ОКПД, ОКПД-2, ОКДП) по 44-ФЗ и смотрим.

Для начала сортируем эти данные по цене за единицу продукции. И сразу видим странные цифры. Например, в одном контракте выясняется, что Администрация муниципального образования Крымского района (Краснодарский край) купила себе комплект постельного белья (одна штука) на сумму 59030 рублей (!).

Велик соблазн сделать из этого поспешный вывод о моральном облике госучреждений.

Но не все так просто. Если мы откроем документ этого контракта (он находится во вкладке “Документы”), то мы увидим там совсем другие цифры:


№ п/п Наименование и технические характеристики Ед. изм. Кол-во Цена за ед. в руб. с НДС Сумма (руб. с НДС)
1 Подушка шт 64 200,00 12 800,00
2 Одеяло полушерстяное шт 104 300,00 31200,00
3 Комплект постельного белья шт 47 310,00 14 570,00
4 Комплект постельного белья шт 1 460,00 460,60



Вопрос

А как часто вообще возникает ситуация такого несовпадения? Кстати, проблема, о которой мы сейчас говорим, характерна и для других продуктов. Но пока для сужения задачи сосредоточимся на выбранном.

Чтобы узнать ответ на этот вопрос предельно точно, необходимо вручную сопоставить все наши данные по продукту с информацией в прилагающихся к ним документам. Но на практике это не получится, потому что данных слишком много.



Решение

Здесь на помощь приходит статистика. Чтобы получить представление обо всех данных по закупке постельного белья, можно взять простую случайную выборку и посмотреть, как обстоят дела в ней. На этом основании можно будет сделать вывод и обо всем продукте (с учетом уровня доверия и доверительных интервалов).

Конечно, и тут потребуется ручная работа. Но ее будет гораздо меньше, чем при сопоставлении всех полученных контрактов. И если распределить работу, то на сравнение контрактов и документов уйдет не так много времени.

Таким образом мы получим довольно точное представление о проценте расхождений между данными базы и документами хотя бы в этом продукте. Еще мы получим некоторую отправную точку, чтобы прикидывать процент расхождений по другим продуктам. И, конечно, что немаловажно, мы посмотрим на деле, насколько хорош этот метод и как его можно усовершенствовать.

 
by via Ирина Радченко

вторник, 19 апреля 2016 г.

Дата-экспедиция 5: анонс



АНО “Информационная культура” и неформальный образовательный проект “Журналистика данных” организуют исследование на основе базы данных государственных закупок. Исследование будет проходить в формате дата-экспедиции (или экспедиции данных) под кодовым названием “ДЭ5”.

Тема экспедиции: Исследование репрезентативности официальных контрактных данных на основе анализа данных “Госзатрат”.

Цель исследования: Установить репрезентативность данных, которые вносятся в систему государственных закупок. Таким образом, мы получим более точное представление о базе и возможностях работы с ней.

Сроки и продолжительность ДЭ5: ДЭ5 начнется 25 апреля (понедельник) и продлится пять дней, то есть завершится 29 апреля (пятница) 2016 г.

Что такое экспедиция данных?

Она же дата-экспедиция. Это такой формат совместной работы онлайн. Собирается некоторое количество участников и, используя инструменты онлайн-взаимодействия, пытаются вместе решить поставленную задачу (исследовательскую или образовательную).

Почему ДЭ5?

Потому что это уже пятое мероприятие в таком жанре, запускаемое проектом “Журналистика данных”. О предыдущих экспедициях можно почитать здесь. Правда, в отличие от большинства предыдущих, ДЭ5 - это скорее исследовательское, чем образовательное мероприятие.

Сколько времени придется уделять ДЭ5?

Основная нагрузка по совместной работе придется на три первых дня ДЭ5. Мы рекомендуем в этот период выделить на работу в рамках ДЭ5 не менее одного-двух часов. Оставшиеся два дня будут менее требовательными, с точки зрения временных затрат, так как этот период отводится на самостоятельную исследовательскую работу.

Как будет проходить работа?

Все участники должны будут принять приглашение к вступлению в закрытую гугл-группу. Гугл-группа будет выглядеть и действовать как форум, а также в ней можно будет настроить отправку уведомлений на почтовый адрес. В гугл-группе будут публиковаться общие инструкции по работе.

Там же произойдет распределение участников на команды и корректировка этого распределение, если возникнут соответствующие пожелания. Кроме того, в гугл-группе можно (и нужно) будет задавать вопросы и делиться своими наблюдениями, пожеланиями и предложениями.

У экспедиции будет один общий модератор. Кроме того, в каждой команде будет выделен координатор, который будет отвечать за результаты работы своей команды. У каждой команды на форуме будет своя тема, где участники смогут обсуждать свою работу. Также участники каждой команды могут взаимодействовать друг с другом и с координаторами любыми удобными им способами.

Что требуется, чтобы стать участником ДЭ5?

  • Иметь учетную запись в Google

  • Зарегистрироваться по ссылке: http://ift.tt/1VBdWyX


Внимание: указанный при регистрации почтовый ящик Gmail будет постоянно использоваться в ходе экспедиции. Туда придет приглашение присоединиться к закрытой группе, в которой будет проходить работа. Туда же будут приходить уведомления об активности в группе. Это значит, что во время экспедиции этот ящик имеет смысл регулярно проверять.

Какие навыки обязательно потребуются в ходе ДЭ5?

Работа с Google-документами и Google-таблицами.

Некоторую информацию об использовании гугл-документов как инструмента онлайн-взаимодействия можно почерпнуть здесь.

Также можно посмотреть базовые инструкции по работе с гугл-таблицами.

 
by via Ирина Радченко

понедельник, 14 марта 2016 г.

Международный день открытых данных - 2016





5 февраля 2016 года по всему миру отмечали День открытых данных.
Мероприятие проходит каждый год, и с каждым годом все больше заинтересованных людей вовлекаются в хакатоны, лекции, "не-конференции" и прочие мероприятия, посвященные открытым данным.
Для удобства просмотра участников был создан специальный информационных ресурс: http://opendataday.org/

В Москве День открытых данных прошел на площадке Impact Hub при поддержке АНО "Информационная культура", "Теплицы социальных технологий" и Комитета гражданских инициатив.
Мероприятие в Москве имело формат "неконференции", где почти каждый желающий мог выступить с речью.
Можно было принять участие в хакатоне по открытым данным, а также поучаствовать в сессии по Открытой науке.

Сессия по Открытой науке
В рамках IODD2016 (именно с такой аббревиатурой это мероприятие фигурировало в социальных сетях) я организовала мини-сессию по Открытой науке.
Всем желающим я предложила обсудить и составить список полезных онлайн-ресурсов, при помощи которых исследователи и ученые могут рассказать о себе, о своих проектах, опубликовать результаты своих исследований (данные и научные статьи).
Результаты сессии были отражены в etherpad-e: http://ift.tt/1THPLy6
Затем я предложила разработать простые и понятные инструкции по использованию этих сервисов (на русском языке).
Результаты я думаю выложить на сайте, посвященным российским проектам в области Открытой науки и Открытого обучения: http://ift.tt/1WkeDKd
Эти инструкции будут весьма полезны для коллег, пока не имеющим представления о существовании подобных ресурсов.

Другие информационные материалы
Посмотреть отчет, написанный Инфокультурой можно здесь: http://ift.tt/1THPNWL
Отчет "Теплицы": http://ift.tt/1WkeE0v
Страничка мероприятия на Фейсбуке: http://ift.tt/1THPNWM
by via Ирина Радченко

вторник, 22 декабря 2015 г.

Полезные ссылки по дата-журналистике и работе с открытыми данными

DataJournalism Сегодня я хочу поделиться с вами полезным ресурсом: https://data-journalism.zeef.com/irina.radchenko Здесь я собрала упорядоченную коллекцию ссылок по дата-журналистике и работе с открытыми данными. Коллекция включает в себя следующие разделы.
  1. Data Journalism
  2. Data Expedition
  3. Find the data
  4. Data Sources
  5. Scrape the data
  6. Clean the data
  7. Visualize the data
  8. Visualizations
  9. Digital Storytelling
  10. Data Journalism courses
  11. Examples
  12. Blogs
  13. Working with API
  14. GIS
  15. Data Zeef
  16. Longreads
  17. Questions-Answers
  18. Long Read Examples
  19. Data Science
Если у вас есть полезные ссылки, которыми вы желаете поделиться, то предлагайте их, пожалуйста, прямо на ресурсе Zeef.com. Для этого надо нажать на плюсик после списка ссылок.