Дискуссия о данных за последние пару лет стала среди людей продвинутых предметом общих разговоров: большие и открытые данные, парсинг, датасеты — наверняка вы не раз слышали эти слова. За ними открываются перспективы совместной работы над внедрением технологий, доступ к государственной информации и получение пользы, которую можно оценить в $3 млрд. Сооснователь сервиса Rusprofile.ru Илья Мошин рассказывает, что такое open data, зачем государству делиться информацией и как она может помочь гражданам.
Что такое открытые данные
Впервые термин open data появился в 1995 году в отчете американского научного центра о схожести сведений по состоянию окружающей среды и геофизических данных. Центр предложил международному научному сообществу свободно делиться информацией и анализировать ее сообща. Но подобная концепция далеко не новая: еще в середине XX века ее продвигал известный социолог Роберт Кинг Мертон. Он считал, что коллективизм, бескорыстие и универсальность единого научного знания позволят работать над технологиями быстрее и эффективнее.
Сегодня открытые данные публикуются и регулируются на государственном уровне. В США, например, это FOIA — закон о свободе информации, позволяющий обнародовать данные исполнительных органов власти, а еще много меморандумов. Подробнее про политику страны в контексте открытых данных можно почитать здесь, в одном из ключевых меморандумов. В принципе, подобные законы и порталы с открытыми данными есть у всех развитых стран. Например, во Франции существует организация Open Data France — ее создали госслужащие, которые работают с открытыми данными на местном уровне. Руководит всем развитием французских данных SGMAP (Генеральный секретариат по модернизации государственного управления — «Хайтек»), основанный в 2012 году.
Информация сегодня так важна, что существует даже специальная «полиция данных» — должность data chief officer, то есть главное должностное лицо по данным. Такой сотрудник регулирует, насколько хорошо государство справляется с публикацией данных и отчитывается по ним, следит за прозрачностью процесса.
Кстати, о прозрачности: доступность информации — это ключ к «открытому государству», концепции, по которой управляют страной и контролируют все процессы граждане. Но это не единственная причина, по которой открытые данные так важны.
Международный опыт
Интересно, что собрать датасет можно практически о чем угодно. Например, на зарубежном Kaggle (площадке, которая объединяет дата-исследователей со всего мира) можно найти датасеты со статистикой по выдаче Шенгенских виз, рецептами коктейлей и даже сет с наименованием 3,5 тыс. пицц из популярных пиццерий.
Такие данные — не просто набор бессмысленных таблиц. С их помощью можно делать любопытные исследования — например, написать несколько строк кода на Python и посчитать, какая страна выдала самое большое количество виз в 2018-м, а затем выяснить, гражданам каких стран визы выдавались охотнее всего. Или, скажем, обучить чат-бота озвучивать для вас ингредиенты и рецепты коктейлей. Это самый простой вариант работы с готовыми датасетами, доступный практически каждому, кто только начинает разбираться с open data.
Обычно датасеты включают в себя ряд исторических данных, собранных за какой-то промежуток времени. Например, базы с открытыми данными по преступлениям помогают находить закономерности и даже раскрывать преступления, которых еще не было. Звучит как научная фантастика, но, к примеру, программа PredPol анализирует открытые данные полицейских участков в США и Англии. На выходе программа с точностью до 50 м² предсказывает, где и когда произойдет следующее преступление.
Открытые данные о передвижении транспорта, пробках, авариях на дороге или ремонтах помогают как компаниям доставки, так и простым гражданам. Например, «Яндекс.Навигатор», которым пользуются миллионы водителей, прогнозирует самый быстрый маршрут на основе исторических данных поездок пользователей.
Транспорт Лондона (TfL) благодаря базам открытых данных дает пассажирам быстрый и легкий доступ к расписанию маршрутов. По данным департамента, 600 приложений, которые используют более 42% жителей Лондона, «прикручены» к 80 датасетам с помощью объединенного API.
Эксперты McKinsey считают, что глобальное использование открытых данных привело бы к генерации пользы, в финансовом эквиваленте равной $3 млрд. Но, хотя Россия и подписала в 2013 году на встрече стран из G8 Хартию об открытых данных, проблем с ними в нашей стране пока хватает. В том числе и потому, что России в G8 с 2014 года нет.
Россия
Открытые данные у нас регламентируются 112-ФЗ от 7 июня 2013 года. Он закрепляет обязательный факт размещения государственных данных и данных органов местного управления в интернете. За последние годы в сети действительно появилось много профильных государственных порталов: от общего data.gov.ru, где можно найти более 2 тыс. датасетов на разные темы, до узкопрофильных вроде сайтов Минкультуры или Минфина.
В прошлом году международная некоммерческая организация World Wide Web Foundation опубликовала рейтинг «открытости» государств: каждой из 30 стран, которая реализует принцип открытых данных, были присвоены соответствующие баллы. Россия получила 51 балл из 100 и заняла 13-е место. Самыми закрытыми оказались регистрационные данные о компаниях и расходах правительства. И если с первым помогают проекты для проверки контрагентов («СПАРК Интерфакс», «Контур Фокус» и бесплатный Rusprofile.ru), то со вторым могут справиться только журналисты-расследователи.
Счетная палата РФ разработала свой собственный внутренний рейтинг: так, в этом году самыми «открытыми» ведомствами стали МВД, Минкультуры, Минфин и Минэнерго. Рейтинг составлялся по трем критериям:
- Открытость информации (доступность, полнота и актуальность данных).
- Открытые данные (наличие опубликованных данных, их содержательность и машиночитаемость).
- Открытый диалог (наличие на сайте формы для обращения, аккаунты в соцсетях и качество обратной связи с пользователями).
Несмотря на это, российские открытые данные не могут похвастаться валидностью и едиными стандартами. Большая часть из них публикуется в формате CSV, который почти всегда приходится «подчищать» перед дальнейшим разбором. Кроме того, некоторые источники до сих пор не имеют консолидированных наборов: если вам нужно получить данные по, скажем, госзакупкам в Сибири, придется работать с отдельным датасетом по этому региону.
Анализ данных и их качество
Несмотря на то, что системная работа с государственными данными в России идет уже достаточно давно, их качество все равно страдает от трех ключевых проблем, с которыми Rusprofile сталкивается каждый день:
- неожиданные изменения формата;
- неполная документированность;
- неконсистентность и периодические ошибки (например, реквизиты принадлежат одной организации, а название — другой).
Для проверки контрагентов в рамках Rusprofile мы работаем с множеством источников: базовую информацию (реквизиты, список учредителей, виды деятельности и другое) получаем из ФНС. Это самый лучший источник из тех, которые нам доступны: за пять лет, что мы работаем с ним, количество ошибок в базе заметно уменьшилось. Еще пользуемся сведениями Росстата, Федеральной службы судебных приставов, порталов по госзакупкам и проверкам, данными по арбитражным делам. «Родственные», то есть конкурирующие и похожие компании мы вычисляем с помощью машинного обучения.
Для того, чтобы обрабатывать миллиарды строк разных таблиц, только для рабочей среды требуется пять серверов: два под базу данных, а еще по одному под отдачу контента, поиск и разбор данных. Самая ресурсоемкая операция — ежедневное обновление данных по всем источникам. Чтобы избежать перегрузки серверов и отказа обслуживания, мы проводим его по ночам, во временной промежуток с наименьшей активностью пользователей.
Еще одна проблема, из-за которой нам приходится использовать несколько серверов и большой стек технологий — формальное отношение органов к открытым данным. Вот несколько кейсов. Всю первую половину 2018 года прокуратура вообще не выкладывала данные, ссылаясь на то, что сайт в разработке. ИНН, который должен служить универсальным идентификатором юридического лица или индивидуального предпринимателя, может отсутствовать, быть неуникальным или содержать ошибки. Федеральная служба судебных приставов регулярно допускает ошибки в адресах или указывает их не полностью, что, при условии отсутствия в данных ИНН или ОГРН, зачастую ведет к ошибочной привязке исполнительных производств. Все это делает нашу работу, как и работу других дата-исследователей, гораздо сложнее.
Для работы с подобными ошибками приходится использовать специальные алгоритмы на основе Python и TensorFlow. Чтобы точнее идентифицировать данные, мы сопоставляем информацию из различных источников. При выявлении некорректных реквизитов мы не используем их в дальнейших расчетах или привязках и выводим соответствующую отметку на странице организации или предпринимателя. Например, был случай, когда один и тот же ИНН в данных ФНС относился к 12 различным физическим лицам.
Эксперты отмечают: основная проблема открытых данных в России заключается в том, что страна больше не стремится вернуться в состав ОЭСР или G8, а значит, де юре или де факто не связана никакими международными обязательствами. В ситуации отсутствия политической конкуренции внутри страны оказывается, что внутренних обязательств для развития концепции открытых данных тоже нет, поэтому сегодня тема open data в России почти полностью исчезла из публичной повестки, и госорганы не особенно стремятся трудиться над качеством данных.
Популяризацией темы открытых данных в России в основном занимается или бизнес, или некоммерческие организации. Одна из них — известная в комьюнити аналитиков «Информационная культура». Миссия таких проектов — развитие концепции открытого и понятного государства, полный и бесплатный доступ к госданным и комфортная среда для разработчиков.