От проверки контрагентов до предсказания преступлений: почему открытые данные приносят пользу и как это происходит в России

Дискуссия о данных за последние пару лет стала среди людей продвинутых предметом общих разговоров: большие и открытые данные, парсинг, датасеты — наверняка вы не раз слышали эти слова. За ними открываются перспективы совместной работы над внедрением технологий, доступ к государственной информации и получение пользы, которую можно оценить в $3 млрд. Сооснователь сервиса Rusprofile.ru Илья Мошин рассказывает, что такое open data, зачем государству делиться информацией и как она может помочь гражданам.

Что такое открытые данные

Впервые термин open data появился в 1995 году в отчете американского научного центра о схожести сведений по состоянию окружающей среды и геофизических данных. Центр предложил международному научному сообществу свободно делиться информацией и анализировать ее сообща. Но подобная концепция далеко не новая: еще в середине XX века ее продвигал известный социолог Роберт Кинг Мертон. Он считал, что коллективизм, бескорыстие и универсальность единого научного знания позволят работать над технологиями быстрее и эффективнее.

Сегодня открытые данные публикуются и регулируются на государственном уровне. В США, например, это FOIA — закон о свободе информации, позволяющий обнародовать данные исполнительных органов власти, а еще много меморандумов. Подробнее про политику страны в контексте открытых данных можно почитать здесь, в одном из ключевых меморандумов. В принципе, подобные законы и порталы с открытыми данными есть у всех развитых стран. Например, во Франции существует организация Open Data France — ее создали госслужащие, которые работают с открытыми данными на местном уровне. Руководит всем развитием французских данных SGMAP (Генеральный секретариат по модернизации государственного управления — «Хайтек»), основанный в 2012 году.

Информация сегодня так важна, что существует даже специальная «полиция данных» — должность data chief officer, то есть главное должностное лицо по данным. Такой сотрудник регулирует, насколько хорошо государство справляется с публикацией данных и отчитывается по ним, следит за прозрачностью процесса.

Кстати, о прозрачности: доступность информации — это ключ к «открытому государству», концепции, по которой управляют страной и контролируют все процессы граждане. Но это не единственная причина, по которой открытые данные так важны.

Международный опыт

Интересно, что собрать датасет можно практически о чем угодно. Например, на зарубежном Kaggle (площадке, которая объединяет дата-исследователей со всего мира) можно найти датасеты со статистикой по выдаче Шенгенских виз, рецептами коктейлей и даже сет с наименованием 3,5 тыс. пицц из популярных пиццерий.

Такие данные — не просто набор бессмысленных таблиц. С их помощью можно делать любопытные исследования — например, написать несколько строк кода на Python и посчитать, какая страна выдала самое большое количество виз в 2018-м, а затем выяснить, гражданам каких стран визы выдавались охотнее всего. Или, скажем, обучить чат-бота озвучивать для вас ингредиенты и рецепты коктейлей. Это самый простой вариант работы с готовыми датасетами, доступный практически каждому, кто только начинает разбираться с open data.

Обычно датасеты включают в себя ряд исторических данных, собранных за какой-то промежуток времени. Например, базы с открытыми данными по преступлениям помогают находить закономерности и даже раскрывать преступления, которых еще не было. Звучит как научная фантастика, но, к примеру, программа PredPol анализирует открытые данные полицейских участков в США и Англии. На выходе программа с точностью до 50 м² предсказывает, где и когда произойдет следующее преступление.

Открытые данные о передвижении транспорта, пробках, авариях на дороге или ремонтах помогают как компаниям доставки, так и простым гражданам. Например, «Яндекс.Навигатор», которым пользуются миллионы водителей, прогнозирует самый быстрый маршрут на основе исторических данных поездок пользователей.

Транспорт Лондона (TfL) благодаря базам открытых данных дает пассажирам быстрый и легкий доступ к расписанию маршрутов. По данным департамента, 600 приложений, которые используют более 42% жителей Лондона, «прикручены» к 80 датасетам с помощью объединенного API.

Эксперты McKinsey считают, что глобальное использование открытых данных привело бы к генерации пользы, в финансовом эквиваленте равной $3 млрд. Но, хотя Россия и подписала в 2013 году на встрече стран из G8 Хартию об открытых данных, проблем с ними в нашей стране пока хватает. В том числе и потому, что России в G8 с 2014 года нет.

Россия

Открытые данные у нас регламентируются 112-ФЗ от 7 июня 2013 года. Он закрепляет обязательный факт размещения государственных данных и данных органов местного управления в интернете. За последние годы в сети действительно появилось много профильных государственных порталов: от общего data.gov.ru, где можно найти более 2 тыс. датасетов на разные темы, до узкопрофильных вроде сайтов Минкультуры или Минфина.

В прошлом году международная некоммерческая организация World Wide Web Foundation опубликовала рейтинг «открытости» государств: каждой из 30 стран, которая реализует принцип открытых данных, были присвоены соответствующие баллы. Россия получила 51 балл из 100 и заняла 13-е место. Самыми закрытыми оказались регистрационные данные о компаниях и расходах правительства. И если с первым помогают проекты для проверки контрагентов («СПАРК Интерфакс», «Контур Фокус» и бесплатный Rusprofile.ru), то со вторым могут справиться только журналисты-расследователи.

Счетная палата РФ разработала свой собственный внутренний рейтинг: так, в этом году самыми «открытыми» ведомствами стали МВД, Минкультуры, Минфин и Минэнерго. Рейтинг составлялся по трем критериям:

  1. Открытость информации (доступность, полнота и актуальность данных).
  2. Открытые данные (наличие опубликованных данных, их содержательность и машиночитаемость).
  3. Открытый диалог (наличие на сайте формы для обращения, аккаунты в соцсетях и качество обратной связи с пользователями).

Несмотря на это, российские открытые данные не могут похвастаться валидностью и едиными стандартами. Большая часть из них публикуется в формате CSV, который почти всегда приходится «подчищать» перед дальнейшим разбором. Кроме того, некоторые источники до сих пор не имеют консолидированных наборов: если вам нужно получить данные по, скажем, госзакупкам в Сибири, придется работать с отдельным датасетом по этому региону.

Анализ данных и их качество

Несмотря на то, что системная работа с государственными данными в России идет уже достаточно давно, их качество все равно страдает от трех ключевых проблем, с которыми Rusprofile сталкивается каждый день:

  • неожиданные изменения формата;
  • неполная документированность;
  • неконсистентность и периодические ошибки (например, реквизиты принадлежат одной организации, а название — другой).

Для проверки контрагентов в рамках Rusprofile мы работаем с множеством источников: базовую информацию (реквизиты, список учредителей, виды деятельности и другое) получаем из ФНС. Это самый лучший источник из тех, которые нам доступны: за пять лет, что мы работаем с ним, количество ошибок в базе заметно уменьшилось. Еще пользуемся сведениями Росстата, Федеральной службы судебных приставов, порталов по госзакупкам и проверкам, данными по арбитражным делам. «Родственные», то есть конкурирующие и похожие компании мы вычисляем с помощью машинного обучения.

Для того, чтобы обрабатывать миллиарды строк разных таблиц, только для рабочей среды требуется пять серверов: два под базу данных, а еще по одному под отдачу контента, поиск и разбор данных. Самая ресурсоемкая операция — ежедневное обновление данных по всем источникам. Чтобы избежать перегрузки серверов и отказа обслуживания, мы проводим его по ночам, во временной промежуток с наименьшей активностью пользователей.

Еще одна проблема, из-за которой нам приходится использовать несколько серверов и большой стек технологий — формальное отношение органов к открытым данным. Вот несколько кейсов. Всю первую половину 2018 года прокуратура вообще не выкладывала данные, ссылаясь на то, что сайт в разработке. ИНН, который должен служить универсальным идентификатором юридического лица или индивидуального предпринимателя, может отсутствовать, быть неуникальным или содержать ошибки. Федеральная служба судебных приставов регулярно допускает ошибки в адресах или указывает их не полностью, что, при условии отсутствия в данных ИНН или ОГРН, зачастую ведет к ошибочной привязке исполнительных производств. Все это делает нашу работу, как и работу других дата-исследователей, гораздо сложнее.

Для работы с подобными ошибками приходится использовать специальные алгоритмы на основе Python и TensorFlow. Чтобы точнее идентифицировать данные, мы сопоставляем информацию из различных источников. При выявлении некорректных реквизитов мы не используем их в дальнейших расчетах или привязках и выводим соответствующую отметку на странице организации или предпринимателя. Например, был случай, когда один и тот же ИНН в данных ФНС относился к 12 различным физическим лицам.

Эксперты отмечают: основная проблема открытых данных в России заключается в том, что страна больше не стремится вернуться в состав ОЭСР или G8, а значит, де юре или де факто не связана никакими международными обязательствами. В ситуации отсутствия политической конкуренции внутри страны оказывается, что внутренних обязательств для развития концепции открытых данных тоже нет, поэтому сегодня тема open data в России почти полностью исчезла из публичной повестки, и госорганы не особенно стремятся трудиться над качеством данных.

Популяризацией темы открытых данных в России в основном занимается или бизнес, или некоммерческие организации. Одна из них — известная в комьюнити аналитиков «Информационная культура». Миссия таких проектов — развитие концепции открытого и понятного государства, полный и бесплатный доступ к госданным и комфортная среда для разработчиков.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Читайте также

Первая полоса
Ученые впервые наблюдали, как орангутанг занимается самолечением
Наука
SpaceX не смогла скрыть полет ракеты над Россией: в сети публикуют фото
Космос
Зонд «Эйнштейн» показал первую партию редких космических фото
Космос
Миссию по доставке образцов с загадочной стороны Луны запустили в Китае
Наука
Ученые подтвердили ключевые события из Библии
Наука
Недалеко от нас есть планета, где ветер дует быстрее пули
Космос
Найден необычный способ бороться с хроническим стрессом
Наука
Посмотрите на самый редкий торнадо, который пронесся над США
Наука
Над Землей пролетел астероид, который вращался быстрее всех остальных
Космос
Ученые показали лицо женщины, которая жила 75 000 лет назад
Наука
Анализ генов показал, как древние водоросли вышли на поверхность планеты
Наука
Древняя технология поможет вырастить растения на Марсе, считают ученые
Космос
Физики из MIT добились рекордной близости между атомами для квантовых исследований
Наука
В Германии на ветряную электростанцию впервые установили деревянные лопасти
Новости
Инженеры разработали искусственную пиявку для безболезненного забора крови у детей
Наука
Solar Orbiter запечатлел «пушистую» корону Солнца в завораживающих деталях
Космос
Китай отправляет миссию на обратную сторону Луны: как смотреть онлайн
Космос
ИИ нашел асимметрию материи и антиматерии на Большом адронном коллайдере
Наука
TikTok вернулся в Россию? Что известно прямо сейчас
Новости
В Японии разработали устройство 6G, которое передает данные со скоростью 100 Гбит/с
Новости