За десятилетия до тредов Twitter, форумов Reddit или групп в Facebook существовал Usenet: ранняя интернет-система дискуссий, где можно было начинать и присоединяться к обсуждениям, так же, как и сегодня работают посты с комментариями. Запущенный в 1980 году, Usenet — это детище двух студентов Университета Дьюка, которые хотели общаться между децентрализованными локальными серверами — и этот проект действует до сих пор.
В Usenet люди говорят обо всем, от нанотехнологий до мыльных опер, вина и НЛО. Йозеф Ярощак, системный архитектор из Онтарио, впервые познакомился с Usenet в 2000 году, когда нашел постоянную работу в Канаде благодаря размещению там вакансии.
На этой неделе Ярощак загрузил некоторые из старейших сообщений Usenet, доступных в интернете. Около 2,1 миллиона сообщений из архива UTZOO NetNews Генри Спенсера за период с февраля 1981 г. по июнь 1991 г. собраны в архиве Usenet и доступны любому желающему.
Сайт Usenet Archive — это часть другого, куда более масштабного проекта, который запустил Джозеф Ярощак. Он используется также для хранения постов современных независимых интернет-проектов, не связанных с корпорациями наподобие Google. Потенциально он может хранить порядка миллиарда записей. В настоящее время он архивирует 317 миллионов сообщений в 10 000 уникальных групп новостей Usenet — и, по оценкам Ярощака, в конечном итоге в нем будет храниться около 1 миллиарда сообщений.
Генри Спенсер из Университета Торонто, факультет зоологии, хранил архивы групп на 141 магнитной ленте. «Ленты UTZOO-Wiseman Usenet — это, по сути, самые ранние доступные обсуждения, размещенные в интернете людьми, работающими в различных университетах, которые уже были подключены к интернету», — объяснил Ярощак в интервью для Vice.
Спенсеру и нескольким коллегам удалось перенести данные с магнитной ленты в формат .TAR (Tape ARchive), и Ярощак, который много лет работал архиватором Usenet, преобразовал эти ленты в базу данных PostgreSQL с возможностью поиска, которую он затем загрузил в архивы Usenet. Попутно, помимо парсеров для архива магнитных лент Utzoo, он создал конвертеры на PHP, JavaScript, Java и Python и сделал их доступными на Github в качестве ресурсов с открытым исходным кодом, которые мог использовать любой.
Из групп Utzoo он загрузил почти 26 300 000 сообщений и их количество продолжает расти.
«Эта сокровищница старых постов должна быть доступна будущим поколениям», — заключает Ярощак. «Эти сотни миллионов сообщений может быть интересно читать, но, что более важно, они проливают свет на мыслительный процесс интернет-сообщества на ранних этапах самого интернета. Это огромное количество важного исторического и исследовательского контента. Было бы пренебрежением с моей стороны и со стороны других архивистов, упустить возможность вернуть эти старые текстовые группы Usenet из архивов в открытый доступ».
Читать также
В черных дырах могут быть вселенные. Рассказываем о новом открытии
На 3 день болезни большинство больных COVID-19 теряют обоняние и часто страдают насморком
Ученые выяснили, почему дети являются самыми опасными переносчиками COVID-19