Линки доступности

Оборотная сторона википедий


Оборотная сторона википедий
Оборотная сторона википедий

Американское общество технологично. Лучшие умы со всего света создали в США критическую интеллектуальную массу во многих областях науки и техники. В «Технологиях» пойдет речь о них, но не только. Само понятие "технология" в Америке применимо буквально ко всему, в том числе к обществу. Новые материалы в рубрике «Технологии с Крыловым» каждую неделю по средам

В ночь с воскресенья на понедельник интернет-портал WikiLeaks «слил» порядка 250 тысяч государственных документов, считавшихся секретными. Информационная волна плеснулась еще шире, чем в прошлый подобный слив и затронула многие страны, в том числе США и Россию. Реакция СМИ, как и следовало ожидать, в основном эмоциональная. Но нас интересуют факты.

Следует обратить особое внимание на объем опубликованной разом информации. Как прочесть такое количество? Ответ – никак. Если брать по сто документов в день, человеку потребуется около семи лет для того, чтобы их одолеть. Это означает вот что: работать с такого рода массивами могут либо крупные аналитические организации с большим штатом экспертов, налаженным взаимодействием отделов и четко поставленными целями, либо технологичные организации, пользующиеся программными средствами обработки информации. И то, что в СМИ уже в понедельник был некоторый анализ всех документов, говорит в пользу того, что такие технологии стоят на вооружении либо самих СМИ, либо тех, кто готовил им информацию.

Сказанное в равной или даже большей мере относится и к другим «свободным энциклопедиям». Многие из них давно переросли в гига- и терабайтные ресурсы, простая навигация по которым без программных средств затруднительна. Не случайно последние пару лет практически все крупные интернет-ресурсы стали вводить тэги и фольксономии. Необходимость структурировать информацию, а в идеале и классифицировать ее, встала в полный рост.

Под фольксономией понимают обычно классификацию, которая создается самими пользователями. Для Википедии, собственно, этот метод используется с самого начала, и с самого начала стало ясно, что такие «народные классификации» обладают рядом существенных системных недостатков. Во-первых, они не универсальны. Одни авторы классифицируют «крупно», другие берут мелкий масштаб. Это следствие того, что нет единой классификационной номенклатуры, как, скажем старая добрая IUPAC в химии. Да такую и нельзя создать для «всего», а Википедия – это именно ресурс обо всем на свете.

Второй недостаток – бесконечное дублирование фольксономий, изобретение колеса в энный раз с вариациями. Эти вариации не позволяют свести разные фольксономии воедино. Так на ресурсах параллельно живут разные системы тэгов и классификаций об одном и том же предмете, и какая из них «правильная», понять решительно невозможно.

Тут самое время поговорить об «оборотной стороне» википедий. Их программное обеспечение представляет собой целый ряд платформ, значительная часть из которых бесплатная и, как правило, с открытым кодом. Сайт WikiLeaks использует, в частности, платформу MediaWiki, написанную на PHP. Платформа бесплатная и проверенная на многих сайтах. Изначально она писалась под собственно Википедию, но впоследствии ею стали пользоваться и многие другие. Платформа эта с открытым кодом, она совмещается с базами данных mySQL. Эти атрибуты стали практически стандартом для современных медиа-проектов, которые вовлекают людей в бесплатное сотрудничество.

У такой бизнес-модели огромное количество преимуществ, но, пожалуй, главное из них – гибкость и скорость разработки новых приложений. Об одном из них в рамках MediaWiki нужно сказать особо. Это Semantic MediaWiki (SMW). Этот пакет тоже бесплатный и с открытым кодом. Он позволяет формировать запросы к базе данных, которая создается википедиями. Причем то, как эти запросы формируются, и какого рода выдачу они создают, в корне меняет функциональность любой википедии. Надо заметить, что SMW – это лишь один из методов структурирования и резюмирования информации машинными методами. Коллективно эти методы известны как «семантическая сеть» (semantic web). Машинные методы обработки публично собранной информации – это тот ключ, который открывает новые горизонты, куда более широкие, чем видны пока индивидуальному пользователю.

Теперь вернемся к скандалу с WikiLeaks. Зная о машинных методах, можно смотреть на те самые 250 тысяч документов по-другому. Информационные технологии, позволяющие извлекать информацию из больших объемов текста и структурировать ее – это будущее информационного общества, в том числе и в политике. То, что сейчас происходит в бэк-энде википедий, говорит об одном: самые критические технологии на данный момент – это не сбор информации, но ее машинная обработка с осуществлением структурирования и части анализа компьютерными алгоритмами.

Дмитрий Крылов, PhD, независимый эксперт по инновационным технологиям

XS
SM
MD
LG