А вы знали, что часть контента «Википедии» генерируют умные боты? CHIP заглянул внутрь самой популярной интернет-библиотеки и разобрался, как она работает.

Модель функционирования интернет-энциклопедии Википедия очень занимательна. Разделы и статьи здесь составляются не группой известных ученых, а добровольными участниками, которые не только пишут, но и редактируют и проверяют содержимое чужих статей. Усилия и время, потраченные только на выявление и правку нежелательных записей и изменений, огромны. Что же может быть логичнее, чем автоматизация рутинных, постоянно повторяющихся операций?

Хорошие боты: кто на самом деле редактирует ВикипедиюИ тут на помощь приходят боты, облегчающие авторам жизнь и пресекающие проявления вандализма. В настоящее время в англоязычной «Википедии» официально задействовано 350 таких самообучающихся скриптов, доля участия которых во внесении изменений на платформе сейчас достигает 10%.

Программа ClueBot NG, например, неустанно принимает решения о том, кто и что может писать в энциклопедии. Программа активируется до 700 раз в час, удаляя преднамеренный вандализм из текстов и предупреждая троллей. ClueBot NG управляется нейронной сетью, самообучающиеся алгоритмы которой работают подобно почтовому спам-фильтру. Сеть корректирует правила фильтрации, непрерывно получая данные о том, что именно авторы «Википедии» расценивают как проявление вандализма.

Чистоплюи против откровенных фотографий

Под вандализмом здесь понимаются всевозможные вмешательства деструктивного характера, начиная с преднамеренного удаления фрагментов, оскорблений, целенаправленных действий, которые могут повлиять на курс акций, политического пиара и заканчивая чисто разрушительным поведением.

Часто в статье могут неожиданно всплывать фотографии обнаженных частей тела с непристойными комментариями. Эти довольно очевидные моменты боты могут распознать и обработать. Но они не в состоянии определить, соответствуют ли фотографии информации, содержащейся во фрагменте текста, — это по-прежнему должен решать человек.

Помощь ботов неоценима: как показало исследование Стюарта Гейгера и Аарона Хальфакера из университетов Беркли и Миннесоты, в случае сбоя только ClueBot NG пришлось бы проводить двойную работу по удалению контента провокационного характера.

Четыре вида вандалов в «Википедии»

В «Википедии» постоянно происходят разного рода акты вандализма. На сайте ethicsofalgorithms.org представлен список, с помощью которого можно отличить бесцеремонных или неграмотных пользователей от троллей и разрушителей.

Остряки — тролли, которые ради шуток и забавы вносят бессмысленные изменения и от души развлекаются.
Невежды — редакторы, которые из-за своей некомпетентности или упрямства неоднократно пренебрегают правилами и традициями.
Саботажники – люди, которые хотят специально сорвать работу в проекте «Википедия».
Манипуляторы — пиарщики, распространяющие ложную информацию — из личных интересов или по поручению третьих лиц.

Еще одна причина роста значения ботов наряду с очевидно большим количеством информации, которую нужно обработать, заключается в снижении числа активных авторов «Википедии»: если в англоязычной версии в 2007 году в написании статей активно участвовали 50 000 человек, то десять лет спустя их осталось всего 30 000.

Однако помощники, которые по идее должны облегчить работу авторам, могут их вообще вытеснить. Дело в скорости скриптов. Как выяснили Хальфакер и Гейгер, эффективность борьбы с вандализмом отрицательно сказывается на привлечении новых авторов. Даже если число участников, впервые создающих или правящих статью, не изменялось бы, количество действий ботов, за секунды удаляющих такие статьи, существенно увеличилось бы. В результате перед воодушевленным когда-то википедистом-новичком захлопнулась бы дверь, и он больше не вернулся бы в проект.

Не гроза авторов, а помощники

Хорошие боты: кто на самом деле редактирует Википедию
«Хорошие боты тоже ведут войны», — Таха Яссери

При всей необходимой эффективности проект не должен потерять привлекательности для новых авторов. Новые википедисты могут получать от ботов ценные рекомендации о том, как применить свои способности с наибольшей пользой. Гроза троллей ClouBot NG, например, умеет находить статьи, которые требуется улучшить, и выявляет критичные места.

Между тем триумфальное шествие ботов на «Википедии» привело к появлению еще одного явления — войн правок. Бескомпромиссные действия ботов становятся проблемой, когда один бот вносит изменения в текст, а другой их отменяет. Специалист из Оксфордского института Интернета Таха Яссери изучил такое поведение ботов в рамках своего исследования. По его словам, участники-боты слишком ограничены, чтобы вырваться из такого цикла: «Войны между ботами длятся намного дольше, чем войны между людьми».

Когда бот встречает бота

Многое еще зависит от того, где используются боты. В качестве примера Яссери приводит беспилотные автомобили. Эти машины «будут ездить в разных культурах и условиях, на автомагистралях в Германии так же, как и на дорогах в Италии», но ведь «правила дорожного движения везде свои, свои законы, культура вождения». Возвращаясь к «Википедии», мы говорим о разнице в версиях статей в отдельно взятых странах, о том, какая культура редактирования преобладает в соответствующем языковом сообществе. «Поэтому боты и ведут себя по-разному», — заключает Яссери.

Вклад ботов в развитие "Википедии"
Вклад ботов в развитие «Википедии»

Более того, в небольших языковых разделах боты могут выполнять самую тяжелую работу по созданию целого ряда заготовок статей. Они обращаются к базе «Викиданные», в которой собрано огромное количество информации. Из этого материала боты могут генерировать специальные тексты, своего рода основу для статьи «Википедии».

В будущем целые версии ­«Википедии» могут создаваться исключительно ботами. Если вклад ботов в создание статей на самых распространенных языках колеблется в районе 10%, то в небольших языковых разделах эта цифра уже сейчас гораздо выше: так, раздел себуано — языка, распространенного на Филиппинах, — на 100% составлен ботами. Между тем формально себуанская «Википедия», включающая более пяти миллионов статей, является второй по величине в мире.

Значение «Викиданных» представляется более важным за пределами проекта. В поиске ответа на вопросы по различным областям знаний голосовые помощники Alexa или Google Home все чаще обращаются к «Викиданным». К ним же библиотеки и музеи подключают каталоги. Отсюда вывод исследователя «Википедии» Эндрю Ли: «Роль «Викиданных» за пределами платформы «Викимедиа», возможно, даже более значима, чем внутри нее».

А вы часто пользуетесь "Википедией"?

Просмотреть результаты

Загрузка ... Загрузка ...

Читайте также:

Фото: компании-производители, ShutterStock/Fotodom.ru

ПОДЕЛИТЬСЯ


Предыдущая статьяWindows: что можно сделать правой кнопкой мыши
Следующая статьяДанные пользователей ВКонтакте сливают кредиторам
КОММЕНТАРИИ