“Пузырь фильтров” в интернете: чем опасен персонализированный контент

Репников П.О.
студент группы ИУ4-42
Московский государственный технический университет им. Н.Э. Баумана

Научный руководитель: Бочарников И.В.,
д.полит.н., профессор кафедры «Информационная аналитика и политические технологии»

В этой статье автором рассматривается“пузырь фильтров” в сети интернет, персонализирующий контент для пользователя. Выделена история возникновения и развития явления. Представлены возможные отрицательные эффекты и методы противодействия.

PageRank – алгоритм оценки веб-страниц, назначающий “важность” каждой из них путем подсчёта гиперссылок, ссылающихся на неё. Он был разработан Сергеем Брином и Ларри Пейджем в 1996-1998 годах и стал ключевым отличием поисковика Google, позволив ему стать самым большим поисковиком в мире. С помощью алгоритма поисковая система предоставляла пользователю наиболее релевантную информацию и благодаря этому превосходила все существующие аналоги [1]. Впрочем, Google не остановил свое развитие на этом – в 2007 году использовались уже более 200 ранжирующих сигналов, а 4 декабря 2009 года была введена новая система поиска, основанная на персонализированных фильтрах [2].

Подобные алгоритмы существуют не только у Google: в 2010 они появились на Facebook и Youtube, а Amazon экспериментировал со своими вариантами с 2003 года [3][4]. В современном интернете большинство крупных сайтов, таких как Google, Yandex, Vkontakte, Netflix используют персонализированные фильтры, собирая информацию о пользователе. Сейчас их называют “пузыри фильтров” или “эхокамеры” [5]. Это информационное пространство, заполненное персонализированным контентом. После первого входа на сайт действия пользователя отслеживаются при помощи алгоритма персонализации. Накопив достаточно информации для принятия решения, алгоритм начинает регулировать выдачу контента персонализированными фильтрами.

В таком подходе показа информации существуют проблемы. Первая проблема – «замкнутый цикл идентичности»: то, что программа знает о пользователе, определяет его медийную среду, а медийная среда влияет на его будущие предпочтения. Например, если пользователь пару раз поделится постом с определённой политической позицией, алгоритм попробует составить его портрет. После этого в ленте пользователя будут показываться публикации от людей тех же взглядов, что и у него.  Тем самым уверенность пользователя в своей позиции укрепится. Этой проблемы можно избежать, но тогда алгоритмы должны использовать принцип «фальсификации»: стремиться опровергнуть свое представление о пользователе. Хоть первое впечатление и является самым сильным, истину можно узнать только услышав все точки зрения.

Достаточно опасный пример проявления “замкнутого цикла идентичности” – конспирологические теории. Так, часть вины за вспышки кори в 2018 году в США и Европе мед. эксперты возложили на Facebook. В социальной сети было много антинаучной информации о вакцинах.  Авторы постов придерживались взглядов конспирологического движения против вакцин, считающего что вакцины могут вызвать синдром Дауна и другие заболевания [6]. Это хороший пример, как фильтры меняют представление об информации. Алгоритмы часто удаляют “белые пятна”, из-за чего пользователь не чувствует пробелов в кругозоре и уверен в своей правоте, не зная многих очевидных фактов.

Несмотря на всё вышесказанное, у подобных фильтров есть и положительные стороны. Без алгоритмов, которые стоят за Google, сложность нахождения в нем информации выросла бы в разы. Какой толк от поисковика, если для нахождения небольшой детали нам бы пришлось пересмотреть десятки (если не сотни) страниц поисковой выдачи?

Однако с такими сайтами как Netflix, Facebook, Vkontakte, Amazon и другими всё несколько сложнее. У них присутствует лента контента (в том или ином виде) и рекомендации от самого сервиса. Они строятся исходя из предпочтений пользователя и предыдущих просмотренных или понравившихся товаров, фильмов, постов. Система рекомендаций может учитывать предпочтения других людей, которым понравилась та же запись, что и пользователю и рекомендовать записи, которые понравились людям с похожими интересами.

С точки зрения пользователя, эта система очень удобна, поскольку она помогает подобрать контент, который ему понравится. При этом она сильно ограничивает кругозор пользователя, пусть и по его же воле. Кроме того, ей легко манипулировать, например, заплатив сервису за «продвижение» определённых идей, товаров — пользователь не заметит разницы.

Каковы же пути улучшения этой системы?

Система фильтров может быть полностью прозрачной, и пользователь сам сможет определять, какие категории от него скрыты, а какие будут долго «висеть» в его информационном поле. Это исключит возможность манипуляции и ограничения кругозора.

Впрочем, тут есть психологическая загвоздка со стороны пользователя. Если ему дать возможность тонкой настройки, он потеряется в ней и не будет пользоваться. Поэтому можно включить некоторые функции по умолчанию, не сообщая об этом пользователю.

Так, летом 2018 произошла индексация документов из “GoogleDocs” Яндексом: в поисковой системе Яндекса можно было найти документы с сервиса Google. Так получилось потому, что документы по умолчанию становятся открытыми, если пользователь сам не задаст другие настройки приватности [7].

Другой пример улучшения системы произошел в январе 2019 года с видеохостингом Youtube [8]. К контенту, связанному с конспирологическими теориями, стали ограничивать доступ, меньше рекомендовать и добавлять альтернативные, более нейтральные источники информации. Но эти изменения произошли исключительно из-за давления со стороны публики, ради имиджа.

Если сегодня почти не встретишь сайтов без персонализации, то можно ли от неё как-то избавиться? За идентификацию человека в интернете отвечают cookie-файлы. Они хранятся на компьютере у пользователя и содержат в себе уникальные строки, помогающие сайту распознавать посетителей. Если пользователь отключит в браузере хранение cookie-файлов, половина сайтов просто не заработает. Может, удалять их после каждого посещения сайта? Да, это одно из решений. Но в 2019 году и такое не спасёт. Кроме cookie-файлов существуют ещё десятки других способов персонализации (тип компьютера, тип браузера, ваше местоположение, история посещения сайтов, открытые вкладки и т.п.) [9][10]. Можно использовать TOR/VPN и другие подобные сервисы, но всё равно окончательно скрыть свой след не удастся. На сегодняшний день существуют алгоритмы идентификации пользователя по динамике нажатия клавиш клавиатуры [11].

Для снижения негативного влияния персонализированных фильтров пользователям следует расширять круг своих интересов, посещать разноплановые сайты, намеренно выискивать и проверять информацию, не вписывающуюся в их мировоззрение, развивать критическое мышление.

Технический прогресс неостановим, и в современном мире от него не скроешься (только если вы не живёте в снегах Сибири, но и там вас может настигнуть спутник, раздающий Интернет). Сама технология — это всего лишь инструмент. Её можно использовать и во благо, и во вред. Сегодня персонализация больше полезна, чем вредна. Это можно считать правдой, если рассматривать небольшой отрезок времени, но в долгосрочной перспективе всё яснее становится вред от этой технологии. Именно поэтому каждому из нас следует задуматься над этой проблемой.

Литература и источники

  1. Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998.
  2. Personalized search for everyone, December 4, 2009 https://googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html
  3. New Ways to Personalize Your Online Experience, 2010 https://www.facebook.com/notes/facebook/new-ways-to-personalize-your-online-experience/383515372130/
  4. Two Decades of Recommender Systems at Amazon.com, May-June 2017, pp. 12-18, vol.21 https://www.computer.org/csdl/magazine/ic/2017/03/mic2017030012/13rRUB6SpQq
  5. Flaxman, S., Goel, S., & Rao, J. M. (2016). Filter Bubbles, Echo Chambers, and Online News Consumption. Public Opinion Quarterly, 80(S1), 298–320.
  6. Kim Mortimer.Understanding Conspiracy Online: Social Media and the Spread of Suspicious Thinking. School of Information Management, Dalhousie University (https://ojs.library.dal.ca/djim/article/view/6928)
  7. Хабр: Яндекс начал индексировать Google Документы с паролями https://habr.com/ru/post/416219/
  8. Official youtube blog: Continuing our work to improve recommendations on youtube, 2019 https://youtube.googleblog.com/2019/01/continuing-our-work-to-improve.html
  9. Eli Pariser. The Filter Bubble: What the Internet Is Hiding from You. — New York: Penguin Press, 2011. — ISBN 978-1594203008.
  10. Kliman-Silver, C., Hannak, A., Lazer, D., Wilson, C., &Mislove, A. (2015). Location, Location, Location. Proceedings of the 2015 ACM Conference on Internet Measurement Conference – IMC ’15.
  11. Blindspotter обзавелся поддержкой поведенческого биометрического анализа динамики нажатия клавиш клавиатуры и движений мышью http://safe.cnews.ru/news/line/2016-03-15_blindspotter_obzavelsya_podderzhkoj_povedencheskogo

Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *