Применение технологий поисковой оптимизации и бизнес-аналитики для выявления ложного медиаконтента

Титов И.С.,
студент группы СГН3-43Б
Московский государственный технический университет им. Н.Э. Баумана

Научный руководитель: Галаганова С.Г.,
кандидат философских наук,
доцент кафедры «Информационная аналитика и политические технологии»

Аннотация: В статье рассматриваются потенциальные возможности применения технологий SEO (Search Engine Optimization) и BI (Business Intelligence) для выявления ложного медиаконтента. Проверка выдвинутой гипотезы осуществляется автором на примере использования методов проверки авторитетности источника, анализа обратных ссылок и анализа тональности текста. В качестве материала использованы новостные сообщения сайта МИД РФ.

Современный этап развития человечества характеризуется экспоненциальным ростом количества накопленной информации, ставшей одним из основных ресурсов социальной жизнедеятельности. Принятие многих значимых решений сегодня зависит от быстрого и эффективного реагирования на изменения внутренней и внешней среды, что, в свою очередь, вызывает повышенный интерес к Интернет-платформам, связанным с автоматизацией процессов сбора, обработки и анализа данных [4; 8].

Однако, несмотря на актуальность данной темы, по-прежнему остаётся нерешённой проблема качества данных [5]. Возрастание количества устаревшей, дублирующей и недостоверной информации, предоставляемой СМИ, наряду с манипулятивным характером некоторых статей, значительно усложняют аналитический процесс. При этом уровень развития поисково-аналитических систем, предназначенных для работы с медиатекстами, существенно уступает их аналогам, использующимся для исследования социальных сетей, поисковой оптимизации (SEO) и бизнес-аналитики (BI), что, в первую очередь, связано с их высокой коммерциализацией.

В данной работе мы исследуем потенциальные возможности применения методов SEO и BI для исследования медиаконтента.

Новостные сообщения, основанные на намеренном искажении фактов с целью извлечения определённой выгоды (так называемые фейки), получили в наше время широкое распространение и стали предметом пристального внимания как зарубежных, так и российских исследователей [6]. При этом аудитория зачастую не в состоянии отличить достоверную новость от ложной из-за низкого уровня медиаграмотности. Так, по данным Национального агентства финансовых исследований (НАФИ), индекс медиаграмотности россиян в целом (т. е. их способность к проверке достоверности новостей, поиску альтернативных новостных источников, осознанию проблемы предвзятости информации и её блокирования) составляет 52% из 100 возможных. Более того, около 50% опрошенных вообще не сопоставляют сведения из разных медиаисточников [1], а значит, склонны доверять единственной точке зрения, которая может оказаться ложной. К тому же примерно половина аудитории запоминает полученные сообщения и продолжает им верить в течение длительного времени.

Сложность автоматизации процесса поиска ложных новостей связана с тем, что популярные фальшивки внешне выглядят как вполне достоверные новости и структурно соответствуют им: в них присутствуют привычные для Интернет-коммуникации визуальные элементы, схожа форма подачи новостного контента. Отличия следует искать на содержательном уровне – в ложной аргументации сообщения или отсутствии таковой [6]. По этой причине как алгоритмическое обнаружение ложной информации, так и выявление её при помощи простого анализа текста во многих случаях не приведёт к желаемому результату. Машинное обучение также будет малоэффективно ввиду структурного сходства достоверных и недостоверных новостей [6].

Одним из возможных путей решения данной проблемы могут, на наш взгляд, стать технологии, используемые в поисковой оптимизации (SEO), а именно проверка авторитетности источников и анализ обратных ссылок [12]. С их помощью, учитывая связи страниц, можно вычислить уровень доверия к любому сайту или отдельной публикации: чем дальше по количеству ссылок от авторитетного ресурса, тем меньше его авторитет. Таким образом можно будет автоматически выявлять новостные сообщения, использующее в качестве аргументов и подтверждений ссылки на неавторитетные или/и несуществующие источники.

Результативное применение в данном случае может найти и активно используемый в SEO анализ тональности текста. Цель подобного анализа состоит в автоматическом выделении в тексте тонального компонента высказывания, включающего в себя автора мнения (его обычно называют субъектом или источником), объект, по отношению к которому выражено мнение, и тональность, представляющую собой полярность оценки. В основу метода, при помощи которого определяется тональность каждого компонента, могут быть положены наборы правил, различные тональные лексиконы (специально составленный словарь) или результаты машинного обучения [10]. Применение данного метода для анализа новостных сообщений позволяет выявлять манипулятивные воздействия и степень их интенсивности. Последнее, разумеется, допускает некоторую погрешность, поскольку данный метод не всегда позволяет точно распознать отдельные аспекты естественного языка – такие, как, ирония и сарказм.

Рассмотрим теперь методы бизнес-аналитики, которые могли бы быть использованы в поисково-аналитических системах мониторинга СМИ. К категории Business Intelligence (BI) относятся те системы, которые предоставляют возможность преобразовывать данные корпоративных информационных систем (КИС) и данные внешних источников в «читаемую» информацию, необходимую для принятия управленческих решений. По общепризнанному определению, Business Intelligence – это совокупность компьютерных методов и инструментов, обеспечивающих перевод необработанной информации в осмысленную, удобную форму [9].

Тенденцией среди разработчиков BI-систем в последние годы стало построение собственных BI-платформ, фундаментом которых является технология Data Discovery (DD). Цель применения данной технологии – создать инструменты и средства, ориентированные на людей, поддерживающих их работу. Технология DD предоставляет возможность использовать интуицию человека при выделении значимой и полезной информации, а также скрытых смыслов в тексте [11]. Её отличие от традиционного бизнес-анализа состоит в том, что представление обработанной информации наиболее наглядно и более высокое по скоростным характеристикам.

Применение данной технологии для анализа публикаций СМИ позволит ускорить процесс обработки информации, повысить его точность и облегчить процесс выявления скрытых смыслов новостных сообщений. Немаловажным является, на наш взгляд, использование активно применяемых в BI-системах методов визуализации данных. Например, визуализация в виде дерева декомпозиции позволяет представлять данные в нескольких измерениях, а различные способы геовизуализации позволяют наглядно сопоставить информацию о категориях и количественную информацию с пространственными расположениями.

Ещё один метод, предлагаемый нами для увеличения возможностей автоматизированного анализа новостных сообщений, активно применяется сегодня в аналитике социальных сетей. Это анализ социального отклика, в основном востребованный сегодня представителями коммерческих компаний [3]. Отзывы и реакции в социальных сетях могут предоставить маркетологам и организациям много информации и данных, которые можно использовать при разработке продуктов, эффективном обслуживании клиентов [7]. Однако и в некоммерческих вопросах данные по этой метрике могут принести существенную пользу при анализе отношения читателей к тем или иным новостям. Это позволит выявлять отношение общества к происходящим событиям и будет полезно для людей, наделенных властными полномочиями, при выработке стратегии поддержания политической стабильности общества.

В качестве примера практического применения метода тонального анализа для оценки новостных сообщений можно привести исследование статей сайта Министерства иностранных дел Российской Федерации. В выборку вошли все статьи, опубликованные в течение месяца на сайте в разделе «Новости» и соответствующие двум наиболее популярным тематическим категориям:

1) сотрудничество России с Китаем;

2) отношения России и Украины.

Для проведения сентимент-анализа было составлено два словаря, которые включали в себя 300 основ слов положительно окрашенной лексики и 390 основ отрицательно окрашенных слов. Программа производит поиск элементов из словаря в тексте, и в случае обнаружения слову приписывается соответствующая оценка: «+1» или «–1». После того как программа проанализировала весь текст, оценки суммируются и выдаётся результат в виде суммы этих чисел.

За единицу анализа был принят отрезок текста, соответствующий одной из названных тематических категорий. Все отрезки текста заносились в программу, позволяющую определить его тональность. Анализ категории «Отношения России с Китаем» показал, что она имеет ярко выраженную позитивную эмоциональную окраску. Это свидетельствует о том, что данная категория обладает самой высокой сентимент-оценкой. Здесь само название категории также «говорит само за себя»: семантика слова «отношения» без прилагательного предполагает хорошие отношения.

Анализ тональности текста категории «Отношения России и Украины» показал, что эта тема имеет исключительно негативную эмоциональную окраску.

Таким образом, применение метода анализа тональности медиатекста при разработке поисково-аналитических систем мониторинга СМИ может в значительной степени упростить процесс исследования новостных сообщений путём их автоматической оценки и выявления степени и характера манипулятивного воздействия, оказываемого ими на целевую аудиторию.

Литература и источники

  1. Аналитический центр НАФИ // Цифровая грамотность россиян: исследования 2018 и 2020 гг.
  2. Беляков М.В. Анализ новостных сообщений сайта МИД РФ методом сентимент-анализа // Вестник РУДН. Серия: Теория языка. Семиотика. Семантика. № 3. 2016. С. 58-67.
  3. Галаганова С.Г., Турусина Т.В. Технологии анализа социальных сетей с целью выявления социальных трендов // Человеческий капитал. 2023. № 1(169). С. 121-136.
  4. Гордукалова Г.Ф. Смысловой анализ текстов // Библиосфера. 2010. №1.
  5. Довбенко А.В. Проблемы современной поисковой выдачи // Проблемы науки. 2016. № 39(81).
  6. Зуйкина К.Л, Соколова Д.В. Специфика контента российских фейковых новостей в Интернете и на телевидении // Вестник МГУ. Серия 10. Журналистика. 2019. № 4.
  7. Митрофанова А.А. Маркетинговые коммуникации в социальных сетях: проблемы и перспективы развития // Молодой учёный. 2014. № 8(67). – С. 536-539.
  8. Поручиков М.А. Анализ данных: учеб. пособие / М.А. Поручиков. – Самара: Изд-во Самарского университета, 2016. – 88 с.
  9. Седойкина А.А. Аналитическая обработка данных. Обзор BI-платформ // Контентус. 2019. № 11.
  10. Сёмина Т.А. Анализ тональности текста: современные подходы и существующие проблемы // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал. 2020. № 4.
  11. Черняк, Леонид. Визуальная аналитика и обратная связь // Открытые системы. 2013. № 6.
  12. Carlson, Murray; Fisher, Aldai; Giammarino, Ron. SEO Risk Dynamics // The Review of Financial Studies. Vol. 23. Issue 11. November 2010. P. 4026–4077.

Вам может также понравиться...

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *