Алгоритм выявления социальных трендов при помощи анализа текстов в социальных сетях
Турусина Т.В.,
студентка группы СГН3-54Б
Московский государственный технический университет им. Н.Э. Баумана
Научный руководитель: Галаганова С.Г.,
кандидат философских наук,
доцент кафедры «Информационная аналитика и политические технологии»
Аннотация: Статья посвящена выявлению социальных трендов посредством исследования медиатекстов в социальных сетях, а также рассмотрению специфики данных текстов и методов их анализа. Автором разработан теоретический алгоритм, позволяющий учесть особенности медиатекста при проведении исследования.
Социальный тренд – доминирующее направление в социальном развитии или общественном мнении, а также тенденция постепенного и устойчивого изменения того или иного общественного процесса или явления. Для выявления социальных трендов в социологии используются методы эмпирического наблюдения и анализа социальной реальности [10].
Наиболее очевидный тренд последнего десятилетия – цифровая трансформация социума, затрагивающая почти все сферы общественной жизни. Цифровизации и виртуализации подверглось и человеческое общение: для большинства людей основным способом коммуникации стали социальные сети.
Следует отметить, что термин «социальные сети» был введён в оборот задолго до распространения Интернета. В середине XX века он применялся для обозначения структуры социальных связей человека, которые подразделялись на «сильные» (ближайшее окружение) и «слабые» (знакомые, коллеги и т.д.) в соответствии с критерием частоты и длительности контактов [14]. В конце 1970-х годов американский социолог Мартин Грановеттер сделал вывод, что внутри социальных сетей «слабые» связи имеют большее значение, нежели «сильные». Это объясняется тем, что информация быстрее и шире распространяется именно через «слабые» связи, следовательно, этот тип связей является необходимым условием расширения возможностей взаимодействия пользователей и их взаимодействия с Интернет-сообществом, тогда как в результате «сильных» связей образуется локальное взаимодействие. Этот эффект получил название «сила слабых связей» [6]. При этом качество и содержание информации разительно отличается: циркулирующая в сообществе новость обрастает выдуманными подробностями, а её смысл подчас искажается.
Сегодня термином «cоциальные сети» обознаются онлайн-платформы, которые используются для установления социальных связей в виртуальной реальности. Виртуальные социальные сети воплощают в себе идею «силы слабых связей»: в сочетании с развитием и доступностью информационных технологий это многократно ускоряет обмен информацией. Социальные сети всё чаще выступают не только как средство досуга, но и как канал распространения информации, заменяя собой традиционные СМИ [7].
Подобная реактивация приводит к ускорению многих социальных процессов, что отражается и на специфике трендов информационной эпохи – появляется бесчисленное количество локальных и краткосрочных тенденций. Жизненный цикл тренда сокращается из-за скорости изменений мира и дефицита внимания аудитории. В большинстве случаев краткосрочные тренды являются симптомами глобальных и долгосрочных тенденций, что и делает их актуальными для исследования: чтобы увидеть картину целиком, нужно собрать «пазл» из отдельных деталей.
В качестве материала для написания данной статьи автором были использованы тексты, публикуемые в социальных сетях: посты сообществ, комментарии, микроблоги.
Прежде всего, необходимо отметить, что медиатексты социальных сетей обладают определённой спецификой:
- В тексте могут присутствовать орфографические ошибки, содержаться иностранные слова, жаргонизмы или субкультурный сленг, обесцененная лексика. Всё это может быть включено в текст намеренно для изменения его семантики, добавления мета-смыслов.
- На текст следует отклик читателей, измеряемый количественно (лайки, репосты).
- Текст и реакции на него могут терять актуальность за несколько минут.
- Текст распространяется по «слабым» социальным связям.
- Текст может содержать спам, информационный шум.
Для семантического анализа текстового контента социальных сетей сегодня в основном применяются частотно-семантический алгоритм и алгоритм на основе стеммера Портера[1] [1; 5; 11; 16].
Частотно-семантический алгоритм основан на подсчёте частоты встречаемости слов в тексте, что позволяет выявить его тематику. Поскольку не всякое слово в тексте может являться темой или ядром текста, подсчитываются только существительные, внесённые в словарь. Для адаптации данного метода к специфике социальных сетей необходимо добавление в словарь разговорной лексики.
Алгоритм на основе стеммера Портера состоит в отсечении от слова окончаний и суффиксов, чтобы оставшаяся часть являлась основой (stem) для всех грамматических форм слова [18; 19]. Стемминг может работать только с языками, которые реализуют словоизменение через аффиксы (например, русский и английский) [13]. Основное преимущество данного алгоритма состоит в отсутствии словаря. В процессе семантического анализа образуется массив основ слов. Основы с наибольшим числом вхождений и будут являться тематикой текста [19].
Описанные алгоритмы многократно реализованы в существующем программном обеспечении для отслеживания актуальных тем в социальных сетях (Brand Analytics, You Scan, Babkee). В то же время учёные полагают, что в рамках исследований необходим совокупный анализ текстовых данных и структуры социальных графов [11; 17]. Структуру социальных сетей возможно выявить благодаря кластеризации, т.е. разбиению всех пользователей на подгруппы на основе их социальных связей. Это даст возможность выявить внутри кластера демографические факторы, присущие аудитории тренда [4].
Ниже представлен общий алгоритм анализа текстов социальных сетей с целью выявления социальных трендов, составленный автором на основе имеющихся в открытом доступе научных и практических разработок.
1. Определение краткосрочных трендов.
1.1. Выделение кластеров социальной сети.
Кластер представляет собой выборку наиболее социально связанных пользователей. В контексте социальных сетей это означает совпадение набора подписок, т.е. группировку людей, потребляющих одинаковый контент. Необходимо учитывать также и коэффициент кластеризации – степень близости между неоднородными группами.
1.2. Нахождение лидеров мнений и их приоритизация.
В рамках кластера выявляются коэффициент взаимодействия участников, вовлечённость аудитории и лидеры мнений. Сделать это позволяют количественные характеристики публикуемых текстов: просмотры, лайки, репосты.
1.3. Нахождение актуальных текстов.
Общественное мнение может многократно меняться в течение анализируемого периода, в связи с чем без фильтрации входных данных по времени выводы могут быть противоречивы.
1.4. Фильтрация спама.
1.5. Семантический анализ текстов с учётом приоритизации текстов лидеров мнений.
1.6. Установление устойчивой преобладающей тематики текстов, т. е. тренда.
2. Интерпретация краткосрочных трендов и формулирование общей картины.
2.1. Исследование контекстов, в которых используются преобладающие лексемы, для определения мета-смыслов.
2.2. Составление карты трендов, их кластеризация.
Тренды документируются и группируются для составления полной картины.
2.3. Соотнесение выявленных трендов с уже существующими.
Необходимо определить, чем является тренд, – новым феноменом или проявлением уже существующей долгосрочной тенденции. В случае, если подтверждается второй вариант, необходимо выяснить, является данный симптом усилением или ослаблением общей тенденции.
3. Выявление долгосрочных трендов.
Данный алгоритм носит общетеоретический характер: в нём представлены основные этапы исследования и их содержание. Что же касается выбора практических методов и математических моделей, то каждый исследователь может применить как уже существующие наработки, так и разработать собственное программное обеспечение.
Литература и источники
- Батура Т.В. Семантический анализ и способы представления смысла текста в компьютерной лингвистике. https://www.researchgate.net/publication.
- Бочарников И.В. Информационно-коммуникативные противоречия и проблемы современных процессов глобализации // Экология внешней и внутренней среды социальной системы (ЭкоМир-9). Материалы конференции. 2019. С. 190-192.
- Галаганова С.Г. Мировоззренческие основы технологического образования. В сборнике: Современное технологическое образование. Сборник научных статей. В 2-х частях. Под редакцией А.А. Александрова и В.К. Балтяна. Москва, 2021. С. 74-79.
- Гитис Л.Х. Статистическая классификация и кластерный анализ. М.: МГГУ, 2003.
- Головко Н.В. Оценка семантического потенциала текстов в аналитических системах. – М.: Флинта, 2019. – 207 с.
- Грановеттер М. Сила слабых связей // Экономическая социология. № 4. 2009. С. 31-50.
- Данина М.М., Шаляпин А.А. Социально-психологический аспект исследования социальных сетей в Интернете // Вестник Московского университета. Серия 10: Журналистика. № 3. 2012. С. 16-32.
- Жуликов С.Е. Современные подходы к анализу социальных сетей // Гаудеамус, 2012. С. 200-204.
- Инькова О., Манзотти Э. Связность текста. Мереологические логико-семантические отношения. М.: Языки славянских культур, 2019.
- Климантова Г.И. Методология и методы социологического исследования: учебник. М.: Дашков и К°, 2019.
- Методология современных семантических исследований. Коллективная монография. М.: Флинта, 2018.
- Орлов Ю.Н., Осминин К.П. Методы статистического анализа литературных текстов. М.: Либроком, 2017.
- Перестoронин П. Стемммер Портера для русского языка. https://medium.com.
- Сивуха С.В. Сильные и слабые социальные связи // Социология. Энциклопедия. https://sociology_encyclopedy.academic.ru.
- Формы, методы и технологии профилактики и противодействия проникновению идеологии экстремизма и терроризма в образовательную среду /Ремарчук В.Н., Бочарников И.В., Семикин Г.И., Белозёров В.К., Овсянникова О.А., Смульский С.В., Зеленков М.Ю., Гейреханов Г.П., Галаганова С.Г., Крушинская Т.Ф., Мысина Г.А., Пятибратова И.В., Худышева М.К., Пиканина Ю.М., Миронов А.С., Лазарев С.В.
Москва, 2019. - Черненко О.А., Гордеева О.А. Разработка автоматизированной системы семантического анализа текстовой информации // Сборник трудов III международной конференции и молодёжной школы «Информационные технологии и нанотехнологии» (ИТНТ-2017). Самара: Новая техника, 2017. С. 1800-1804.
- Marsden P. Resent Developments in Network Measurement // Models and Methods in Social Network Analysis. N.Y.: Cambridge University Press, 2005. – P. 8-30.
- Porter M.F. An Algorithm for Suffix Stripping // Program. 1980. Vol. 14, No. 3. P. 130-137.
- Willett P. The Porter Stemming Algorithm: Then and Now // Program. – 2006. Vol. 40, No.3. P. 219-223.
[1] Метод, вошедший в научный обиход под названием «стеммер Портера», был предложен в 1980 году американским социологом Мартином Портером.