Актуальные проблемы веб-скрейпинга социальных сетей
Острожинская И.С.,
студентка группы СГН3-54Б
Московский государственный технический университет им. Н.Э. Баумана
Научный руководитель: Галаганова С.Г.,
кандидат философских наук,
доцент кафедры «Информационная аналитика и политические технологии»
Аннотация: Статья посвящена анализу проблем, возникших в связи с широким использованием технологии извлечения данных со страниц веб-ресурсов, получившей название «веб-скрейпинг» (webscraping). Автором составлена сравнительная таблица, на которой представлены наиболее распространённые точки зрения представителей международного научного сообщества на проблемы веб-скрейпинга. Отдельное внимание уделяется сравнительному анализу правового статуса веб-скрейпинга в России и зарубежных странах.
С возрастанием роли Интернета в жизни современного общества сбор и анализ данных с его помощью становится всё более актуальным. Ни для кого не секрет, что в Интернете о человеке можно узнать больше, чем он сможет рассказать о себе сам. Не удивительно поэтому, что всё бóльшую популярность приобретает сегодня так называемый веб-скрейпинг (web-scraping)[1] – технология сбора веб-данных путем извлечения их со страниц веб-ресурсов посредством GET-запросов.
Появление этого феномена восходит к зарождению самого Интернета, ведь все поисковые системы работают по принципу веб-скрейпинга. Первым веб-скрейпером можно считать программу World Wide Web Wanderer [20], которая была создана в 1993 году для определения размеров Всемирной паутины. В том же году была создана первая поисковая система [14, с. 169]. В 2000 году Salesforce и eBay запустили собственный API, облегчив программистам доступ к информации. Их примеру последовали многие веб-сервисы. В 2004 году была создана библиотека Beauiful Soup для Python. Она позволяет упростить разработку программ-скрейперов и используется по сей день. В настоящее время (декабрь 2021 года) насчитывается более миллиарда индексируемых страниц [19]. Простой и быстрый доступ к каждой из них – заслуга поисковых систем, работающих по технологии, схожей с веб-скрейпингом. Сбор информации из HTML также используется и для довольно широкого спектра других целей.
Как и любая новая технология, веб-скрейпинг породил ряд проблем, в том числе связанных с неопределённостью его правового статуса [3]. В данной статье мы сравним взгляды на эти проблемы представителей научного сообщества трёх различных стран, выявим (опираясь на их работы) наиболее опасные тенденции развития веб-скрейпинга, рассмотрим возможные способы их решения, а также оценим перспективы использования данной технологии.
Российский исследователь О.В. Вилкова (Томский государственный университет) считает, что метод веб-скрейпинга отразил окончательное вступление общества в постиндустриальную эпоху [2, c. 168]. Оценивая веб-скрейпинг как «инструмент социолога, готового к междисциплинарому подходу изучения социальной действительности» [2, c. 171], автор подчёркивает, что веб-скрейпинг позволяет получать более полную и достоверную информацию о социальных процессах из «естественной среды» и обеспечивает «свободу социолога при построении дизайна исследования [2, c. 165].
В то же время О.В. Вилкова обращает внимание на ограниченность данного метода, связанную с репрезентативностью получаемых данных. Ведь необходимо учитывать непредсказуемую специфику общения людей в Сети, несоответствие их онлайн- и оффлайн-статусов, а также многие другие факторы. Более того, социолог не может утверждать, что выборка случайна и подчинена закону больших чисел. Также отмечается присутствие цифрового неравенства в обществе, что означает невозможность получения части необходимой для анализа информации. Ещё одной важной методологической проблемой становится корректная обработка пустых значений.
К техническим ограничениям О.В. Вилкова относит значительную зависимость от платформ, которые предоставляют доступ к данным, поскольку они могут изменять не только способ подачи данных, но также их структуру, и даже политику их предоставления, что требует постоянной работы как над программным обеспечением, так и над сотрудничеством с платформой. Так как статья опубликована в 2020 году, О.В. Вилкова не делает большого акцента на правовых ограничениях, отмечая, что веб-скрейпинг лишь может быть незаконен в некоторых регионах [2, c. 167]. Исследователь обращает внимание также и на квалификационные ограничения использования веб-скрейпинга. Работа с программами требует соответствующего уровня знаний, причём знаний из сферы, нетрадиционной для социолога. Более того, сбор и анализ таких огромных данных требует иного, более высокого, уровня когнитивной нагрузки, и, как следствие, другого режима работы и отдыха.
Белорусский исследователь В.С. Лапуцкий (Белорусский государственный университет) считает метод веб-скрейпинга одним из наиболее состоятельных конкурентов метода контент-анализа и перспективным способом получения социологической информации [6, c. 315]. Автор обращает внимание на явное преимущество веб-скрейпинга при обработке больших данных, так как их сбор производится автоматически. В.С. Лапуцкий, как и О.В. Вилкова, отмечает, что таким образом можно извлекать данные из «естественно среды» без искажений, вносимых человеческим фактором (специалистами). Непопулярность этой технологии автор связывает с необходимостью освоения новых инструментов, тем самым отмечая квалификационную проблему. В.С. Лапуцкий также ставит под вопрос репрезентативность получаемых данных, отмечая неоднородность активности пользователей Сети [7, c. 316].
Американский исследователь Минэ Доджу (Mine Dogucu), работающая в Университете Калифорнии, отмечает широкое распространение веб-скрейпинга во многих сферах жизни современного общества. В своей статье (в соавторстве с учёным из Университета Дьюка) она акцентировала свое внимание на актуальности обучения данному навыку специалистов разных направлений, аргументируя свою позицию их высокой востребованностью на рынке труда [15, p. 113]. Автор рассматривает проблемы веб-скрейпинга в основном со стороны обучения, однако они следуют из общих ограничений. Во-первых, автор отмечает несовершенство многих аналитических курсов, упускающих крайне важную часть – собственно сам метод автоматизированного сбора информации. Эту проблему можно отнести к квалификационным: отсутствие специалистов, обладающих необходимыми навыками, может быть следствием неполноты соответствующих учебных курсов. Во-вторых, Доджу обращает внимание на проблему обработки пустых значений. В-третьих, она отмечает неопределённость правовой ситуации, ссылаясь на широко известные в США прецеденты, связанные с покушением на движимое имущество и авторские права. Главную же проблему автор видит в быстром изменении структуры страницы и технических неполадках со стороны платформы [15, p. 116].
На основе анализа научных работ вышеупомянутых авторов нами была составлена сравнительная таблица, где представлены оценки затронутых ими проблем.
Таблица 1.
Сравнение восприятия проблем веб-скрейпинга тремя разными учёными
Проблема | О.В. Вилкова | В.С. Лапуцкий | Минэ Доджу | |
Методологические | Специфика поведения в Сети | + | + | – |
Цифровое неравенство | + | – | – | |
Проблема обработки пустых данных | – | + | + | |
Технические | Быстрое изменение структуры данных | + | – | + |
Технические неполадки | + | – | + | |
Квалификационные | Неполнота обучающих курсов | – | – | + |
Отсутствие необходимых навыков у специалистов | + | + | + | |
Правовые | Покушение на движимое имущество | – | – | + |
Обработка и распространение персональных данных | + | – | – | |
Интеллектуальная собственность | + | – | + |
Методологические проблемы актуальны сегодня для многих наук. Новые технологии, в том числе и веб-скрейпинг, пока еще слабо разработаны и зачастую не обладают достаточной теоретической поддержкой. Существуют различные концепции поведения человека в Сети [4], однако в силу её большой изменчивости чётких методологических рекомендаций для веб-скрейпинга пока не существует [2, c.167].
Не менее актуальны и технологические проблемы веб-скрейпинга. Ни для кого не секрет, что дизайн сайта, его удобство и привычность являются важнейшим фактором привлечения клиентов [6, с. 59]. Однако в наше время технологии быстро меняются, появляются новые тренды и стандарты в области графического оформления страницы. Именно поэтому крупные компании всё чаще производят редизайн (а вместе с ним и реструктуризацию компонентов). К сожалению, это приводит к усложнению реализации веб-скрейпинга, программы требуют постоянной доработки.
Ещё одна техническая проблема – более частое использование JavaScript.С увеличением мощности устройств клиента, всё больше вычислений происходит именно с их помощью, а не с помощью сервера, как раньше. Это позволяет ускорить работу веб-приложений, сократить количество пересылаемых данных. Однако это усложняет процесс скрейпинга, так как требует имитации более сложных действий пользователя. Яркий пример – одностраничные приложения (SPA). На сайтах, организованных таким образом, пользователь получает HTML-разметку лишь один раз, и она не содержит практически никакой информации, пригодной к анализу. Все необходимые пользователю данные загружаются динамически с помощью скриптов. Таким образом, для получения данных недостаточно выполнить лишь один запрос. Тем не менее, на данный момент уже существуют технические решения этой проблемы [8, с. 181], поэтому всё зависит от решения проблемы квалификационной.
Как следует из таблицы, на актуальность данной проблемы обратили внимание все три автора. В этом отношении нельзя не отметить положительную тенденцию. Так, в МГТУ им. Н.Э. Баумана существует кафедра «Информационная аналитика и политические технологии», выпускники которой обладают знаниями как в области социальной аналитики, так и в области разработки программных продуктов. В Высшей школе экономики по программе «Социология» студентам предлагаются такие предметы, как «Data Mining в социальных науках: методы факторизации и кластеризации», «Программирование в Python для анализа данных» [12].
Однако наиболее острыми являются всё-таки правые проблемы. Правовой статус веб-скрейпинга неоднозначен, и если в рамках проблем, связанных с ущербом движимому имуществу скрейпинг всё чаще признается законным [2, с. 166], то на сбор общедоступных персональных данных всё чаще накладываются запреты. Для начала рассмотрим проблему скрейпинга, расцениваемого как покушение на движимое имущество.
Запросы программы-скрейпера создают серьёзную нагрузку на сервера. С юридической точки зрения, это может быть расценено как попытка причинения вреда движимому имуществу. Так, например в 1999 году появилось громкое дело «eBay против Bidder’s Edge». Bidder’s Edge разработала программу, которая анализировала данные со всех Интернет-аукционов по какому-то определённому продукту, предоставляя пользователю лучшие предложения. Её работа основывалась на скрейпинге. Самым крупным из Интернет-аукционов оказался сервис eBay: к нему со стороны Bidder’s Edge отправлялось больше 100.000 запросов в день. Это создавало огромную нагрузку на сервера, увеличивало потребление электроэнергии, что, в свою очередь, приводило к огромным дополнительным расходам со стороны eBay. Более того, Bidder’s Edge игнорировали предупреждения, а также обходили блокировку их IP-адресов с помощью прокси-серверов. eBay подали иск в суд, доказав нанесённый им материальный ущерб и неправомерность доступа к данным в обход ограничений IP-адресов [17].
Ещё одна опасность подстерегает веб-скрейпинг в области интеллектуальных прав. Программа-скрейпер собирает данные из Интернета, где может быть размещена информация, защищенная авторским правом. В таком случае её распространение или обработка могут быть запрещены. Тем не менее, в России сбор даже такой информации (копирование её на устройство пользователя) будет законным, если её размещение будет временным, с целью выявления какой-либо неохраняемой информации (подпункт 1 пункта 2 статьи 1270 ГК). Например, копирование статьи, защищенной авторскими правами, будет законно, если оно выполнено с целью подсчёта количества слов, а сама статья будет удалена с устройства после подсчётов. Более того, в мировой практике имеются прецеденты, когда веб-скрейпинг был признан законным в том случае, если сбор данных, защищённых интеллектуальными правами, не производился [2, с. 166; 2].
Самый «коварный» аспект правовых проблем – работа с персональными данными. Данный вопрос наиболее актуален для анализа социальных сетей. Дело в том, что во многих странах до сих пор однозначный статус персональных данных, выложенных на страницах в социальных сетях, либо не определён, либо приводит к незаконности веб-скрейпинга. А значит под вопросом остаётся правомерность и последующей обработки данных. Для понимания ситуации сравним положение в разных странах современного мира.
В Российской Федерации действует Федеральный закон «О персональных данных». До 1 марта 2021 года действовал пункт 10 статьи 6 этого закона, разрешавший обработку данных, «доступ неограниченного круга лиц к которым предоставлен субъектом персональных данных, либо по его просьбе» [13]. Теперь же для распространения общедоступных персональных данных необходимо получение разрешения субъекта. Более того, как сказано в пояснительной записке, изменения нацелены на запрет «третьим лицам осуществлять сбор и последующее неконтролируемое использование указанных персональных данных на интернет-сайтах в целях, отличных от цели их первоначального распространения» [9, c. 1]. Это означает, что веб-скрейпинг социальных сетей, затрагивающий персональные данные, может быть признан незаконным. Усугубляет проблему достаточно расплывчатое определение самого понятия «персональные данные»: они трактуются как«любая информация, относящаяся к прямо или косвенно определённому или определяемому физическому лицу (субъекту персональных данных)» [13, ст. 3, п.1]. Однако такой подход ставит под вопрос законность работы поисковиков – ведь они работают по схожей схеме. С момента вступления в силу данных изменений прошло немного времени, и громких прецедентов ещё не было, поэтому оставлять надежду рано. Очевидно, этот федеральный закон ещё будет претерпевать изменения.
Аналогичную ситуацию можно наблюдать и в Европе. После принятия General Data Protection Regulation для сбора и обработки персональных данных также необходимо разрешение субъекта. Однако в данном случае персональные данные определены достаточно точно, и включают в себя неактуальную для социологических исследований информацию [3; 12]. Многие популярные социальные сети заинтересованы в поддержании репутации сервисов, защищающих пользователей от нежелательного применения их персональных данных (даже общедоступных). Например, Твиттер имеет жёсткие правила использования API, и при каких-либо подозрениях аккаунт разработчика, необходимый для быстрой и простой разработки скрейперов, может быть заблокирован [18].
Таким образом, веб-скрейпинг, несмотря на многие проблемы, обладает огромным потенциалом в качестве инструмента социологических исследований. Методологические проблемы не свидетельствуют об опасности применения данной технологии – они лишь обнажили процесс становления нового научного знания. С возрастанием междисциплинарности, всё больше социологов будут заинтересованы в изучении основ программирования, что, в свою очередь, будет способствовать решению квалификационных проблем. С популяризацией веб-скрейпинга будет решена и бóльшая часть технических проблем. Тем не менее, данная технология, при всей её практической значимости, бросает серьёзные вызовы современным законодательствам. Как будут развиваться события вокруг вопроса легальности веб-скрейпинга социальных сетей в России – покажет время.
Литература и источники
- Бочарников И.В. Социальные механизмы управления устойчивым развитием российской системы образования //Вестник Московского государственного гуманитарно-экономического института. 2013. № 1 (13). С. 71-75.
- Вилкова О.В. К вопросу о научной осмысленности применения веб-скрейпинга как метода сбора данных в социологических исследованиях // Вестник Томского государственного университета. Серия «Философия. Социология. Политология», №54, 2020. – С.163-175.
- Грязева М.А. Скрейпинг интернет-ресурсов: критерии законности // Журнал Суда по интеллектуальным правам. № 4 (30), декабрь 2020. С. 42-47.
- Галаганова С.Г. Мировоззренческие основы технологического образования. В сборнике: Современное технологическое образование. Сборник научных статей. В 2-х частях. Под редакцией А.А. Александрова и В.К. Балтяна. Москва, 2021. С. 74-79.
- Данина М.М., Шаляпин А.А. Социально-психологический аспект исследования социальных сетей в Интернете // Вестник Московского университета. Серия 10 «Журналистика». № 3. 2012. С.16-32.
- Лавриненко Я.Б., Тинякова В.И. Повышение конверсии веб-сайтов как способ снижения рекламных расходов агентств недвижимости // Вестник Саратовского государственного социально-экономического университета, 2013. С. 58-62.
- Лапуцкий В.С. Веб-скрапинг как способ сбора социологической информации (на примере изучения мнений белорусской интернет-аудитории о Болонском процессе) // Философия и социальные науки в современном мире. Материалы Международной научной конференции к 30-летию факультета философских и социальных наук БГУ. Минск: БГУ, 2019. С. 314-318.
- Митчелл Р. Скрапинг веб-сайтов с помощью Python. М.: ДМК-Пресс, 2016.
- Пояснительная записка к проекту федерального закона «О внесении изменений в Федеральный закон “О персональных данных” в части установления особенностей обработки общедоступных персональных данных». https://sozd.duma.gov.ru.
- Политология / Пусько В.С., Гришнова Е.Е., Ремарчук В.Н., Бочарников И.В., Галаганова С.Г., Ламинина О.Г., Легчилин В.В., Макаренков Е.В., Щеглов И.А. М.: МГТУ имени Н.Э. Баумана, 2020.
- Ремарчук В.Н. Управление смыслами как инструмент современной политики: технологии, вероятные последствия
В сборнике: Политическое пространство и социальное время: Правда и ложь в политике и искусстве. Сборник научных трудов XХХVI Международного Харакского форума. 2019. С. 215-219. - Национальный исследовательский университет «Высшая школа экономики». Учебный план с перечнем планируемых результатов освоения образовательной программы «Социология». https://www.hse.ru/dbs/education.
- Федеральный закон «О персональных данных» от 27.07.2006 № 152-ФЗ. https://rospatent.gov.ru.
- Черепенчук В., Ломакина И, Сердцева Н. Технологии, изменившие мир. М.: Litres, 2019.
- Dogucu M., Çetinkaya-Rundel M.. Web Scraping in the Statistics and Data Science Curriculum: Challenges and Opportunities // Journal of Statistics and Data Science Education, Vol. 29, 2021. Р. S112-S122.
- General Data Protection Regulation (EUGDPR). https://gdpr-text.com.
- Justia US Law – EBay v. Bidder’s Edge, 100 F. Supp. 2d 1058 (N.D. Cal. 2000). https://law.justia.com/cases/federal/district-courts.
- Twitter Developer Platform – Developer Terms. https://developer.twitter.com/en/developer-terms.
- WorldWideWebSize.com. https://worldwidewebsize.com.
- World Wide Web Wanderer (Complete History).– History Computer. https://history-computer.com/world-wide-web-wanderer-complete-history.
[1] Английское слово «scrap» переводится как «клочок», «лоскуток», «вырезка»; глагол «toscrape» означает «счищать», «соскабливать».