Колонки

Они повсюду: как остановить нашествие ботов и защитить свой бизнес

Колонки
Артем Гавриченков
Артем Гавриченков

Технический директор Qrator Labs

Дарья Мызникова

Артем Гавриченков, технический директор Qrator Labs, рассказывает откуда взялись боты, почему сейчас их так много и чем они могут навредить бизнесу.

Они повсюду: как остановить нашествие ботов и защитить свой бизнес

Боты, интернет, мошенничество, ботнеты, ботоводы — в умах большинства людей все это соединяется воедино, создавая общий негативный фон вокруг слова «бот». С развитием технологий боты прочно вошли в нашу жизнь, и в основном мы знаем их как «плохих парней», которые вредят бизнесу. К их помощи часто прибегают, чтобы решить вопрос низкого покупательского потока, вывести из строя ресурсы конкурентов или просто оказаться на первых строках в поисковой выдаче. 

Слово «бот» не несет в себе никакой негативной коннотации. Бот — это всего лишь программа, автоматизирующая порядок действий. Сегодня боты становятся фактическим стандартом интерфейса для взаимодействия с программными сервисами, а история их стара, как сам интернет.

На заре становления глобальной сети все начиналось с элементарных скриптов (или «программных сценариев») с помощью которых ИТ-специалисты автоматизировали вначале резервное копирование, настройку сети, мониторинг, а затем и внешние действия: выгрузки данных для отправки отчетности или проверки функционирования интернета.

Скрипты были очень удобны с точки зрения уменьшения человеческого фактора. Постепенно, примерно с 2007 года, стали появляться программы, которые решали более сложные задачи уже в браузерах. Создававшиеся для этого скрипты уже можно было назвать первыми ботами, а их принадлежность к группе «хороших» или «плохих» стала зависеть от того набора действий, которые человек хотел с их помощью автоматизировать.

photoUnsplash

«Добрые» краулеры

Поисковые роботы (веб-краулеры) принимают непосредственное участие в сканировании и индексации веб-ресурсов. Эти программы являются составной частью поисковых систем Google и «Яндекс» и предназначены для перебора интернет-страниц с целью занесения информации о них в базу данных поисковика.

Краулер собирает данные о том, какая информация размещена на сайте, какие сайты и с какой репутацией ссылаются на ресурс, как его цитируют. Это нужно поисковику для предоставления доступа к выдаче и ее улучшения. Ограничить индексацию сайта можно с помощью файла robots.txt, где владелец сайта может прописать, с какой периодичностью бот может отсматривать его ресурс и в какие разделы он заходить не должен. 

Обычно владелец сайта не ограничивает доступ таких ботов к ресурсу, поскольку фактически они работают за него, принося пользу. Однако не все краулеры одинаково полезны.

Парсеры

Краулеры бывают и другого вида — те, которые занимаются анализом цен, товарного ассортимента, изображений товаров. К этой категории относится парсинг (web scraping). Парсинг используется для сбора любой открытой информации с сайтов и последующей ее продажи, например, для сбора базы товаров магазина и отслеживания цен. 

Парсеры охотятся за контентом интернет-магазинов, например, фотографиями товаров, за съемку и обработку которых владелец ресурса заплатил деньги. Конечно, боты увеличивают нагрузку на сайт, создавая бесполезный трафик, который вынужден оплачивать владелец магазина. Понятно, что бизнесам вовсе не импонирует идея мониторинга цен конкурентами, поэтому они всячески ищут защиту от подобного вида краулинга.

Только вот защититься от парсинга практически невозможно. Вся информация, выложенная в сеть, доступна для ботов, а при правильной подготовке методики отличить бота от человека практически невозможно. Поэтому основным работающим способом ограничения доступа к контенту является авторизация пользователей на сайте. 

«Черная дыра» поисковой оптимизации

Несмотря на очевидную пользу поисковых ботов, далеко не все компании готовы предоставлять им доступ к своим веб-ресурсам по ряду причин, прибегая к приемам «черной» поисковой оптимизации — клоакингу. Клоакинг (от англ. cloak — маскировать, скрывать) заключается в отображении на сайте разного контента для пользователей и поисковых роботов. Часто бывает, что создать страницу, которая будет и удобна для посетителей, и информативна для роботов, достаточно сложно. Поэтому некоторые компании прибегают к хитрости, оформляя пользовательскую страницу в произвольном формате, а страницу для ботов — в соответствии с четкими требованиями поисковиков. 

Бывает, что компании с помощью клоакинга обманывают поисковых ботов для продвижения товаров, реклама которых официально запрещена. Размещая нейтральную рекламу, например, в Facebook, компания отслеживает все переходы по ссылке, и пользователя она «уводит» на сайт с запрещенной продукцией, а проверяющего бота — на поддельный ресурс. 

Обнаруженный клоакинг обычно приводит к понижению позиции сайта в выдаче по определенным поисковым запросам.

Зловредные боты

В интернете уже много лет процветают роботы, целью которых является выведение сайтов из строя. Их деятельность называют «белым шумом» интернета. Как только компания поднимает сайт на публичном IP-адресе и заводит доменное имя, через несколько минут в журналах доступа появляются первые запросы к сайту. Это боты-сканеры.

Довольно часто они «ходят» с китайских IP-адресов, разыскивая типичные уязвимости, такие как админ-панель контент-менеджмент системы Wordpress с паролем по умолчанию. Их цель — внедрение бэкдоров (вредоносных программ, созданных для выполнения несанкционированных действий и удаленного управления операционной системой) для использования вычислительных ресурсов и данных компании-жертвы в собственных целях.

Отдельная категория роботов — программы, которые участвуют в организации DDoS-атак. Некогда это были примитивные боты, написанные поверх утилиты командной строки или встроенного в язык Delphi веб-движка. Сегодня наряду с ними уже используются вредоносные плагины в браузерах или вредоносные приложения на Android. Эти боты обладают полноценной функциональностью по имитации пользовательской активности. 

Боты, используемые для организации DDoS-атак, могут использоваться и для организации систем нагрузочного тестирования, поскольку нет жесткого критерия, который бы четко отделял «хороших» ботов от «плохих». Стоит, конечно, признать, что боты, как правило, пишутся под определенную задачу — так, например, ботнет интернета вещей Mirai, который в 2016 году организовал крупнейшую на тот момент DDoS-атаку, был специально написан для проведения атак. Однако сейчас исследователи используют его выложенный в публичный доступ исходный код, например, для проведения стресс-тестов. Так что пистолет умеет стрелять в обе стороны — все зависит от того, кто держит его в руках и на кого направляет.

photoUnsplash

Как остановить нашествие ботов 

Существует два основных варианта организации защиты от ботов. Их можно реализовать своими силами или с привлечением сторонних подрядчиков. Однако прежде чем решиться на тот или иной способ, стоит оценить преимущества и недостатки каждого и, главное, понять, в какую сторону движется развитие индустрии. 

Вариант 1: отличать бота от человека

Этот метод сравнительно легко реализуем и является быстрым решением проблемы. Недостаток заключается в том, что с ростом степени автоматизации и проникновением технологий отличить бота от человека становится все сложнее. Характерным примером может служить развитие технологии CAPTCHA — сейчас это основной способ, который помогает отличить человека от робота. Когда-то большинство капч требовало от человека разгадать набор трансформированных символов. Но алгоритмы достигли больших успехов в распознавании даже рукописного текста, и боты почти догнали людей в этом.

Поэтому сейчас реализуются более устойчивые к взлому капчи, основанные на распознавании образов, например, дорожных объектов — светофоров, пешеходных переходов. Однако поскольку часто капчи пишутся американскими компаниями, у людей из других стран, которые не знают культуры и специфики США, могут возникать проблемы с прочтением требований, например, с распознаванием счетчиков парковки. 

Вариант 2: анализировать поведение пользователя

Этот способ не так прост в реализации, как капча, но гораздо больше отвечает исходной задаче: современные алгоритмы анализа дают возможность понять поведение пользователя и цели, которые он преследует при посещении сайта — установить так называемый цифровой отпечаток. 

Поиск вредоносной активности в таких системах происходит как на основе анализа запросов пользователей, так и цифрового отпечатка пользователя с помощью активных проверок. Такой подход позволяет блокировать вредоносные источники порой с первого же отправленного ими запроса. 

Со временем человек оказывается все дальше от непосредственного взаимодействия с веб-ресурсом ввиду повышения уровня автоматизации.

Когда-то люди практически руками могли написать работающий запрос в командной строке. Сегодня большинство сервисов использует шифрование и имеет развесистый фронтенд, без которого функционировать не может. Запросы отправляются скриптом, работающем в браузере. На этом уровне человек серьезно отдаляется от того, что происходит на сервере.

Дальнейшая автоматизация процессов приведет к включению в браузер алгоритмов машинного обучения, которые могли бы выполнять тривиальные операции за пользователя, например, умели бы регистрировать за него аккаунт на веб-ресурсах, автоматически заполнять поля или давать подсказки, меняя профиль поведения человека.

С учетом этого на передний план выходит не уровень автоматизированности действий, а понимание целей этих действий. Главная задача для бизнеса сейчас — отслеживание того, насколько та или иная активность допустима на его ресурсе и какую цель она преследует. 


Фото на обложке: Shutterstock/Patrick Daxenbichler

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Сценарист чат-бота: как им стать и почему это профессия будущего
  2. 2 Способны ли чат-боты распознавать эмоции человека?
  3. 3 Понимающие алгоритмы: зачем бизнесу нужны боты с распознаванием эмоций
Успехи российских стартапов за рубежом
#Гордость
Перейти