Агентство DARPA создает аналог Google для даркнета

Расскажите друзьям
Светлана Зыкова
Алексей Зеньков

Правоохранительные органы и правительство давно ищет способ контролировать глубокую сеть и даркнет – участки интернета, в которых не так легко отследить преступную деятельность и найти виновных. Американское оборонное агентство DARPA продвинулось в этом направлении дальше других, создав аналог привычного нам поискового алгоритма.

В современном мире, насыщенном данными, компании, государства и частные лица стремятся подвергнуть анализу все, до чего смогут дотянуться – и Всемирная паутина может им предложить нескончаемый поток информации. На сегодня самым удобным для индексирования типом информации является текст. Но примерно 89-96% всего содержимого интернета представляет собой что-то еще – изображения, видео, аудио и многие тысячи различных типов данных, не связанные с текстом.

Кроме того, большая часть данных недоступна в том виде, в котором их может индексировать электронная система вроде той, что используют в Google. Эти данные могут быть доступны только владельцу конкретного аккаунту или же генерироваться программой только тогда, когда страницу посещает пользователь. Однако мы хотим систематизировать все знания человечества с сети, и для этого нам нужно научиться получать и распознавать все данные, причем делать это автоматически.


Очаги нелегальной активности на карте мира. Чем крупнее круг, тем выше активность. Источник: Кристиан Маттманн


Как нам научить компьютеры распознавать, индексировать и производить поиск по самым разным типам данных, доступных в сети? Благодаря мерам, принятым правительством США для борьбы с торговлей оружием и людьми, были заложены основы для появления нового инструмента, способного решать эту задачу.


Что такое «глубокая сеть»

Термины «глубокая паутина», «темная паутина» и другие подобные часто используются в контексте криминальных новостей или художественных фильмов вроде «Глубокой сети», в которых молодые и смышленые преступники начинают заниматься торговлей наркотиками, людьми или чем-то еще более серьезным. Но что на самом деле означают эти термины?

«Глубокая сеть» существует с тех пор, как компании и организации, в том числе и университеты, стали размещать в интернете обширные базы данных таким образом, чтобы получить к ним доступ напрямую было нельзя. К примеру, пользователи университетской сети должны войти в свою учетную запись, чтобы получить доступ к телефонам и электронным адресам других студентов. Онлайн-сервисы вроде Dropbox и Gmail являются частью Всемирной паутины, но получить доступ к файлам и данным пользователей можно только при помощи логина и пароля.

«Видимый интернет» включает в себя общедоступные сервисы – онлайн-магазины, информационные страницы компаний, новостные сайты и так далее. «Глубокий интернет» тесно со всем этим связан, но эту часть сети не видят пользователи и – что может быть важнее – поисковые алгоритмы, которые каталогизируют сеть. «Глубокий интернет» можно описать как часть публичного интернета, которая:

  1. Требует у пользователя логин и пароль для входа
  2. Включает в себя динамический контент, созданный при помощи AJAX или Javascript
  3. Включает в себя изображения, видео и другие типы данных, которые не могут быть должным образом проиндексированы поисковыми сервисами

Что такое даркнет?

В свою очередь, «темная сеть», или даркнет – это страницы, которые размещены на веб-серверах с использованием анонимного веб-протокола Tor, но при этом могут включать в себя элементы «глубокой паутины». Изначально Tor был разработан специалистами Министерства обороны США для защиты секретных сведений, но в 2004 году стал достоянием общественности.

Как и многие другие защищенные системы вроде мессенджера WhatsApp, Tor был создан для использования в благих целях, но со временем стал орудием преступников, которые сохраняли свою анонимность. Некоторые люди владеют сайтами в сети Tor, на которых организуется торговля наркотиками, оружием и людьми, а также предлагаются услуги киллеров.

В правительстве давно пытаются найти способ бороться с этими преступниками при помощи современных информационных технологий. В 2014 году Агентство передовых оборонных исследовательских проектов (также известное как DARPA), входящее в Министерство обороны США, запустило программу Memex для борьбы с торговлей людьми.


Источник: CBS


В частности, руководство Memex планировало создать поисковый алгоритм, который бы помогал правоохранительным органам отслеживать подобные операции в Сети, исследуя глубокую сеть и даркнет. Одна из самых полезных систем, которыми пользовалась команда проекта, называлась Apache Tika.


«Цифровая вавилонская рыба»

Программу Tika часто называют «цифровой вавилонской рыбой» – это отсылка на «вавилонскую рыбу» из серии книг «Автостопом по галактике» Дугласа Адамса. Если такую рыбку засунуть себе в ухо, можно понимать любой язык. Точно так же Tika позволяет распознавать любые файлы и их содержимое.

Когда Tika обрабатывает файл, она автоматически определяет тип файла – например, фото, видео или аудио. Сделать это помогает тщательно отобранная система информации о файлах: их название и расширение, своего рода цифровой след. К примеру, когда программа обрабатывает файл, название которого заканчивается на «.mp4», Tika делает предположение, что это видеофайл в формате MPEG-4.

Затем Tika детально анализирует данные в самом файле и подтверждает либо опровергает свое предположение – все изображения, видео-, аудио-, и любые другие типы файлов должны начинаться с определенного кода, задающего формат хранения данных.

После того как тип файла определен, Tika извлекает его содержимое с помощью специальных инструментов, таких как ApachePDFBox для PDF-файлов или Tesseract для распознавания текста на изображениях. Помимо содержимого извлекается дополнительная важная информация, или «метаданные»: дата создания файла, имя автора последней редакции и язык, на котором он был создан.

Затем Tika проводит дальнейший анализ текста с помощью продвинутых методик, таких как распознавание именованных сущностей (NER). NER распознает существительные и структуру предложений, а затем сопоставляет их с базами данных о людях, местах и явлениях, определяя не только, о ком говорится в тексте, но также где происходит дело и почему.

Эта методика позволила Tika автоматически вычислить офшорные компании (явления), место их расположения, и тех людей, кто хранил в них свои деньги в рамках скандала Panama Papers, благодаря которому открылись подробности о коррупции среди многих политических, общественных и коммерческих деятелей.


Tika извлекает информацию из фотографий оружия, обнаруженного в глубокой сети и даркнете. Краденое оружие автоматически направляется на дальнейший анализ. Кристиан Маттманн


Обнаружение преступной деятельности

В ходе проекта Memex Tika была доработана и стала еще качественнее обрабатывать мультимедиа и другие данные, обнаруженные на просторах скрытой части сети. Теперь Tika может обрабатывать изображения, содержащие информацию, менее явно связанную с торговлей людьми. К примеру, программа автоматически анализирует текст на картинках – псевдоним жертвы или контактные данные – и определенные характеристики изображений, такие как вспышки камер. На некоторых изображениях и видеороликах Tika может идентифицировать людей, местоположение и объекты.

С применением дополнительного ПО Tika может обнаруживать автоматическое оружие и определять его серийный номер. Так можно установить, было ли это оружие украдено.

Систематическое использование Tika для мониторинга глубокой паутины и даркнета поможет выявлять преступления, связанные с торговлей людьми и оружием сразу после публикации фото. Это позволит предотвращать будущие преступления и спасать жизни.

Система Memex пока еще не способна обрабатывать весь доступный контент, помогать правоохранительным органам и гуманитарным организациям бороться с торговлей людьми или хотя бы взаимодействовать с коммерческими поисковыми системами.

Впереди еще много работы, но эти цели медленно, но верно становятся ближе. Tika и другие программные средства находятся в открытом доступе в каталоге DARPA. Ими могут воспользоваться службы правопорядка, технические специалисты и даже широкая публика – любой, кто хочет пролить свет туда, где раньше царил только мрак.

Источник


Материалы по теме:

Что такое даркнет и почему вам нужно защитить от него свою компанию

Хакеры смогли похитить миллионы долларов в биткоинах, используя только номера телефонов

14 лекций о кибербезопасности и ложных данных

Издание Motherboard поговорило с русским хакером, который взломал LinkedIn



Комментарии

  • Наколенке 08:58, 7.02.2017
    0
    Протестим =)
Комментарии могут оставлять только авторизованные пользователи.
Web Summit 2017
6 ноября 2017
Ещё события


Telegram канал @rusbase