Агентство DARPA создает аналог Google для даркнета
Правоохранительные органы и правительство давно ищет способ контролировать глубокую сеть и даркнет – участки интернета, в которых не так легко отследить преступную деятельность и найти виновных. Американское оборонное агентство DARPA продвинулось в этом направлении дальше других, создав аналог привычного нам поискового алгоритма.
В современном мире, насыщенном данными, компании, государства и частные лица стремятся подвергнуть анализу все, до чего смогут дотянуться – и Всемирная паутина может им предложить нескончаемый поток информации. На сегодня самым удобным для индексирования типом информации является текст. Но примерно 89-96% всего содержимого интернета представляет собой что-то еще – изображения, видео, аудио и многие тысячи различных типов данных, не связанные с текстом.
Кроме того, большая часть данных недоступна в том виде, в котором их может индексировать электронная система вроде той, что используют в Google. Эти данные могут быть доступны только владельцу конкретного аккаунту или же генерироваться программой только тогда, когда страницу посещает пользователь. Однако мы хотим систематизировать все знания человечества с сети, и для этого нам нужно научиться получать и распознавать все данные, причем делать это автоматически.
Очаги нелегальной активности на карте мира. Чем крупнее круг, тем выше активность. Источник: Кристиан Маттманн
Как нам научить компьютеры распознавать, индексировать и производить поиск по самым разным типам данных, доступных в сети? Благодаря мерам, принятым правительством США для борьбы с торговлей оружием и людьми, были заложены основы для появления нового инструмента, способного решать эту задачу.
Что такое «глубокая сеть»
Термины «глубокая паутина», «темная паутина» и другие подобные часто используются в контексте криминальных новостей или художественных фильмов вроде «Глубокой сети», в которых молодые и смышленые преступники начинают заниматься торговлей наркотиками, людьми или чем-то еще более серьезным. Но что на самом деле означают эти термины?
«Глубокая сеть» существует с тех пор, как компании и организации, в том числе и университеты, стали размещать в интернете обширные базы данных таким образом, чтобы получить к ним доступ напрямую было нельзя. К примеру, пользователи университетской сети должны войти в свою учетную запись, чтобы получить доступ к телефонам и электронным адресам других студентов. Онлайн-сервисы вроде Dropbox и Gmail являются частью Всемирной паутины, но получить доступ к файлам и данным пользователей можно только при помощи логина и пароля.
«Видимый интернет» включает в себя общедоступные сервисы – онлайн-магазины, информационные страницы компаний, новостные сайты и так далее. «Глубокий интернет» тесно со всем этим связан, но эту часть сети не видят пользователи и – что может быть важнее – поисковые алгоритмы, которые каталогизируют сеть. «Глубокий интернет» можно описать как часть публичного интернета, которая:
- Требует у пользователя логин и пароль для входа
- Включает в себя динамический контент, созданный при помощи AJAX или Javascript
- Включает в себя изображения, видео и другие типы данных, которые не могут быть должным образом проиндексированы поисковыми сервисами
Что такое даркнет?
В свою очередь, «темная сеть», или даркнет – это страницы, которые размещены на веб-серверах с использованием анонимного веб-протокола Tor, но при этом могут включать в себя элементы «глубокой паутины». Изначально Tor был разработан специалистами Министерства обороны США для защиты секретных сведений, но в 2004 году стал достоянием общественности.
Как и многие другие защищенные системы вроде мессенджера WhatsApp, Tor был создан для использования в благих целях, но со временем стал орудием преступников, которые сохраняли свою анонимность. Некоторые люди владеют сайтами в сети Tor, на которых организуется торговля наркотиками, оружием и людьми, а также предлагаются услуги киллеров.
В правительстве давно пытаются найти способ бороться с этими преступниками при помощи современных информационных технологий. В 2014 году Агентство передовых оборонных исследовательских проектов (также известное как DARPA), входящее в Министерство обороны США, запустило программу Memex для борьбы с торговлей людьми.
Источник: CBS
В частности, руководство Memex планировало создать поисковый алгоритм, который бы помогал правоохранительным органам отслеживать подобные операции в Сети, исследуя глубокую сеть и даркнет. Одна из самых полезных систем, которыми пользовалась команда проекта, называлась Apache Tika.
«Цифровая вавилонская рыба»
Программу Tika часто называют «цифровой вавилонской рыбой» – это отсылка на «вавилонскую рыбу» из серии книг «Автостопом по галактике» Дугласа Адамса. Если такую рыбку засунуть себе в ухо, можно понимать любой язык. Точно так же Tika позволяет распознавать любые файлы и их содержимое.
Когда Tika обрабатывает файл, она автоматически определяет тип файла – например, фото, видео или аудио. Сделать это помогает тщательно отобранная система информации о файлах: их название и расширение, своего рода цифровой след. К примеру, когда программа обрабатывает файл, название которого заканчивается на «.mp4», Tika делает предположение, что это видеофайл в формате MPEG-4.
Затем Tika детально анализирует данные в самом файле и подтверждает либо опровергает свое предположение – все изображения, видео-, аудио-, и любые другие типы файлов должны начинаться с определенного кода, задающего формат хранения данных.
После того как тип файла определен, Tika извлекает его содержимое с помощью специальных инструментов, таких как ApachePDFBox для PDF-файлов или Tesseract для распознавания текста на изображениях. Помимо содержимого извлекается дополнительная важная информация, или «метаданные»: дата создания файла, имя автора последней редакции и язык, на котором он был создан.
Затем Tika проводит дальнейший анализ текста с помощью продвинутых методик, таких как распознавание именованных сущностей (NER). NER распознает существительные и структуру предложений, а затем сопоставляет их с базами данных о людях, местах и явлениях, определяя не только, о ком говорится в тексте, но также где происходит дело и почему.
Эта методика позволила Tika автоматически вычислить офшорные компании (явления), место их расположения, и тех людей, кто хранил в них свои деньги в рамках скандала Panama Papers, благодаря которому открылись подробности о коррупции среди многих политических, общественных и коммерческих деятелей.
Tika извлекает информацию из фотографий оружия, обнаруженного в глубокой сети и даркнете. Краденое оружие автоматически направляется на дальнейший анализ. Кристиан Маттманн
Обнаружение преступной деятельности
В ходе проекта Memex Tika была доработана и стала еще качественнее обрабатывать мультимедиа и другие данные, обнаруженные на просторах скрытой части сети. Теперь Tika может обрабатывать изображения, содержащие информацию, менее явно связанную с торговлей людьми. К примеру, программа автоматически анализирует текст на картинках – псевдоним жертвы или контактные данные – и определенные характеристики изображений, такие как вспышки камер. На некоторых изображениях и видеороликах Tika может идентифицировать людей, местоположение и объекты.
С применением дополнительного ПО Tika может обнаруживать автоматическое оружие и определять его серийный номер. Так можно установить, было ли это оружие украдено.
Систематическое использование Tika для мониторинга глубокой паутины и даркнета поможет выявлять преступления, связанные с торговлей людьми и оружием сразу после публикации фото. Это позволит предотвращать будущие преступления и спасать жизни.
Система Memex пока еще не способна обрабатывать весь доступный контент, помогать правоохранительным органам и гуманитарным организациям бороться с торговлей людьми или хотя бы взаимодействовать с коммерческими поисковыми системами.
Впереди еще много работы, но эти цели медленно, но верно становятся ближе. Tika и другие программные средства находятся в открытом доступе в каталоге DARPA. Ими могут воспользоваться службы правопорядка, технические специалисты и даже широкая публика – любой, кто хочет пролить свет туда, где раньше царил только мрак.
Материалы по теме:
Что такое даркнет и почему вам нужно защитить от него свою компанию
Хакеры смогли похитить миллионы долларов в биткоинах, используя только номера телефонов
14 лекций о кибербезопасности и ложных данных
Издание Motherboard поговорило с русским хакером, который взломал LinkedIn
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Популярное
Материалы по теме
-
Пройти курс «Как построить личный бренд»
- 1 Китайские разработчики игр потратили на продвижение в RuStore свыше 60 млн рублей Их рекламные расходы в третьем квартале выросли в пять раз 10 декабря 09:00
- 2 Приложения попавшего под санкции «БКС Банка» пропали из App Store и Google Play Минфин США ввел ограничения против кредитной организации 21 ноября 22 ноября 16:46
- 3 В App Store появилось бесплатное приложение Gemini — нейросети Google Сервис позволяет общаться с чат-ботом, в том числе с помощью голоса 14 ноября 22:00
- 4 Гондурасу грозит банкротство из-за судов с инвесторами Один из 15 исков требует более $10 млрд. Госдолг страны — $16,5 млрд 02 октября 13:31