ИИ намерен помочь экспертам по кибербезопасности в сборе информации о киберугрозах.
Предприняв беспрецедентный шаг, группа южнокорейских ученых создала DarkBERT, магистр права обучался только на темная паутина информация. Они стремились разработать искусственный интеллект инструмент, который превосходит существующие языковые модели и помогает исследователям угроз, правоохранительным органам и информационная безопасность специалисты по борьбе с киберугрозами.
Что такое ДарКБЕРТ?
DarkBERT — это модель преобразователя на основе архитектуры RoBERTa. LLM прошел обучение на миллионах темных веб-страниц, включая данные с хакерских форумов, мошеннических веб-сайтов и других криминальных интернет-источников. Слово даркнет относится к недоступной скрытой области Интернета с использованием стандартных веб-браузеров. Этот сектор хорошо известен своими анонимными веб-сайтами и рынками, которые печально известны преступной деятельностью, такой как торговля украденными данными, наркотиками и огнестрельным оружием.
Исследователи использовали сеть Tor, чтобы получить доступ к даркнету и собрать необработанные данные для обучения DarkBERT. Они тщательно просеивали эти данные, используя такие методы, как дедупликация, балансировка категорий и предварительная обработка, чтобы создать усовершенствованную базу данных даркнета. Затем он был передан Роберте в течение примерно 15 дней для создания DarkBERT.
Потенциальное использование DarkBERT в кибербезопасности: DarkBERT обладает исключительным пониманием лингва-франка киберпреступников и превосходно определяет возможные опасности. Он может проводить исследования темной сети и успешно обнаруживать и выделять угрозы кибербезопасности, такие как утечка данных и программы-вымогатели, что делает его потенциально ценным оружием в борьбе с киберугрозами.
Согласно исследованию, опубликованному на arxiv.org, исследователи сравнили DarkBERT с двумя известными моделями NLP, BERT и RoBERTa, проанализировав их производительность в трех критических случаях использования, связанных с кибербезопасностью.
- Проверьте форумы Dark Web на потенциально опасные темы: Мониторинг темных веб-форумов, которые широко используются для обмена незаконной информацией, имеет решающее значение для обнаружения потенциально опасных сообщений. Но проверка их вручную может занять много времени, поэтому специалисты по безопасности выиграют от автоматизации процесса.
- Найдите веб-сайты, на которых хранится конфиденциальная информация: Хакеры и группы вымогателей используют темную сеть для создания сайтов утечки, чтобы раскрыть секретную информацию, украденную у фирм, отказывающихся платить требования выкупа. Некоторые мошенники просто размещают в темной сети конфиденциальные материалы, такие как пароли и банковские данные, с намерением продать их.
- Обнаружение ключевых слов, связанных с угрозами, в даркнете: DarkBERT использует функцию заполнения маски, функцию языковой модели семейства BERT, для надежного обнаружения фраз, связанных с преступной деятельностью, такой как сделки с наркотиками в даркнете. DarkBERT создал слова, связанные с наркотиками, когда «MDMA» был скрыт на веб-сайте по продаже наркотиков, но другие модели предлагали общие слова и ключевые слова, не связанные с наркотиками, например, многочисленные профессии. Способность DarkBERT обнаруживать фразы, связанные с незаконными действиями, может помочь в выявлении и устранении новых киберрисков.
Использование ИИ для обнаружения и предотвращения угроз: DarkBERT был предварительно обучен на данных темной сети и превзошел существующие языковые модели во многих случаях использования кибербезопасности, зарекомендовав себя как критический инструмент для дальнейших исследований темной сети. Обученный даркнету ИИ может использоваться для различных действий в области кибербезопасности, таких как выявление веб-сайтов, продающих утечку личных данных, мониторинг темных веб-форумов на предмет незаконного обмена информацией и поиск ключевых слов, имеющих отношение к киберугрозам. Однако помните, что DarkBERT, как и другие LLM, находится в стадии разработки, и его производительность может быть повышена за счет постоянного обучения и тонкой настройки.