Штучны інтэлект навучыўся мове даркнэту і цяпер можа распазнаваць кіберпагрозы

Фота ілюстрацыйнае. Крыніца: vecteezy.com

Даркнэт — гэта схаваная ад пошукавых сістэм частка інтэрнэту. У яе нельга патрапіць праз звычайны браўзер. Аўтары даследавання для ўваходу ў даркнэт выкарыстоўвалі браўзер Tor. Зносіны карыстальнікаў у «цёмнай» частцы інтэрнэту адбываюцца ананімна, таму іх складана адсачыць.

З-за такіх пераваг даркнэт стаў платформай для ўсякай незаконнай дзейнасці, ад уцечкі даных да гандлю забароненымі рэчамі. Спецыялісты па кібербяспецы пастаянна шукаюць спосабы маніторыць і вывучаць тэксты ў даркнэце.

Такія моўныя мадэлі, як нейрасеткі, цяпер выкарыстоўваюцца для вывучэння розных тэкстаў. Яны былі навучаныя на вялікім аб'ёме даных і паспяхова спраўляюцца з задачамі, звязанымі з разуменнем мовы.

Яны здольныя аналізаваць тэксты, вызначаць іх сэнс і выяўляць важныя аспекты. Гэта дазваляе выкарыстоўваць моўныя мадэлі ў такіх галінах, як аўтаматычны пераклад, сінтэз гаворкі, аналіз танальнасці тэкстаў і ў шмат іншых.

Моўныя мадэлі звычайна праводзяць навучанне на выбарках тэкстаў з розных крыніц: інтэрнэту, кніг, артыкулаў, навін. Гэта дазваляе ім разумець і адрозніваць розныя стылі: мастацкі, навуковы, стыль паведамленняў у сацыяльных сетках і г. д.

Аднак у выбаркі не траплялі матэрыялы з даркнэту, а яны маюць свае асаблівасці ў лексіцы, размеркаванні часцін мовы і сінтаксісе. Даследчыкі з Паўднёвай Карэі вырашылі ліквідаваць гэты недахоп.

Група вучоных з Карэйскага інстытута перадавых тэхналогій сабрала корпус тэкстаў з дакнэту і навучыла яго мове мадэль DarkBERT. Вынікі свайго даследавання яны прадставілі на платформе arxiv.org.

Для папярэдняга навучання DarkBERT даследчыкі стварылі вялікі тэкставы корпус з даркнэту. Яны пачалі са збору пачатковых адрасоў з пошукавай сістэмы Ahmia, якая працуе ў даркнэце і дае доступ да сайтаў, якія не індэксуюцца звычайнымі пошукавымі сістэмамі, і публічных сховішчаў са спісам даменаў з пашырэннем «.onion».

Даследчыкі сканавалі Dark Web, пашыраючы свой спіс даменаў і захоўваючы загаловак HTML і асноўныя элементы кожнай старонкі ў выглядзе тэкставага файла. Затым яны адабралі старонкі на англійскай мове. У выніку корпус дакументаў склаў каля 6,1 мільёна старонак, якія пазней былі апрацаваныя з мэтай выдалення старонак з нізкім утрыманнем інфармацыі, дублікатаў і канфідэнцыйных даных.

Для навучання выкарыстоўвалі мадэль RoBERTa, заснаваную на архітэктуры Transformer, выбранай з-за таго, што не ўключае задачу прадказання наступнага сказа (NSP). Пасля навучання на тэкстах даркнэту атрымалася гатовая мадэль DarkBERT. Яе якасць параўноўвалі са стандартнымі мадэлямі RoBERTa і BERT, якія вучыліся на звычайных тэкстах у дзвюх версіях: апрацаванай і неапрацаванай.

А затым правялі тэсціраванне моўных мадэляў на розных сцэнарыях кіберпагроз. Ім неабходна было вызначыць, ці змяшчае тэкст сайта скрадзеныя даныя.

Вядома, што часам зламыснікі выкрадаюць канфідэнцыйныя даныя з сайтаў і вымагаюць у іх уладальнікаў грошы. Калі грошы не паступаюць, яны публікуюць скрадзеныя даныя.

Нейрасеткі атрымлівалі тэкст сайта і вырашалі задачу бінарнай класіфікацыі.

Для гэтага даследчыкі вывучалі сайты ўцечкі даных, на якіх публікуюцца канфідэнцыйныя звесткі арганізацый. На працягу двух гадоў (з мая 2020 года па красавік 2022 года) яны сабралі даныя з 54 папулярных груп вымагальнікаў, якія публікуюць інфармацыю аб уцечцы.

Для станоўчага класа прыкладаў выпадковым чынам выбіралася не больш за тры старонкі з рознымі назвамі. Для адмоўнага выкарыстоўваліся старонкі Dark Web са зместам, падобным да сайтаў уцечкі, у прыватнасці, у катэгорыях хакерства, крыптавалюта, фінансы. Канчатковы набор даных для навучання складаўся са 105 станоўчых і 679 адмоўных прыкладаў.

DarkBERT прадэманстраваў высокую прадукцыйнасць у параўнанні з іншымі моўнымі мадэлямі ў разуменні мовы, якая выкарыстоўваецца на падпольных хакерскіх форумах у Dark Web.

Нягледзячы на тое, што DarkBERT выкарыстоўвае RoBERTa ў якасці базавай мадэлі, прадукцыйнасць RoBERTa значна знізілася ў параўнанні з іншымі мадэлямі. Характэрна, што версія DarkBERT з выкарыстаннем папярэдняй апрацоўкі ўводу перасягнула тую, якая выкарыстоўвае неапрацаваны ўвод. Гэта падкрэслівае важнасць папярэдняй апрацоўкі тэксту для скарачэння непатрэбнай інфармацыі.

Наступная задача, якую вырашалі моўныя мадэлі — разуменне паведамленняў з форумаў даркнэту, якія часта выкарыстоўваюцца для незаконнага абмену інфармацыяй і патрабуюць кантролю за патэнцыйна шкоднымі тэмамі.

Праверка гэтых патокаў уручную займае шмат часу, таму аўтаматызацыя гэтага працэсу можа дапамагчы экспертам па бяспецы. Даследчыкі зноў сфармулявалі задачу як праблему бінарнай класіфікацыі, каб прадказаць, ці вартая ўвагі канкрэтная тэма форуму.

Нейрасеткі вылучалі ключавыя словы ў паведамленнях аб забароненых рэчывах. Такія ключавыя словы могуць спатрэбіцца супрацоўнікам праваахоўных органаў, каб хутка шукаць паведамленні аб продажы рэчываў і вызначаць прадаўцоў.

Гэтую задачу пратэсціравалі на DarkBERT і мадэлі BERT. Тут DarkBERT зноў абышоў канкурэнта (дакладнасць вызначэння топ-10 ключавых слоў 60 % у DarkBERT супраць 40 % у BERT).

У цэлым вынікі паказваюць, што папярэдне навучаная на тэкстах з даркнэту нейрасетка DarkBERT спраўляецца з задачамі кібербяспекі лепш, чым іншыя мадэлі. Яе можна выкарыстоўваць для маніторынгу нелегальнай актыўнасці ў даркнэце, вылічваць злачынцаў і прадухіляць уцечку даных.

Чытайце яшчэ:

Неўролагі навучылі штучны інтэлект чытаць чалавечыя думкі

Microsoft абвясціў аб адкрыцці доступу да пошукавіка Bing на аснове штучнага інтэлекту для ўсіх карыстальнікаў

Кітай хоча, каб штучны інтэлект адлюстроўваў асноўныя каштоўнасці сацыялізму

Антось Жупран

Хочаш падзяліцца важнай інфармацыяй ананімна і канфідэнцыйна? Пішыце рэдактару «Нашай Нівы» ў ТГ

пн	аў	ср	чц	пт	сб	нд
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Штучны інтэлект навучыўся мове даркнэту і цяпер можа распазнаваць кіберпагрозы 2