Шта је напад брзе ињекције АИ и како функционише?

Преглед садржаја

Кључни Закључци

Напади брзим убацивањем, који користе вештачку интелигенцију, манипулишу АИ моделима како би генерисали злонамерне излазе, што може да доведе до фишинг напада.
Ови напади могу се изводити кроз ДАН (Уради било шта одмах) технике, као и индиректним методама убацивања, повећавајући потенцијал за злоупотребу вештачке интелигенције.
Индиректни напади брзог убацивања представљају највећу опасност за крајње кориснике, јер могу изманипулисати одговоре које добијају од поузданих АИ модела.

Напади брзим убацивањем вештачке интелигенције загађују излазе АИ алата на које се ослањате, модификујући и претварајући њихов излаз у нешто штетно. Како тачно функционише ова врста напада и како се можете заштитити?

Шта је Напад Брзог Убацивања АИ?

Напади брзог убацивања вештачке интелигенције искориштавају рањивост генеративних АИ модела за манипулацију њиховим излазима. Ови напади могу бити покренути директно или убачени споља путем индиректних техника. Иако ДАН напади (Уради било шта одмах) не представљају директну опасност за вас као крајњег корисника, остали облици напада теоретски могу загадити излаз који добијате од генеративне вештачке интелигенције.

На пример, неко може да манипулише вештачком интелигенцијом да вас упути да унесете своје корисничко име и лозинку на лажној страници, користећи ауторитет и поузданост АИ за извођење успешног фишинг напада. Аутономна вештачка интелигенција, која чита и реагује на поруке, такође може примити спољне упуте и поступати по њима.

Како Функционишу Напади Брзог Убацивања?

Напади брзог убацивања функционишу тако што се АИ моделу дају додатне инструкције без пристанка или знања корисника. Хакери то постижу на различите начине, укључујући ДАН нападе и индиректне нападе брзог убацивања.

ДАН (Уради било шта одмах) Напади

ДАН напади представљају посебну врсту брзог убацивања која се односи на генеративне АИ моделе као што је ChatGPT. Иако ови напади „бегства из затвора“ не представљају директан ризик за крајњег корисника, они проширују могућности вештачке интелигенције, омогућавајући да се користи у злонамерне сврхе.

На пример, безбедносни истраживач Алејандро Видал је користио ДАН упит да натера GPT-4 компаније OpenAI да генерише Питхон код за кејлогер. Злоупотреба јаилбреак-а вештачке интелигенције смањује препреке засноване на вештинама које се повезују са сајбер криминалом и може омогућити новим хакерима да изводе софистициране нападе.

Напади Тровања Подацима за Обуку

Иако се не могу тачно сврстати као напади брзог убацивања, напади тровања података за обуку имају велике сличности у начину рада и опасностима које представљају за кориснике. За разлику од напада брзог убацивања, напади тровања података за обуку су облик супротстављених напада машинског учења који се дешавају када хакер промени податке за обуку које користи АИ модел. Резултат је исти: загађен излаз и измењено понашање.

Могуће примене напада тровања података за обуку су готово неограничене. На пример, вештачка интелигенција која се користи за филтрирање покушаја крађе идентитета на платформи за ћаскање или е-пошту могла би да измени своје податке за обуку. Ако би хакери научили АИ модератора да прихвати одређене врсте фишинг покушаја, могли би слати фишинг поруке а да не буду откривени.

Иако напади тровања података за обуку не могу директно да вам наштете, могу створити услове за друге претње. Да бисте се заштитили од ових напада, имајте на уму да вештачка интелигенција није савршено безбедна и да треба пажљиво да прегледате све што видите на интернету.

Индиректни Напади Брзог Убацивања

Индиректни напади брзог убацивања представљају највећи ризик за крајњег корисника. Ови напади се дешавају када се злонамерне инструкције убаце у генеративну вештачку интелигенцију путем спољашњег ресурса, као што је АПИ позив, пре него што добијете тражени унос.

грексхаке/ГитХуб

У истраживању „Компромитовање апликација интегрисаних у ЛЛМ у стварном свету са индиректним брзим убацивањем“, објављеном на arXiv [PDF], приказан је теоријски напад у коме се АИ може навести да убеди корисника да се пријави на фишинг сајт унутар одговора, користећи скривени текст (невидљив људском оку, али савршено читљив моделу вештачке интелигенције) за тајно убацивање информација. Други напад који је документовао исти истраживачки тим на GitHub показао је како се Copilot (раније Bing Chat) може навести да убеди корисника да је агент корисничке подршке и тражи податке о кредитној картици.

Ови напади су посебно опасни јер могу манипулисати одговорима добијеним од поузданог АИ модела. Такође, могу навести било коју аутономну вештачку интелигенцију коју користите да делује на неочекиване и потенцијално штетне начине.

Да Ли су Напади Брзог Убацивања Вештачке Интелигенције Претња?

Напади брзог убацивања вештачке интелигенције представљају стварну претњу, иако није потпуно јасно како би се тачно ове рањивости могле искористити. Нема потврђених случајева успешних напада брзог убацивања вештачке интелигенције, а многи познати покушаји су изведени од стране истраживача без намере да направе штету. Међутим, многи стручњаци за вештачку интелигенцију виде нападе брзог убацивања као један од највећих изазова за сигурну примену вештачке интелигенције.

Осим тога, претња од напада брзог убацивања вештачке интелигенције није прошла непримећено од стране власти. Како преноси Вашингтон Пост, у јулу 2023. Федерална трговинска комисија је истраживала ОпенАИ, тражећи више информација о познатим случајевима напада брзог убацивања. Иако се не зна да су напади успели ван експеримената, то се вероватно може променити.

Хакери константно траже нове методе, а само можемо нагађати како ће се напади брзог убацивања користити у будућности. Можете се заштитити тако што ћете увек примењивати здраву дозу контроле приликом коришћења вештачке интелигенције. Вештачка интелигенција је корисна, али важно је запамтити да имате нешто што вештачка интелигенција нема: људско расуђивање. Пажљиво прегледајте резултате које добијате од алата попут Copilot-а и уживајте у коришћењу АИ алата док се развијају и побољшавају.