Шта је напад брзе ињекције АИ и како функционише?

Кључне Такеаваис

  • Напади брзе ињекције вештачке интелигенције манипулишу АИ моделима да би генерисали злонамерни излаз, што потенцијално доводи до пхисхинг напада.
  • Напади брзе ињекције се могу изводити путем ДАН (Уради било шта одмах) напада и индиректних напада убризгавањем, повећавајући капацитет АИ за злоупотребу.
  • Индиректни напади брзе ињекције представљају највећи ризик за кориснике, јер могу да манипулишу одговорима добијеним од поузданих АИ модела.

Напади брзе ињекције АИ трују излаз АИ алата на које се ослањате, мењајући и манипулишући његовим излазом у нешто злонамерно. Али како функционише напад брзе ињекције вештачке интелигенције и како се можете заштитити?

Шта је напад брзе ињекције АИ?

Напади брзе ињекције вештачке интелигенције користе предности рањивости генеративних АИ модела да би манипулисали њиховим излазом. Можете их изводити ви или их убризгати спољни корисник путем индиректног напада брзе ињекције. ДАН (Уради било шта одмах) напади не представљају никакав ризик за вас, крајњег корисника, али други напади су теоретски способни да отрују излаз који добијате од генеративне АИ.

На пример, неко би могао да манипулише АИ тако да вас упути да унесете своје корисничко име и лозинку у нелегитимном облику, користећи ауторитет и поузданост вештачке интелигенције да би напад пхисхинг успео. Теоретски, аутономна вештачка интелигенција (као што је читање и одговарање на поруке) такође може да прима нежељена спољна упутства и делује по њима.

Како функционишу напади брзе ињекције?

Напади брзе ињекције функционишу тако што дају додатна упутства АИ без пристанка или знања корисника. Хакери то могу постићи на неколико начина, укључујући ДАН нападе и индиректне нападе брзе ињекције.

ДАН (Уради било шта одмах) Напада

ДАН (Уради било шта одмах) напади су врста напада брзе ињекције који укључују генеративне АИ моделе као што је ЦхатГПТ. Ови напади бекства из затвора не представљају ризик за вас као крајњег корисника — али проширују капацитет вештачке интелигенције, омогућавајући јој да постане оруђе за злоупотребу.

На пример, истраживач безбедности Алејандро Видал користио ДАН промпт да би ОпенАИ-јев ГПТ-4 генерисао Питхон код за кеилоггер. Ако се користи злонамерно, јаилбреак АИ значајно смањује баријере засноване на вештинама које су повезане са сајбер криминалом и може омогућити новим хакерима да изврше софистицираније нападе.

Напади тровања података за обуку

Напади тровања података о обуци не могу се тачно категорисати као напади брзог убризгавања, али имају изузетне сличности у смислу начина на који раде и које ризике представљају за кориснике. За разлику од напада са брзим убризгавањем, напади тровања података о обуци су врста супротстављеног напада машинског учења који се дешава када хакер модификује податке о обуци које користи АИ модел. Исти резултат се дешава: затрован излаз и измењено понашање.

Потенцијалне примене напада тровања података за обуку су практично неограничене. На пример, вештачка интелигенција која се користи за филтрирање покушаја крађе идентитета са платформе за ћаскање или е-пошту би теоретски могла да промени своје податке о обуци. Ако би хакери научили модератора АИ да су одређене врсте покушаја пхисхинга прихватљиве, могли би да шаљу пхисхинг поруке, а да притом остану неоткривени.

Напади тровања података за обуку не могу вам директно нашкодити, али могу учинити могућим друге претње. Ако желите да се заштитите од ових напада, запамтите да вештачка интелигенција није сигурна и да би требало да пажљиво прегледате све на шта наиђете на мрежи.

Индиректни напади брзе ињекције

Индиректни напади брзе ињекције су тип напада брзе ињекције који представља највећи ризик за вас, крајњег корисника. Ови напади се дешавају када се злонамерне инструкције уносе генеративној вештачкој интелигенцији од спољног ресурса, као што је АПИ позив, пре него што добијете жељени унос.

грексхаке/ГитХуб

Рад под насловом Компромитовање апликација интегрисаних у ЛЛМ у стварном свету са индиректним брзим убацивањем на арКсив [PDF] демонстрирао је теоретски напад у којем се АИ може упутити да убеди корисника да се пријави на веб локацију за крађу идентитета у оквиру одговора, користећи скривени текст (невидљив људском оку, али савршено читљив моделу вештачке интелигенције) да би тајно убризгао информације. Још један напад истог истраживачког тима документован на ГитХуб је показао напад у којем је Цопилот (раније Бинг Цхат) направљен да убеди корисника да је то агент подршке уживо који тражи информације о кредитној картици.

Напади индиректног брзог убризгавања су претећи јер би могли да манипулишу одговорима које добијете од поузданог АИ модела – али то није једина претња коју они представљају. Као што је раније поменуто, они такође могу изазвати било коју аутономну вештачку интелигенцију коју можете да користите да делује на неочекиване – и потенцијално штетне – начине.

Да ли су напади брзе ињекције вештачке интелигенције претња?

Напади брзе ињекције вештачке интелигенције представљају претњу, али није тачно познато како би се ове рањивости могле искористити. Не постоје познати успешни напади брзе ињекције вештачке интелигенције, а многе од познатих покушаја извели су истраживачи који нису имали никакву стварну намеру да нанесу штету. Међутим, многи истраживачи вештачке интелигенције сматрају нападе брзе ињекције вештачке интелигенције једним од најзастрашујућих изазова за безбедну примену АИ.

Штавише, претња од напада брзе ињекције вештачке интелигенције није прошла непримећено од стране власти. Према Вашингтон пост, у јулу 2023. године, Федерална комисија за трговину истражила је ОпенАИ, тражећи више информација о познатим појавама напада брзим убризгавањем. Није познато да су напади успели осим експеримената, али то ће се вероватно променити.

Хакери стално траже нове медије, а можемо само да нагађамо како ће хакери користити брзе нападе убризгавањем у будућности. Можете се заштитити тако што ћете увек примењивати здраву количину контроле на АИ. У томе су модели вештачке интелигенције невероватно корисни, али важно је запамтити да имате нешто што вештачка интелигенција нема: људско расуђивање. Запамтите да би требало пажљиво да проучите резултате које добијате од алата као што је Цопилот и уживајте у коришћењу АИ алата док се развијају и побољшавају.