Алекса је увек у стању приправности, али не снима континуирано. Ништа се не преноси на сервере у облаку док се не изговори активациона реч (Алекса, Ехо или Компјутер). Међутим, препознавање ових активационих речи је сложеније него што изгледа.
Ехо уређаји сами по себи нису интелигентни. Без интернет конекције, било који захтев или питање које поставите неће бити обрађено. Разлог томе је што се ваше команде шаљу у облак на анализу и обраду. Амазон не жели да бележи све разговоре који се воде у близини паметног звучника, већ само оне команде које му се упућују. Зато компанија користи активациону реч како би привукла пажњу уређаја. Да би то постигао, Амазон користи комбинацију прецизно подешених микрофона, краткотрајног меморијског бафера и трениране неуронске мреже.
Прецизно подешени микрофони за детекцију гласа
Светло плави ЛЕД ће увек бити усмерен ка извору вашег гласа.
Уређаји са гласовним помоћницима, попут Ехо-а и Ехо Дот-а, обично имају више уграђених микрофона. Ехо Дот, на пример, има их седам. Овај низ микрофона омогућава уређајима да слушају команде изговорене на одређеној удаљености, али и да издвоје гласове од позадинске буке.
Ово друго је посебно важно за препознавање активационих речи. Користећи више микрофона, Ехо може тачно одредити ваш положај у односу на себе и фокусирати се на слушање у том правцу, занемарујући остатак окружења.
Ово можете приметити када год користите активациону реч. Станите са стране Ехо-а или Ехо Дот-а и изговорите реч за буђење. Приметићете да прстен светли тамно плавом бојом, а затим светлијом плавом, кружећи и усмеравајући се ка вама. Сада, померите се неколико корака у страну и поново изговорите активациону реч. Приметићете да светло плава светла прате ваш покрет.
Познавање ваше локације помаже уређају да се боље усредсреди на ваш глас и елиминише звукове из других праваца.
Краткотрајна меморија ради заштите приватности
Ехо уређаји имају одређену меморију, али је не користе превише. Према Рохиту Прасаду, потпредседнику Амазона и главном научнику Алекса вештачке интелигенције, Ехо може сачувати само неколико секунди звука.
Смањивањем капацитета, Амазон не само да вам пружа већу приватност (смањује се број места на којима се чува ваш глас), већ и спречава Ехо да бележи целокупне разговоре, фокусирајући се искључиво на откривање активационе речи.
Замислите траку од три секунде и касетофон. Након што трака дође до краја, поново се враћа на почетак. Ако снимите разговор, све што сте изговорили пре четири секунде биће обрисано и одмах замењено новим снимком. Ехо уређај функционише на сличан начин.
Снима непрекидно, али у исто време брише све што је управо снимљено. Овај кратак распон пажње омогућава му да чује само реч „Алекса“ и ништа много више. Три секунде су, међутим, довољне да се реч сними, анализира и обради.
Неуронска мрежа за препознавање образаца
Приказ слојева које користе Амазонови алгоритми.
Амазон се ослања на тренирање неуронске мреже како би научио Ехо да препозна обрасце. Слично другим облицима машинског учења, Амазон тренира своје алгоритме тако што им даје бројне инстанце речи „Алекса“ (или „Компјутер“, или „Ехо“, у зависности од тога коју активациону реч обучава).
Циљ је обухватити све варијације изговора и акценте, али и контекст. Амазон жели да ваш Ехо препозна разлику када разговарате са њим, када разговарате о њему или, можда, када разговарате са особом по имену Алекса. Усмерени микрофони такође помажу у том процесу.
Са сваком речју коју чује, Ехо прослеђује звук кроз слојеве алгоритама. Сваки слој је осмишљен да елиминише лажне позитивне резултате, тражећи сличне звукове или контекстуалне трагове. Ако реч прође кроз један слој, прелази на следећи. На крају, када уређај закључи да је чуо активациону реч, почиње да снима и шаље аудио на Амазонове сервере у облаку. Амазон користи четири алгоритма: по један за сваку активациону реч (Алекса, Компјутер, Ехо) и један за Алекса Гуард, који специфичне звукове, попут пуцања стакла, третира као активациону реч.
Чак и након што дође до подударања, Амазон спроводи додатне провере. Да ли сте приметили да када неко изговори реч „Алекса“ у ТВ емисији или реклами, ваш Ехо обично не реагује? То је зато што Амазон врши и проверу у облаку.
Провере у облаку елиминишу лажне позитивне резултате
Ова забавна реклама за Алексу неће активирати ваш Ехо.
Када компаније праве рекламе у којима се помиње Алекса, оне могу послати аудио Амазону. Компанија анализира звук користећи сличне алгоритме за препознавање образаца који се користе за идентификацију активационе речи. Након што се та конкретна инстанца у потпуности каталогизује, она се додаје у базу података.
У склопу процеса верификације у облаку, ваш Ехо шаље информације о активационој речи коју је чуо и проверава базу података. Кад год се пронађе подударање, Амазон налаже вашем Ехо-у да игнорише ту активациону реч, искључи се и одбаци снимљени звук.
Поред тога, Амазон проверава да ли је више активационих речи изговорено у исто време. Не шаљу све компаније свој звук Амазону, па је компанија пронашла резервно решење. Након провере базе података, компанија упоређује отисак активационе речи са свим другим случајевима који се дешавају у исто време. Мала је вероватноћа да би две особе које истовремено изговарају реч „Алекса“ звучале потпуно исто, па ако постоји подударање, Амазон препознаје да је реч о реклами или ТВ емисији и игнорише захтев.
Упркос свим овим проверама, лажни позитивни резултати се и даље дешавају. Можете послушати шта је ваш Ехо снимио на Амазоновом центру за приватност, и вероватно ћете пронаћи бар један лажно позитиван резултат. Међутим, технологија се непрестано унапређује и, Амазон тежи ка томе да у будућности уређаји функционишу без активационе речи.