Како Алека слуша будне речи

Алека увек слуша, али не непрекидно снима. Не шаље ништа серверима у облаку док не чује да изговорите реч за буђење (Алека, Ецхо или Цомпутер). Али слушање будних речи је теже него што мислите.

Ехо хардвер није баш толико интелигентан. Без интернета, сваки захтев или питање које поставите неће успети. То је зато што се ваше команде шаљу у облак на тумачење и одлуке. Амазон не жели да се снима сваки разговор који водите испред паметног звучника, већ само команде које дајете паметном звучнику. Из тог разлога, компанија користи будну реч како би привукла пажњу паметног звучника. Да би то постигао, Амазон користи комбинацију фино подешених микрофона, кратког меморијског бафера и тренинга неуронске мреже.

Фино подешени микрофони одређују ваш глас

Светлоплави ЛЕД ће увек бити окренут у правцу вашег гласа.

Звучници гласовног помоћника, као што су Ецхо и Ецхо Дот, обично имају више уграђених микрофона. Ецхо Дот, на пример, има седам. Тај низ даје уређајима неколико могућности, од слушања команди изговорених на даљину, до одвајања позадинске буке од гласова.

Ово последње је посебно корисно за детекцију будних речи. Користећи више микрофона, Ецхо може прецизно одредити вашу локацију у односу на то где седи и слушати у том правцу, игноришући остатак собе.

  11 иПхоне апликација које ће вам помоћи да затворите своју активност свакодневно звони

Ово видите на делу кад год користите реч за буђење. Станите са стране Ецхо или Ецхо Дот и изговорите реч за буђење. Приметите да прстен светли тамноплавом, а затим светлијо плавом бојом док кружи и „усмерава“ према вама. Сада, померите се неколико корака у страну и још једном изговорите реч буђења. Приметите да вас прате светлоплава светла.

Знање где се налазите помаже уређају да се боље фокусира на вас и искључите звукове који долазе са других места.

Кратка меморија спречава да звучник држи превише

Ехо уређаји имају доста простора за складиштење, али га не користе много. Према Рохиту Прасаду, потпредседнику Амазона и главном научнику Алека вештачке интелигенције, Ецхо може физички да ускладишти само неколико секунди звука.

Смањењем својих могућности, Амазон не само да вам даје већу приватност (то је једно место мање на коме се чува ваш глас), већ и спречава Ецхо да слуша читаве разговоре, ограничавајући његов фокус на проналажење будне речи.

Замислите да имате касету од три секунде и касетофон. Претпоставимо да се, након што је стигла до краја, трака изнова и изнова враћала на почетак. Ако почнете да снимате разговор, све што сте рекли пре четири секунде би било обрисано и одмах снимљено. То ради Амазон Ецхо.

Снима непрекидно, али истовремено брише све што је управо снимио. Тај кратак распон пажње значи да све што може да чује је реч „Алекса“ и не много више. Три секунде су, међутим, довољно дуго да се та реч сними, испита и поступи на одговарајући начин.

  Како да поправите „Ова радња се не може завршити јер је датотека отворена“

Обука неуронске мреже помаже у усклађивању узорака

Репрезентација слојева које користе Амазонови алгоритми.

Коначно, Амазон зависи од обука неуронске мреже да научи Ехо како да се подудара са шаблоном. Слично као и други облици машинског учења, Амазон тренира своје алгоритме тако што им даје инстанцу за инстанцом речи Алека (или Цомпутер, или Ецхо, у зависности од тога коју будну реч компанија обучава).

Идеја је да се покрије свака флексија и акценат, али и контекст. Амазон жели да ваш Ецхо препозна разлику када разговарате са њим, када причате о томе или, можда, када разговарате са особом по имену Алека. Усмерени микрофони такође помажу у том циљу.

Са сваком речју коју Ехо чује, покреће звук кроз слојеве алгоритама. Сваки слој је дизајниран да искључи лажне позитивне резултате, тражећи сличне звукове или трагове контекста. Ако прође провера једног слоја, реч прелази на следећи. Коначно, када локални уређај одлучи да је чуо реч за буђење, почиње да снима и преноси аудио на Амазонове сервере у облаку. Амазон користи четири алгоритма: по један за сваку будну реч (Алека, Цомпутер, Ецхо) и један за Алека Гуард, који третира специфичне звукове, као што је пуцање стакла, као реч за буђење.

Али чак и када дође до подударања, Амазон и даље спроводи компликованије провере. Да ли сте приметили да када неко изговори реч Алека у ТВ емисији или реклами, то обично не изазове одговор од вашег Еха? То је зато што Амазон такође врши проверу облака.

Провере у облаку искључују неке лажне позитивне резултате

Ово урнебесна реклама за Алека неће пробудити твој Ехо.

  10 најбољих шаблона за повељу пројекта за несметан почетак вашег пројекта

Када компаније праве рекламе које садрже Алека, то могу пошаљите аудио на Амазон. Компанија покреће звук кроз сличне алгоритме за подударање шаблона који се користе за идентификацију будне речи. Када се та тачна инстанца у потпуности каталогизира, додаје се у базу података.

Као део процеса када дође до облака, ваш Ецхо укључује информације о речи за буђење коју је чуо и проверава ту базу података. Кад год пронађе подударање, Амазон налаже вашем Ецхо-у да игнорише реч за буђење, искључи се и одбаци сваки снимљени звук.

Поред тога, Амазон проверава да ли се истовремено изговорена реч буђења. Не шаље свака компанија звук Амазону, па је компанија смислила ново решење за резервну копију. Након провере подударања базе података, компанија упоређује отисак будне речи са свим другим случајевима који долазе у исто време. Мало је вероватно да би две особе које истовремено кажу Алека звучале потпуно исто, па ако постоји подударање, Амазон зна да је вероватно реклама или ТВ емисија и игнорише захтев.

Упркос свим проверама, и даље се јављају лажни позитивни резултати. Можете слушати шта је ваш Ецхо снимио Амазонов центар за приватност, и вероватно ћете наћи најмање један лажно позитиван у гомили. Али технологија се стално побољшава и, на крају, Амазон би желео да функционише без будне речи.