Алека, Сири и Гоогле не разумеју реч коју изговорите

Преглед садржаја

Гласовни асистенти, попут Алекса, Гугл Асистента и Сири, значајно су напредовали у последњих неколико година. Међутим, упркос свим унапређењима, један проблем и даље постоји: они не разумеју шта им говорите. Превише су зависни од тачно одређених гласовних команди.

Препознавање говора – само вешт трик

Истини за вољу, гласовни асистенти вас заправо не разумеју. Када комуницирате са Гугл Хоме или Амазон Ехо уређајем, он ваше изговорене речи претвара у текстуални низ, а затим их упоређује са унапред дефинисаним командама. Уколико се пронађе потпуно подударање, систем извршава одређену радњу. У противном, покушава да на основу расположивих података пронађе алтернативно решење. Ако ни то не успе, добићете одговор типа: „Извините, али то не знам.“ Заправо, ради се о обичном трику који ствара илузију разумевања.

Гласовни асистенти не могу да користе контекстуалне информације како би донели најбољу одлуку, нити да користе познавање сродних тема приликом доношења закључака. Није их тешко збунити. На пример, ако питате Алексу: „Да ли радиш за НСА?“, добићете одговор. Али, ако питате: „Да ли си тајни део НСА?“, одговор ће највероватније бити: „Не знам то.“ (бар у време писања овог текста).

Људи, за разлику од њих, заиста разумеју говор. Када питате некога: „Шта је то кларваин на небу? Оно што је заобљено и шарено у облику дуге, са бојама попут црвене, наранџасте, жуте и плаве?“, особа ће, иако је „кларваин“ измишљена реч, из контекста вероватно закључити да говорите о дуги.

Иако се може рећи да човек говор претвара у идеје, он потом користи знање и разумевање како би дошао до одговора. Ако питате човека да ли тајно ради за НСА, он ће вам одговорити са да или не, чак и ако то није истина. Човек никада не би рекао „не знам то“ на такво питање. Способност лагања је резултат правог разумевања.

Гласовни асистенти не могу прећи границе свог програмирања

Гласовни асистенти су ограничени на унапред дефинисане параметре, а свако одступање од њих доводи до прекида процеса. Ова чињеница је највише приметна када се у употребу укључе уређаји других произвођача. Команде за интеракцију са њима су често компликоване, што значи да корисник мора да изговара „наредбу произвођачу уређаја да изврши неку радњу“. Примерак тога је, на пример: „Реци Вирпулу да паузира машину за сушење.“ Још један компликованији пример је Женева Алекса вештина која контролише одређене ГЕ пећнице. Корисник мора да запамти да треба да каже „реци Женеви“, а не „реци ГЕ-у“, пре остатка команде. Иако можете затражити од ње да загреје рерну на 175 степени, не можете тражити да повећа температуру за још 30 степени. Човек би, међутим, могао да разуме и изврши тај захтев.

Амазон и Гугл су уложили велике напоре да превазиђу ове препреке, и то се види. Тамо где сте раније морали да изговорите цео низ команди да бисте контролисали паметну браву, сада можете једноставно рећи „закључај улазна врата“. Алекса је некада била збуњена када бисте је питали „Испричај ми виц о псу“, али данас ће то без проблема урадити. Додали су варијације командама које користите, али и даље морате знати тачну команду да бисте је изговорили. Морате користити исправну синтаксу и правилан редослед речи.

Ако вам се чини да то звучи као командна линија, у праву сте.

Гласовни асистенти су заправо унапређене командне линије

Командна линија је строго дефинисана за извршавање једноставних задатака, али само ако познајете одговарајућу синтаксу. Ако погрешно унесете команду, на пример, укуцате „дир“ уместо „dir“, командна линија ће пријавити грешку. Можете користити псеудониме за лакше памћење команди, али морате знати које су биле оригиналне команде, како функционишу и како ефикасно користити псеудониме. Ако не посветите време учењу командне линије, нећете извући много користи из ње.

Исто је и са гласовним асистентима. Морате знати како да изговорите команду или поставите питање. Такође, морате знати како да подесите групе за Гугл и Алексу, зашто је груписање уређаја неопходно и како да именујете своје паметне уређаје. Ако не следите ове кораке, бићете фрустрирани када од гласовног асистента затражите да искључи лампу у радној соби, а он вас пита „која радна соба треба да се искључи?“.

Чак и када користите исправну синтаксу и правилан редослед, процес може да не успе. Можете добити погрешан одговор или неочекивани резултат. Два Гугл Хоме уређаја у истој кући могу да дају временску прогнозу за мало различите локације, иако користе исте корисничке налоге и интернет везу.

У горњем примеру, дата је команда „Подеси тајмер на пола сата“. Гугл Хоме чвориште је креирало тајмер под називом „Сат“ и затим питало колико дуго тај тајмер треба да траје. Ипак, понављање исте команде три пута је исправно функционисало и креирало је 30-минутни тајмер. Коришћење команде „Подеси тајмер на 30 минута“ ради исправно у већем броју случајева.

Иако комуникација са Гугл Хоме-ом или Ехо-ом може бити флуиднија, гласовни асистенти и командна линија раде на сличан начин. Можда нећете морати да учите нови језик, али свакако морате да научите нови дијалект.

Ограничено разумевање гласовних асистената ће успорити њихов напредак

Ништа од овога не спречава гласовне асистенте попут Гугл Асистента и Алексе да раде прилично добро (мада је Кортана друга прича). Гугл Асистент и Алекса прилично добро претражују питања на интернету, а Гугл, не изненађује, је бољи у претрази и може да одговори на основна питања попут конверзије јединица и једноставних математичких операција. Са правилно подешеним паметним домом и добро обученим корисником, већина команди за паметни дом ће радити како је предвиђено. Али то је резултат рада и труда, а не интелигентног разумевања.

Тајмери и аларми су некада били једноставни. Временом је додата могућност именовања, затим додавања времена тајмеру. Развили су се од једноставних до сложенијих. Гласовни асистенти могу да одговоре на више питања, а сваки дан доноси нове вештине и функције. Али то није резултат природног раста који долази из учења и разумевања.

И ништа од тога не пружа им способност да користе оно што је познато за достизање непознатог. За сваку команду или питање које функционише, увек ће бити три која не раде. Без пробоја у вештачкој интелигенцији која би им омогућила разумевање слично људском, гласовни асистенти нису асистенти у правом смислу те речи. То су само гласовне командне линије – корисне у одређеним ситуацијама, али ограничене на оне ситуације за које су програмирани да разумеју.

Другим речима: машине могу да уче, али не могу да разумеју.