Алека, Сири и Гоогле не разумеју реч коју изговорите

Гласовни асистенти као што су Алека, Гоогле Ассистант и Сири су прешли дуг пут у последњих неколико година. Али, упркос свим њиховим побољшањима, једна ствар их спутава: они вас не разумеју. Превише се ослањају на специфичне гласовне команде.

Преглед садржаја

Препознавање говора је само магични трик

Гласовни асистенти вас не разумеју. Не баш, у сваком случају. Када разговарате са Гоогле Хоме или Амазон Ецхо, он у суштини претвара ваше речи у текстуални низ, а затим их упоређује са очекиваним командама. Ако пронађе тачно подударање, онда следи скуп упутстава. Ако не, тражи алтернативу шта да уради на основу информација које има, а ако то не успе, добићете поруку о неуспеху као што је „Жао ми је, али не знам то .” То је мало више од магије руке да вас наведе да мислите да разуме.

Не може да користи контекстуалне назнаке да би направио најбољу претпоставку, или чак да користи разумевање сличних тема за информисање о својим одлукама. Није тешко саплести ни гласовне асистенте. Док можете питати Алека „Да ли радите за НСА?“ и добићете одговор ако питате „Да ли сте тајно део НСА?“ добићете одговор „не знам тај“ (барем у време писања овог текста).

Људи, који искрено разумеју говор, не раде овако. Претпоставимо да питате човека: „Шта је то кларваин на небу? Онај који је лучно заобљен и пун пругастих боја попут црвене, наранџасте, жуте и плаве.” Упркос томе што је кларваин измишљена реч, особа коју сте питали би вероватно могла да схвати из контекста да описујете дугу.

Шта је економија свирка и зашто је толико контроверзна?

Иако бисте могли да тврдите да човек претвара говор у идеје, човек онда може применити знање и разумевање да закључи одговор. Ако питате човека да ли тајно раде за НСА, они ће вам дати да или не, чак и ако је тај одговор лаж. Човек не би рекао „не познајем то“ на такво питање. Да људи могу да лажу је нешто што долази са правим разумевањем.

Гласовни асистенти не могу ићи даље од свог програмирања

Гласовни асистенти су на крају ограничени на програмиране очекиване параметре, а лутање изван њих ће прекинути процес. Та чињеница показује када уређаји трећих страна уђу у игру. Обично је команда за интеракцију са њима веома незграпна, што значи да „режите произвођачу уређаја да нареди опциони аргумент“. Тачан пример би био: „Реците Вхирлпоолу да паузира машину за сушење.“ За још теже памтљив пример, Женева Алека вештина контролише неке ГЕ пећнице. Корисник вештине треба да запамти да „каже Женеви“, а не „каже ГЕ-у“, него остатку команде. И док од њега можете тражити да рерну загреје на 350 степени, не можете да следите захтев да повећате температуру за још 50 степени. Човек би ипак могао да следи ове захтеве.

Амазон и Гоогле су веома напорно радили да превазиђу ове препреке, и то се види. Тамо где сте некада морали да пратите горњи редослед да бисте контролисали паметну браву, сада уместо тога можете рећи „закључајте улазна врата“. Алека је некада била збуњена „испричај ми виц о псу“, али тражи га данас и успеће. Додали су варијације командама које користите, али на крају ипак морате да знате праву команду да изговорите. Морате да користите исправну синтаксу, у исправном редоследу.

ОпенАИ, Гоогле, Мицрософт и Антхропиц сарађују на регулисању развоја вештачке интелигенције

А ако мислите да то звучи много као командна линија, нисте у праву.

Гласовни помоћници су фенси командна линија

Командна линија је уско дефинисана за обављање једноставних задатака, али само ако знате одговарајућу синтаксу. Ако исклизнете из те исправне синтаксе и откуцате дир уместо дир, онда ће вам командна линија дати поруку о грешци. Можете користити псеудониме за лакше памћење команди, али морате имати представу о томе шта су биле оригиналне команде, како функционишу и како ефикасно користити псеудониме. Ако не одвојите време да научите шта се дешава у командној линији, никада нећете добити много од тога.

Гласовни асистенти се не разликују. Морате знати како да изговорите команду или поставите питање. И морате да знате како да подесите групе за Гоогле и Алека, зашто је груписање ваших уређаја неопходно и како да именујете своје паметне уређаје. Ако не следите ове неопходне кораке, осетићете фрустрацију када тражите од свог гласовног асистента да искључи студију само да бисте добили питање „коју студију“ треба искључити.

Чак и када користите исправну синтаксу у правом редоследу, процес може пропасти. Или са погрешним одговором или изненађујућим резултатом. Два Гоогле дома у истој кући могу дати временску прогнозу за мало различите локације иако имају приступ истим подацима о корисничком налогу и интернет конекцији.

У горњем примеру је дата команда „Подеси тајмер на пола сата“. Гоогле Хоме чвориште је направило тајмер под називом „Сат“, а затим је питало колико дуго тајмер треба да буде. Па ипак понављање исте команде три друга пута је исправно функционисало и створило је 30-минутни тајмер. Коришћење команде „Подеси тајмер на 30 минута“ ради исправно на конзистентнијој основи.

Како да сачувате или уклоните лозинку за Аппле ИД за бесплатне куповине [macOS]

Док разговор са Гоогле Хоме-ом или Ецхо-ом може бити течнији, гласовни асистенти испод хаубе и командне линије раде на исти начин. Можда нећете морати да учите нови језик, али морате да научите нови дијалект.

Уско разумевање гласовних асистената ће ограничити раст

Ништа од овога не спречава гласовне асистенте као што су Гоогле Ассистант и Алека да раде довољно добро (иако је Цортана друга прича). Гоогле Ассистант и Алека и пристојно претражују питања на мрежи, иако није изненађујуће да је Гоогле бољи у претрази и може да одговори на основна питања као што су конверзије мерења и једноставна математика. Са правилно подешеним паметним домом и добро обученим корисником, већина команди за паметни дом ће радити како је предвиђено. Али то је дошло радом и трудом, а не интелектуалним разумевањем.

Тајмери и аларми су некада били једноставни. Временом је додато именовање, затим могућност додавања времена тајмеру. Прешли су са поједностављеног на сложеније. Гласовни асистенти могу да одговоре на више питања, а сваки дан доноси нове вештине и функције. Али то није производ саморастања који долази од учења и разумевања.

И ништа од тога не пружа инхерентну способност да се користи оно што је познато за достизање непознатог. За сваку команду и питање које функционишу, увек ће бити три које не раде. Без продора у вештачкој интелигенцији која даје способност разумевања сличну људима, гласовни асистенти уопште нису асистенти. То су само гласовне командне линије — корисне у правом сценарију, али ограничене на оне сценарије за које су програмирани да разумеју.

Другим речима: машине уче ствари, али не могу да их разумеју.