Шта је обрада природног језика и како функционише?

Обрада природног језика омогућава рачунарима да процесирају оно што говоримо у команде које могу да изврше. Сазнајте како то функционише и како се користи за побољшање наших живота.

Шта је обрада природног језика?

Било да је у питању Алека, Сири, Гоогле Ассистант, Бикби или Цортана, свако са паметним телефоном или паметним звучником данас има помоћника који се активира гласом. Чини се да сваке године ови гласовни асистенти постају све бољи у препознавању и извршавању ствари које им кажемо да ураде. Али да ли сте се икада запитали како ови помоћници обрађују ствари које говоримо? Они то успевају захваљујући обради природног језика или НЛП-у.

Историјски гледано, већина софтвера је била у стању да одговори само на фиксни скуп специфичних команди. Датотека ће се отворити јер сте кликнули на Отвори или ће табела израчунати формулу на основу одређених симбола и имена формула. Програм комуницира користећи програмски језик у којем је кодиран, и тако ће произвести излаз када му се да улаз који препознаје. У овом контексту, речи су као скуп различитих механичких полуга које увек дају жељени резултат.

Ово је у супротности са људским језицима, који су сложени, неструктурирани и имају мноштво значења заснованих на структури реченице, тону, акценту, времену, интерпункцији и контексту. Обрада природног језика је грана вештачке интелигенције која покушава да премости тај јаз између онога што машина препознаје као улаз и људског језика. То је тако да када говоримо или куцамо природно, машина производи излаз у складу са оним што смо рекли.

  Шта чека будућност за генеративну вештачку интелигенцију и четботе?

Ово се постиже узимањем огромне количине података да би се извукло значење из различитих елемената људског језика, поврх значења стварних речи. Овај процес је уско повезан са концептом познатим као машинско учење, које омогућава рачунарима да науче више док добијају више тачака података. То је разлог зашто се чини да већина машина за обраду природног језика са којима често комуницирамо постаје све боља.

Да бисмо боље осветлили концепт, хајде да погледамо две технике највишег нивоа које се користе у НЛП-у за обраду језика и информација.

Токенизација

Токенизација значи раздвајање говора на речи или реченице. Сваки део текста је жетон, а ти токени се појављују када се ваш говор обради. Звучи једноставно, али у пракси је то тежак процес.

Рецимо да користите софтвер за претварање текста у говор, као што је Гоогле тастатура, да бисте послали поруку пријатељу. Желите да пошаљете поруку „Нађимо се у парку“. Када ваш телефон узме тај снимак и обради га путем Гоогле-овог алгоритма за претварање текста у говор, Гоогле мора да подели оно што сте управо рекли у токене. Ови токени би били „меет“, „ме“, „ат“, „тхе“ и „парк“.

Људи имају различите дужине пауза између речи, а други језици можда немају баш мало начина чујне паузе између речи. Процес токенизације драстично варира између језика и дијалеката.

Стемминг и лематизација

И стемминг и лематизација укључују процес уклањање додатака или варијација на корен речи коју машина може да препозна. Ово је урађено да би се интерпретација говора учинила конзистентном у различитим речима које све значе у суштини исту ствар, што чини НЛП обраду бржом.

  Хостујте више домена на једном серверу или ИП-у помоћу Апацхе-а или Нгинк-а

Утврђивање корена је груб и брз процес који укључује уклањање афикса из коренске речи, који су додаци речи приложене испред или после корена. Ово претвара реч у најједноставнији основни облик једноставним уклањањем слова. На пример:

„Ходање“ се претвара у „шетњу“
„Брже“ се претвара у „брзо“
„Озбиљност“ се претвара у „север“

Као што можете да видите, настанак корена може имати негативан ефекат у потпуности променити значење речи. „Озбиљност“ и „север“ не значе исто, али је суфикс „ити“ уклоњен у процесу настанка корена.

С друге стране, лематизација је софистициранији процес који укључује свођење речи на њихову основу, познату као лема. Ово узима у обзир контекст речи и начин на који се користи у реченици. Такође укључује тражење термина у бази података речи и њихове одговарајуће леме. На пример:

„Јесу“ се претвара у „бити“
„Операција“ се претвара у „Операција“
„Озбиљност“ се претвара у „озбиљна“

У овом примеру, лематизација је успела да термин „озбиљност“ претвори у „тешко“, што је његов облик леме и корен речи.

НЛП случајеви употребе и будућност

Претходни примери само почињу да загребају површину онога што је обрада природног језика. Обухвата широк спектар пракси и сценарија употребе, од којих многе користимо у свакодневном животу. Ово је неколико примера где се НЛП тренутно користи:

Предиктивни текст: Када откуцате поруку на паметном телефону, он вам аутоматски предлаже речи које се уклапају у реченицу или које сте раније користили.
Машинско превођење: Широко коришћене услуге превођења за потрошаче, као што је Гоогле преводилац, за укључивање облика НЛП-а високог нивоа за обраду језика и његово превођење.
Цхатботс: НЛП је основа за интелигентне цхат ботове, посебно у корисничкој служби, где они могу помоћи клијентима и обрадити њихове захтеве пре него што се суоче са стварном особом.

  Како додати прилагођене мелодије звона на иПхоне са мацОС Цаталина

Има још тога. Употреба НЛП-а се тренутно развија и примењује у областима као што су медији, медицинска технологија, управљање радним местом и финансије. Постоји шанса да ћемо у будућности моћи да водимо потпуно софистицирани разговор са роботом.

Ако сте заинтересовани да сазнате више о НЛП-у, постоји много фантастичних ресурса Блог Товардс Дата Сциенце или Група за обраду националног језика Стандфорда које можете проверити.