Ансамбл учење објашњено најједноставнијим могућим терминима

Учење ансамбла може вам помоћи да донесете боље одлуке и решите многе изазове из стварног живота комбиновањем одлука из неколико модела.

Машинско учење (МЛ) наставља да шири своја крила у више сектора и индустрија, било да се ради о финансијама, медицини, развоју апликација или безбедности.

Правилна обука МЛ модела помоћи ће вам да постигнете већи успех у свом послу или послу, а постоје различите методе да то постигнете.

У овом чланку ћу говорити о учењу ансамбла, његовој важности, случајевима употребе и техникама.

Будите у току!

Преглед садржаја

Шта је ансамбл учење?

У машинском учењу и статистици, „ансамбл“ се односи на методе које генеришу различите хипотезе уз коришћење заједничког основног ученика.

А ансамбл учење је приступ машинском учењу где се вишеструки модели (попут стручњака или класификатора) стратешки креирају и комбинују са циљем решавања рачунарског проблема или прављења бољих предвиђања.

Овај приступ настоји да побољша предвиђање, апроксимацију функције, класификацију, итд., перформансе датог модела. Такође се користи да елиминише могућност да од многих изаберете лош или мање вредан модел. Да би се постигле побољшане предиктивне перформансе, користи се неколико алгоритама учења.

Важност ансамбл учења у МЛ

У моделима машинског учења постоје неки извори као што су пристрасност, варијанса и шум који могу изазвати грешке. Учење ансамбла може помоћи у смањењу ових извора који изазивају грешке и обезбедити стабилност и тачност ваших алгоритама МЛ.

Ево зашто се ансамбл учење користи у различитим сценаријима:

Избор правог класификатора

Учење ансамбла вам помаже да одаберете бољи модел или класификатор док истовремено смањујете ризик који може настати услед лошег избора модела.

Постоје различити типови класификатора који се користе за различите проблеме, као што су машине за векторе подршке (СВМ), вишеслојни перцептрон (МЛП), наивни Бајесови класификатори, стабла одлучивања, итд. Поред тога, постоје различите реализације класификационих алгоритама које треба да изаберете . Учинак различитих података о обуци такође може бити различит.

Али уместо да изаберете само један модел, ако користите ансамбл свих ових модела и комбинујете њихове појединачне резултате, можда ћете избећи избор лошијих модела.

Обим података

Многе МЛ методе и модели нису толико ефикасни у својим резултатима ако им дајете неадекватне податке или велику количину података.

С друге стране, ансамбл учење може да функционише у оба сценарија, чак и ако је обим података премали или превелик.

Ако постоје неадекватни подаци, можете користити боотстраппинг да бисте обучили различите класификаторе уз помоћ различитих узорака података за покретање.
Ако постоји велики обим података који може да изазове обуку једног класификатора, онда се подаци могу стратешки поделити на мање подскупове.

Сложеност

Један класификатор можда неће моћи да реши неке веома сложене проблеме. Њихове границе одлучивања које раздвајају податке различитих класа могу бити веома сложене. Дакле, ако примените линеарни класификатор на нелинеарну, сложену границу, он неће моћи да је научи.

Како пронаћи ВордПресс тему коју веб локација користи

Међутим, након правилног комбиновања ансамбла одговарајућих, линеарних класификатора, можете га натерати да научи дату нелинеарну границу. Класификатор ће поделити податке на много лаких за учење и мањих партиција, а сваки класификатор ће научити само једну једноставнију партицију. Затим ће се комбиновати различити класификатори да би се добило прибл. граница одлуке.

Процена поверења

У ансамблном учењу, гласање о поверењу се додељује одлуци коју је донео систем. Претпоставимо да имате скуп различитих класификатора обучених за дати проблем. Ако се већина класификатора слаже са донетом одлуком, њен исход се може сматрати збиром одлуке са високим поверењем.

С друге стране, ако се половина класификатора не слаже са донетом одлуком, каже се да је то ансамбл са одлуком ниског поверења.

Међутим, ниско или високо поверење није увек исправна одлука. Али постоји велика шанса да ће одлука са високим поверењем бити исправна ако је ансамбл правилно обучен.

Прецизност са фузијом података

Подаци прикупљени из више извора, када се комбинују стратешки, могу побољшати тачност одлука о класификацији. Ова тачност је већа од оне направљене уз помоћ једног извора података.

Како функционише ансамбл учење?

Учење ансамбла узима више функција мапирања које су научили различити класификатори, а затим их комбинује да би се створила једна функција мапирања.

Ево примера како функционише ансамбл учење.

Пример: Правите апликацију засновану на храни за крајње кориснике. Да бисте понудили висококвалитетно корисничко искуство, желите да прикупите њихове повратне информације у вези са проблемима са којима се суочавају, истакнутим рупама у закону, грешкама, грешкама итд.

За ово можете да питате за мишљење своје породице, пријатеља, сарадника и других људи са којима често комуницирате о њиховом избору хране и њиховом искуству наручивања хране на мрежи. Такође можете да објавите своју апликацију у бета верзији да бисте прикупили повратне информације у реалном времену без пристрасности или буке.

Дакле, оно што заправо радите овде је разматрање више идеја и мишљења различитих људи како бисте побољшали корисничко искуство.

Ансамбл учење и његови модели раде на сличан начин. Користи скуп модела и комбинује их да би произвео коначни резултат за побољшање тачности и перформанси предвиђања.

Основне технике ансамбла учења

#1. Моде

„Режим“ је вредност која се појављује у скупу података. У збирном учењу, МЛ професионалци користе више модела за креирање предвиђања о свакој тачки података. Ова предвиђања се сматрају појединачним гласовима, а предвиђање које је направила већина модела сматра се коначним предвиђањем. Углавном се користи у проблемима класификације.

Пример: Четири особе су вашу апликацију оцениле 4, док је једна од њих оценила 3, онда би режим био 4 пошто је већина гласала 4.

#2. Просек/средња вредност

Користећи ову технику, професионалци узимају у обзир сва предвиђања модела и израчунавају свој просек да би дошли до коначног предвиђања. Углавном се користи у прављењу предвиђања за проблеме регресије, израчунавању вероватноћа у проблемима класификације и још много тога.

Пример: У горњем примеру, где су четири особе оцениле вашу апликацију 4, док је једна особа оценила 3, просек би био (4+4+4+4+3)/5=3,8

#3. Пондерисана

У овој методи учења ансамбла, професионалци додељују различите тежине различитим моделима за прављење предвиђања. Овде додељена тежина описује релевантност сваког модела.

Пример: Претпоставимо да је 5 особа дало повратне информације о вашој пријави. Од њих 3 су програмери апликација, док 2 немају искуства у развоју апликација. Дакле, повратним информацијама те 3 особе ће бити дата већа тежина од осталих 2.

Напредне технике учења ансамбла

#1. Паковање

Баггинг (Боотстрап АГГрегатИНГ) је веома интуитивна и једноставна техника учења ансамбла са добрим перформансама. Као што име каже, направљен је комбиновањем два термина „Боотстрап“ и „агрегација“.

10 различитих типова ДДоС напада и како их спречити

Боотстраппинг је још један метод узорковања где ћете морати да креирате подскупове неколико запажања узетих из оригиналног скупа података са заменом. Овде ће величина подскупа бити иста као и оригиналног скупа података.

Извор: Баги програмер

Дакле, у паковању, подскупови или торбе се користе за разумевање дистрибуције комплетног сета. Међутим, подскупови могу бити мањи од оригиналног скупа података у врећама. Овај метод укључује један алгоритам МЛ. Циљ комбиновања резултата различитих модела је да се добије генерализовани исход.

Ево како паковање функционише:

Неколико подскупова се генерише из оригиналног скупа и запажања се бирају са заменама. Подскупови се користе у обуци модела или стабала одлучивања.
За сваки подскуп креира се слаб или основни модел. Модели ће бити независни један од другог и радити паралелно.
Коначно предвиђање ће бити направљено комбиновањем сваког предвиђања из сваког модела користећи статистику као што су просечне вредности, гласање итд.

Популарни алгоритми који се користе у овој техници ансамбла су:

Случајна шума
Стабла одлука у врећама

Предност ове методе је што помаже да се грешке варијансе сведу на минимум у стаблима одлучивања.

#2. Слагање

Извор слике: ОпенГенус ИК

У слагању или наслаганој генерализацији, предвиђања из различитих модела, попут стабла одлучивања, се користе за креирање новог модела за предвиђање на овом скупу тестова.

Слагање укључује креирање подскупова података за покретање модела за обуку, слично складиштењу. Али овде се излаз модела узима као улаз који се шаље другом класификатору, познатом као мета-класификатор за коначно предвиђање узорака.

Разлог зашто се користе два слоја класификатора је да се утврди да ли су скупови података за обуку научени на одговарајући начин. Иако је двослојни приступ уобичајен, може се користити и више слојева.

На пример, можете користити 3-5 модела у првом слоју или нивоу-1 и један модел у слоју 2 или нивоу 2. Потоњи ће комбиновати предвиђања добијена на нивоу 1 да би се направило коначно предвиђање.

Штавише, можете користити било који модел учења МЛ за агрегирање предвиђања; линеарни модел као што је линеарна регресија, логистичка регресија, итд., је уобичајен.

Популарни МЛ алгоритми који се користе у слагању су:

Блендинг
Супер ансамбл
Наслагани модели

Напомена: Мешање користи сет валидације или задржавања из скупа података за обуку за прављење предвиђања. За разлику од слагања, мешање укључује предвиђања која се праве само на основу задржавања.

#3. Боостинг

Појачавање је итеративни метод учења ансамбла који прилагођава тежину одређеног посматрања у зависности од његове последње или претходне класификације. То значи да сваки следећи модел има за циљ да исправи грешке пронађене у претходном моделу.

Ако посматрање није правилно класификовано, онда појачавање повећава тежину посматрања.

У појачавању, професионалци обучавају први алгоритам за појачавање на комплетном скупу података. Затим граде следеће алгоритме МЛ користећи остатке извучене из претходног алгоритма за појачавање. Дакле, већа тежина се даје нетачним запажањима предвиђеним претходним моделом.

Ево како то функционише корак по корак:

Подскуп ће бити генерисан из оригиналног скупа података. Свака тачка података ће у почетку имати исте тежине.
Креирање основног модела се одвија на подскупу.
Предвиђање ће бити направљено на основу комплетног скупа података.
Користећи стварне и предвиђене вредности, грешке ће бити израчунате.
Нетачно предвиђеним запажањима ће се дати већа тежина
Нови модел ће бити креиран и коначно предвиђање ће бити направљено на овом скупу података, док модел покушава да исправи раније направљене грешке. Више модела ће бити креирано на сличан начин, сваки исправљајући претходне грешке
Коначно предвиђање ће бити направљено на основу коначног модела, који је пондерисана средња вредност свих модела.

Како ажурирати Вуду начин плаћања

Популарни алгоритми за појачавање су:

ЦатБоост
Лигхт ГБМ
АдаБоост

Предност повећања је у томе што генерише супериорна предвиђања и смањује грешке због пристрасности.

Друге технике ансамбла

Мешавина стручњака: користи се за обуку вишеструких класификатора, а њихови резултати су ансамбл са општим линеарним правилом. Овде су тежине дате комбинацијама одређене моделом који се може обучити.

Већинско гласање: укључује избор непарног класификатора, а предвиђања се израчунавају за сваки узорак. Класа која добије максималну класу из групе класификатора биће предвиђена класа ансамбла. Користи се за решавање проблема као што је бинарна класификација.

Максимално правило: користи дистрибуцију вероватноће сваког класификатора и користи самопоуздање у прављењу предвиђања. Користи се за вишекласне проблеме класификације.

Стварни случајеви употребе ансамбл учења

#1. Детекција лица и емоција

Енсембле учење користи технике као што је анализа независних компоненти (ИЦА) за обављање детекције лица.

Штавише, ансамбл учење се користи за откривање емоција особе кроз детекцију говора. Поред тога, његове могућности помажу корисницима да детектују емоције на лицу.

#2. Безбедност

Откривање превара: Учење ансамбла помаже да се побољша моћ моделирања нормалног понашања. Због тога се сматра да је ефикасан у откривању лажних активности, на пример, у системима кредитних картица и банкарских система, телекомуникационим преварама, прању новца итд.

ДДоС: Дистрибуирано ускраћивање услуге (ДДоС) је смртоносни напад на ИСП. Класификатори ансамбла могу да смање детекцију грешака и такође разликују нападе од правог саобраћаја.

Детекција упада: Учење ансамбла се може користити у системима за праћење као што су алати за откривање упада за откривање кодова уљеза праћењем мрежа или система, проналажењем аномалија и тако даље.

Откривање злонамерног софтвера: Енсембле учење је прилично ефикасно у откривању и класификовању кода злонамерног софтвера као што су рачунарски вируси и црви, рансомваре, тројански коњи, шпијунски софтвер итд. коришћењем техника машинског учења.

#3. Инкрементално учење

У инкременталном учењу, МЛ алгоритам учи из новог скупа података док задржава претходна учења, али без приступа претходним подацима које је видео. Системи ансамбла се користе у инкременталном учењу тако што га чине да учи додатни класификатор на сваком скупу података чим постане доступан.

#4. Лек

Ансамбл класификатори су корисни у области медицинске дијагнозе, као што је откривање неуро-когнитивних поремећаја (као што је Алцхајмерова болест). Он врши детекцију узимајући МРИ скупове података као улазне податке и класификујући цитологију грлића материце. Осим тога, примењује се у протеомици (проучавање протеина), неуронауци и другим областима.

#5. Ремоте Сенсинг

Откривање промена: Класификатори ансамбла се користе за откривање промена помоћу метода као што су Бајесов просек и већинско гласање.

Мапирање земљишног покривача: Методе учења ансамбла као што су појачавање, стабла одлучивања, анализа главних компоненти језгра (КПЦА) итд. се користе за ефикасно откривање и мапирање земљишног покривача.

#6. финансије

Тачност је критичан аспект финансија, било да се ради о прорачунима или предвиђањима. То веома утиче на резултате одлука које доносите. Они такође могу анализирати промене у подацима берзанског тржишта, открити манипулацију ценама акција и још много тога.

Додатни ресурси за учење

#1. Ансамбл методе за машинско учење

Ова књига ће вам помоћи да научите и примените важне методе ансамбл учења од нуле.

#2. Методе ансамбла: основе и алгоритми

Ова књига садржи основе ансамбл учења и његове алгоритме. Такође описује како се користи у стварном свету.

#3. Енсембле Леарнинг

Нуди увод у метод уједињеног ансамбла, изазове, апликације итд.

#4. Енсембле Мацхине Леарнинг: Методе и примене:

Пружа широку покривеност напредним техникама учења ансамбла.

Закључак

Надам се да сада имате неку идеју о учењу ансамбла, његовим методама, случајевима употребе и зашто његово коришћење може бити од користи за ваш случај употребе. Има потенцијал да реши многе изазове из стварног живота, од домена безбедности и развоја апликација до финансија, медицине и још много тога. Његова употреба се шири, тако да ће вероватно бити још побољшања овог концепта у блиској будућности.

Такође можете истражити неке алате за синтетичко генерисање података да бисте обучили моделе машинског учења