Објашњење регресије у односу на класификацију у машинском учењу

Регресија и класификација су две најосновније и најзначајније области машинског учења.

Може бити тешко направити разлику између алгоритама регресије и класификације када тек улазите у машинско учење. Разумевање како ови алгоритми функционишу и када их користити може бити кључно за доношење тачних предвиђања и ефикасних одлука.

Прво, да видимо о машинском учењу.

Шта је машинско учење?

Машинско учење је метода учења рачунара да уче и доносе одлуке без експлицитног програмирања. То укључује обуку компјутерског модела на скупу података, омогућавајући моделу да предвиђа или доноси одлуке на основу образаца и односа у подацима.

Постоје три главна типа машинског учења: учење под надзором, учење без надзора и учење уз помоћ.

У надгледаном учењу, модел је опремљен са означеним подацима о обуци, укључујући улазне податке и одговарајући исправан излаз. Циљ је да модел направи предвиђања о излазу за нове, невидљиве податке на основу образаца које је научио из података обуке.

У ненадгледаном учењу, моделу нису дати никакви означени подаци о обуци. Уместо тога, остављено је да самостално открива обрасце и односе у подацима. Ово се може користити за идентификацију група или кластера у подацима или за проналажење аномалија или необичних образаца.

А у учењу појачања, агент учи да комуницира са својим окружењем како би максимизирао награду. То укључује обуку модела за доношење одлука на основу повратних информација које добија од околине.

Машинско учење се користи у различитим апликацијама, укључујући препознавање слика и говора, обраду природног језика, откривање превара и самовозеће аутомобиле. Има потенцијал да аутоматизује многе задатке и побољша доношење одлука у различитим индустријама.

Овај чланак се углавном фокусира на концепте класификације и регресије, који су под надзором машинског учења. Хајде да почнемо!

Класификација у машинском учењу

Класификација је техника машинског учења која укључује обуку модела да додели ознаку класе датом улазу. То је задатак учења под надзором, што значи да се модел обучава на означеном скупу података који укључује примере улазних података и одговарајуће ознаке класа.

Модел има за циљ да научи однос између улазних података и ознака класе како би се предвидела ознака класе за нови, невидљиви улаз.

Постоји много различитих алгоритама који се могу користити за класификацију, укључујући логистичку регресију, стабла одлучивања и машине за векторе подршке. Избор алгоритма зависиће од карактеристика података и жељених перформанси модела.

  Претражите Фацебоок странице које су вам се допале и имате физичку адресу на мапи

Неке уобичајене апликације за класификацију укључују откривање нежељене поште, анализу расположења и откривање преваре. У сваком од ових случајева, улазни подаци могу укључивати текст, нумеричке вредности или комбинацију оба. Ознаке класа могу бити бинарне (нпр. нежељена пошта или не нежељена пошта) или вишекласна (нпр. позитивно, неутрално, негативно мишљење).

На пример, размотрите скуп података о рецензијама купаца о производу. Улазни подаци могу бити текст рецензије, а ознака класе може бити оцена (нпр. позитивно, неутрално, негативно). Модел би био обучен на скупу података означених рецензија, а затим би могао да предвиди оцену нове рецензије коју раније није видео.

Типови алгоритама МЛ класификације

Постоји неколико типова класификационих алгоритама у машинском учењу:

Логистичка регресија

Ово је линеарни модел који се користи за бинарну класификацију. Користи се за предвиђање вероватноће да ће се одређени догађај десити. Циљ логистичке регресије је проналажење најбољих коефицијената (тежина) који минимизирају грешку између предвиђене вероватноће и посматраног исхода.

Ово се ради коришћењем алгоритма оптимизације, као што је спуштање у нагибу, да би се коефицијенти подесили све док модел што боље не одговара подацима обуке.

Децисион Треес

Ово су модели налик стаблу који доносе одлуке на основу вредности карактеристика. Могу се користити и за бинарну и за вишекласну класификацију. Стабла одлучивања имају неколико предности, укључујући њихову једноставност и интероперабилност.

Такође су брзи за обуку и предвиђање, а могу да рукују и нумеричким и категоријалним подацима. Међутим, они могу бити склони пренамјењивању, посебно ако је дрво дубоко и има много грана.

Класификација насумичних шума

Класификација насумичних шума је метода ансамбла која комбинује предвиђања вишеструких стабала одлучивања како би се направило прецизније и стабилније предвиђање. Мање је склоно прекомерном прилагођавању него једно стабло одлучивања јер су предвиђања појединачних стабала усредњена, што смањује варијансу у моделу.

АдаБоост

Ово је алгоритам за појачавање који адаптивно мења тежину погрешно класификованих примера у скупу за обуку. Често се користи за бинарну класификацију.

Наиве Баиес

Наивни Бајес је заснован на Бајесовој теореми, која представља начин ажурирања вероватноће догађаја на основу нових доказа. То је пробабилистички класификатор који се често користи за класификацију текста и филтрирање нежељене поште.

К-најближи сусед

К-Неарест Неигхбоурс (КНН) се користи за задатке класификације и регресије. То је непараметарски метод који класификује тачку података на основу класе њених најближих суседа. КНН има неколико предности, укључујући његову једноставност и чињеницу да се лако имплементира. Такође може да обрађује и нумеричке и категоричке податке и не прави никакве претпоставке о основној дистрибуцији података.

Градиент Боостинг

То су ансамбли слабих ученика који се обучавају узастопно, при чему сваки модел покушава да исправи грешке претходног модела. Могу се користити и за класификацију и за регресију.

Регресија у машинском учењу

У машинском учењу, регресија је врста надгледаног учења где је циљ предвиђање ац зависне променљиве на основу једне или више улазних карактеристика (које се такође називају предиктори или независне варијабле).

  Како променити боју позадине у програму Мицрософт Ворд

Алгоритми регресије се користе за моделирање односа између улаза и излаза и предвиђања на основу тог односа. Регресија се може користити и за континуиране и за категоријске зависне варијабле.

Уопштено говорећи, циљ регресије је да се изгради модел који може тачно предвидети излаз на основу улазних карактеристика и разумети основни однос између улазних карактеристика и излаза.

Регресиона анализа се користи у различитим областима, укључујући економију, финансије, маркетинг и психологију, да би се разумеле и предвиделе везе између различитих варијабли. То је основни алат у анализи података и машинском учењу и користи се за предвиђање, идентификацију трендова и разумевање основних механизама који покрећу податке.

На пример, у једноставном моделу линеарне регресије, циљ може бити предвиђање цене куће на основу њене величине, локације и других карактеристика. Величина куће и њена локација биле би независне варијабле, а цена куће би била зависна варијабла.

Модел би био обучен на улазним подацима који укључују величину и локацију неколико кућа, заједно са њиховим одговарајућим ценама. Када се модел обучи, може се користити за предвиђање цене куће, с обзиром на њену величину и локацију.

Типови алгоритама регресије МЛ

Алгоритми регресије су доступни у различитим облицима, а употреба сваког алгоритма зависи од броја параметара, као што су врста вредности атрибута, образац линије тренда и број независних променљивих. Технике регресије које се често користе укључују:

Линеарна регресија

Овај једноставан линеарни модел се користи за предвиђање континуиране вредности на основу скупа карактеристика. Користи се за моделирање односа између карактеристика и циљне променљиве тако што се умеће линија у податке.

Полиномска регресија

Ово је нелинеарни модел који се користи за уклапање криве у податке. Користи се за моделирање односа између карактеристика и циљне променљиве када однос није линеаран. Заснован је на идеји додавања термина вишег реда у линеарни модел како би се ухватиле нелинеарне везе између зависних и независних варијабли.

Ридге Регрессион

Ово је линеарни модел који се бави прекомерним прилагођавањем у линеарној регресији. То је регуларизована верзија линеарне регресије која додаје казнени термин функцији трошкова да би се смањила сложеност модела.

Подршка регресији вектора

Као и СВМ, Регресија вектора подршке је линеарни модел који покушава да уклопи податке проналажењем хиперравнине која максимизира маргину између зависних и независних променљивих.

Међутим, за разлику од СВМ-а, који се користе за класификацију, СВР се користи за задатке регресије, где је циљ предвиђање континуиране вредности, а не ознаке класе.

Лассо Регрессион

Ово је још један регуларизовани линеарни модел који се користи за спречавање прекомерног прилагођавања у линеарној регресији. Додаје казнени термин функцији трошкова на основу апсолутне вредности коефицијената.

Бајесова линеарна регресија

Бајесова линеарна регресија је пробабилистички приступ линеарној регресији заснован на Бајесовој теореми, која представља начин ажурирања вероватноће догађаја на основу нових доказа.

  Зашто више не можемо да препоручујемо Винк Хубс

Овај регресиони модел има за циљ да процени постериорну дистрибуцију параметара модела према подацима. Ово се ради дефинисањем претходне дистрибуције преко параметара, а затим коришћењем Бајесове теореме за ажурирање дистрибуције на основу посматраних података.

Регресија наспрам класификације

Регресија и класификација су два типа надгледаног учења, што значи да се користе за предвиђање резултата на основу скупа улазних карактеристика. Међутим, постоје неке кључне разлике између њих:

РегрессионЦлассифицатионДефинитионТип надгледаног учења који предвиђа континуирану вредностТип надгледаног учења који предвиђа категоријалну вредностТип излазаЦонтинуоусДисцретеЕвалуатион метрицс Средња квадратна грешка (МСЕ), средња квадратна грешка (РМСЕ) Прецизност, прецизност, присећање, Ф1 резултат, К регресија, Ригорита Стабло одлукаЛогистичка регресија, СВМ, Наивни Баиес, КНН, Децисион Трее Сложеност модела Мање сложени модели Сложенији моделиПретпоставкеЛинеарни однос између карактеристика и циља Нема специфичних претпоставки о односу између карактеристика и циља Неравнотежа класа Није применљиваТо може бити проблем. нису рангирани по важности Примери апликација Предвиђање цена, температура, количина Предвиђање да ли ће е-порука бити нежељена, предвиђање одлива купаца

Ресурси за учење

Можда ће бити изазов изабрати најбоље онлајн ресурсе за разумевање концепата машинског учења. Испитали смо популарне курсеве које пружају поуздане платформе да бисмо вам представили наше препоруке за најбоље курсеве МЛ о регресији и класификацији.

#1. Машинско учење Цлассифицатион Боотцамп у Питхон-у

Ово је курс који се нуди на Удеми платформи. Покрива различите класификационе алгоритаме и технике, укључујући стабла одлучивања и логистичку регресију, и подржава векторске машине.

Такође можете сазнати о темама као што су прекомерно прилагођавање, компромис пристрасности и варијансе и евалуација модела. Курс користи Питхон библиотеке као што су сци-кит-леарн и пандас за имплементацију и процену модела машинског учења. Дакле, потребно је основно знање о питону да бисте започели са овим курсом.

#2. Мајсторски курс регресије машинског учења у Питхон-у

У овом Удеми курсу, тренер покрива основе и основну теорију различитих алгоритама регресије, укључујући линеарну регресију, полиномску регресију и технике Ласо & Ридге регресије.

До краја овог курса, моћи ћете да примените алгоритме регресије и процените учинак обучених модела машинског учења користећи различите кључне индикаторе учинка.

Окончање

Алгоритми машинског учења могу бити веома корисни у многим апликацијама и могу помоћи у аутоматизацији и поједностављењу многих процеса. МЛ алгоритми користе статистичке технике да науче обрасце у подацима и доносе предвиђања или одлуке на основу тих образаца.

Могу се обучити на великим количинама података и могу се користити за обављање задатака које би људима било тешко или дуготрајно да их раде ручно.

Сваки МЛ алгоритам има своје предности и слабости, а избор алгоритма зависи од природе података и захтева задатка. Важно је одабрати одговарајући алгоритам или комбинацију алгоритама за одређени проблем који покушавате да решите.

Важно је да одаберете прави тип алгоритма за ваш проблем, јер коришћење погрешног типа алгоритма може довести до лоших перформанси и нетачних предвиђања. Ако нисте сигурни који алгоритам да користите, може бити од помоћи да испробате алгоритме регресије и класификације и упоредите њихов учинак на вашем скупу података.

Надам се да вам је овај чланак био од помоћи у учењу регресије у односу на класификацију у машинском учењу. Можда ћете бити заинтересовани да сазнате више о врхунским моделима машинског учења.