Научите инжењеринг функција за науку о подацима и МЛ за 5 минута

Да ли сте спремни да научите инжењеринг функција за машинско учење и науку о подацима? На правом сте месту!

Инжењеринг карактеристика је критична вештина за извлачење вредних увида из података, а у овом кратком водичу ћу их поделити на једноставне, сварљиве делове. Дакле, хајде да заронимо одмах и почнимо на вашем путу ка савладавању екстракције функција!

Преглед садржаја

Шта је инжењеринг карактеристика?

Када креирате модел машинског учења који се односи на пословни или експериментални проблем, податке за учење достављате у колонама и редовима. У домену науке о подацима и МЛ развоја, колоне су познате као атрибути или варијабле.

Грануларни подаци или редови испод ових колона познати су као запажања или инстанце. Колоне или атрибути су карактеристике у необрађеном скупу података.

Ове сирове карактеристике нису довољне нити оптималне за обуку МЛ модела. Да бисте смањили шум прикупљених метаподатака и максимизирали јединствене сигнале од карактеристика, потребно је да трансформишете или конвертујете колоне метаподатака у функционалне карактеристике путем инжењеринга карактеристика.

Пример 1: Финансијско моделирање

Необрађени подаци за обуку модела МЛ

На пример, на горњој слици примера скупа података, колоне од А до Г су карактеристике. Вредности или текстуални низови у свакој колони дуж редова, као што су имена, износ депозита, године депозита, каматне стопе, итд., су запажања.

У МЛ моделирању, морате избрисати, додати, комбиновати или трансформисати податке да бисте креирали значајне карактеристике и смањили величину укупне базе података за обуку модела. Ово је инжењеринг карактеристика.

Пример инжењеринга карактеристика

У истом скупу података који је раније поменут, функције као што су Укупан износ закупа и Износ камате су непотребни улази. Ово ће једноставно заузети више простора и збунити МЛ модел. Дакле, можете смањити две карактеристике од укупно седам функција.

Пошто базе података у МЛ моделима садрже хиљаде колона и милионе редова, смањење две карактеристике у великој мери утиче на пројекат.

Пример 2: АИ музички списак за репродукцију

Понекад можете креирати потпуно нову функцију од више постојећих функција. Претпоставимо да креирате АИ модел који ће аутоматски креирати листу за репродукцију музике и песама према догађају, укусу, режиму итд.

  Како променити Алекино име или Ваке Ворд у нешто боље

Сада сте прикупили податке о песмама и музици из различитих извора и направили следећу базу података:

Постоји седам функција у горњој бази података. Међутим, пошто је ваш циљ да обучите МЛ модел да одлучи која песма или музика је погодна за који догађај, можете да укључите функције као што су жанр, оцена, ритмови, темпо и брзина у нову функцију под називом Применљивост.

Сада, било кроз стручност или идентификацију шаблона, можете комбиновати одређене инстанце функција да бисте утврдили која је песма погодна за који догађај. На пример, запажања као што су Јазз, 4.9, Кс3, И3 и З1 говоре МЛ моделу да песма Црас макимус јусто ет треба да буде на листи песама корисника ако траже песму за време спавања.

Типови функција у машинском учењу

Категоричке карактеристике

То су атрибути података који представљају различите категорије или ознаке. Морате да користите овај тип за означавање квалитативних скупова података.

#1. Редне категоријалне особине

Редна обележја имају категорије са смисленим редоследом. На пример, нивои образовања као што су средња школа, бацхелор, мастер, итд., имају јасну разлику у стандардима, али не постоје квантитативне разлике.

#2. Називне категорије

Номиналне карактеристике су категорије без икаквог инхерентног реда. Примери могу бити боје, земље или врсте животиња. Такође, постоје само квалитативне разлике.

Карактеристике низа

Овај тип функције представља податке организоване у низове или листе. Научници података и програмери МЛ често користе функције низа за руковање секвенцама или уграђивање категоричких података.

#1. Уграђивање функција низа

Уграђивање низова претвара категоричне податке у густе векторе. Обично се користи у системима за обраду природног језика и препоруке.

#2. Листа функција низа

Низови листа чувају низове података, као што су листе ставки у поруџбини или историја радњи.

Нумеричке карактеристике

Ове карактеристике обуке МЛ се користе за извођење математичких операција пошто ове карактеристике представљају квантитативне податке.

#1. Интервалне нумеричке карактеристике

Карактеристике интервала имају конзистентне интервале између вредности, али немају праву нулту тачку—на пример, податке за праћење температуре. Овде нула значи температуру смрзавања, али атрибут је још увек ту.

#2. Однос Нумеричке карактеристике

Карактеристике односа имају доследне интервале између вредности и праве нулте тачке. Примери укључују старост, висину и приход.

Важност инжењеринга карактеристика у МЛ и науци о подацима

  • Ефикасно издвајање карактеристика побољшава тачност модела, чинећи предвиђања поузданијим и вреднијим за доношење одлука.
  • Пажљив избор карактеристика елиминише ирелевантне или сувишне атрибуте, поједностављујући моделе и штедећи рачунарске ресурсе.
  • Добро пројектоване карактеристике откривају обрасце података, помажући научницима података да разумеју сложене односе унутар скупа података.
  • Прилагођавање карактеристика специфичним алгоритмима може оптимизовати перформансе модела кроз различите методе машинског учења.
  • Добро пројектоване карактеристике доводе до брже обуке модела и смањених трошкова рачунара, поједностављујући радни ток МЛ.
  • Затим ћемо истражити корак по корак процес пројектовања карактеристика.

    Процес инжењеринга карактеристика корак по корак

  • Прикупљање података: Први корак укључује прикупљање необрађених података из различитих извора, као што су базе података, датотеке или АПИ-ји.
  • Чишћење података: Када добијете своје податке, морате их очистити идентификацијом и исправљањем свих грешака, недоследности или одступања.
  • Руковање недостајућим вредностима: Недостајуће вредности могу да збуне складиште карактеристика МЛ модела. Ако их игноришете, ваш модел ће бити пристрасан. Дакле, морате више истраживати да бисте унели недостајуће вредности или их пажљиво изоставили без утицаја на модел са пристрасношћу.
  • Кодирање категоричких променљивих: Морате да конвертујете категоричке варијабле у нумерички формат за алгоритме машинског учења.
  • Скалирање и нормализација: Скалирање осигурава да су нумеричке карактеристике на конзистентној скали. Он спречава да карактеристике са великим вредностима доминирају моделом машинског учења.
  • Избор карактеристика: Овај корак помаже да се идентификују и задрже најрелевантније карактеристике, смањујући димензионалност и побољшавајући ефикасност модела.
  • Креирање функција: Понекад се нове функције могу конструисати од постојећих да би се прикупиле вредне информације.
  • Трансформација карактеристика: Технике трансформације као што су логаритми или трансформације снаге могу учинити ваше податке погоднијим за моделирање.
  •   Како омогућити и онемогућити аутоматско попуњавање лозинке на Андроиду

    Затим ћемо разговарати о методама инжењеринга карактеристика.

    Феатуре Енгинееринг Метходс

    #1. Анализа главних компоненти (ПЦА)

    ПЦА поједностављује сложене податке проналажењем нових некорелираних карактеристика. То се назива главним компонентама. Можете га користити да смањите димензионалност и побољшате перформансе модела.

    #2. Полиномске карактеристике

    Креирање полиномских обележја значи додавање моћи постојећих функција за снимање сложених односа у вашим подацима. Помаже вашем моделу да разуме нелинеарне обрасце.

    #3. Хандлинг Оутлиерс

    Оутлиерс су необичне тачке података које могу утицати на перформансе ваших модела. Морате идентификовати и управљати изванредним вредностима да бисте спречили искривљене резултате.

    #4. Лог Трансформ

    Логаритамска трансформација вам може помоћи да нормализујете податке са искривљеном дистрибуцијом. Смањује утицај екстремних вредности како би подаци били погоднији за моделирање.

    #5. т-Дистрибутед Стохастиц Неигхбор Ембеддинг (т-СНЕ)

    т-СНЕ је користан за визуелизацију високодимензионалних података. Смањује димензионалност и чини кластере очигледнијим уз очување структуре података.

    У овом методу екстракције обележја, тачке података представљате као тачке у простору ниже димензије. Затим постављате сличне тачке података у оригинални високодимензионални простор и моделирају се тако да буду близу једна другој у нижедимензионалној представи.

    Разликује се од других метода смањења димензионалности по очувању структуре и удаљености између тачака података.

    #6. Оне-Хот Енцодинг

    Оне-хот енцодинг трансформише категоричке варијабле у бинарни формат (0 или 1). Дакле, добијате нове бинарне колоне за сваку категорију. Оне-хот кодирање чини категоричке податке погодним за МЛ алгоритме.

    #7. Цоунт Енцодинг

    Кодирање бројача замењује категоричке вредности са бројем појављивања у скупу података. Може да прикупи вредне информације из категоричких варијабли.

    У овој методи инжењеринга карактеристика, користите учесталост или број сваке категорије као нову нумеричку карактеристику уместо да користите оригиналне ознаке категорије.

    #8. Стандардизација карактеристика

    Особине већих вредности често доминирају особинама малих вредности. Дакле, МЛ модел може лако постати пристрасан. Стандардизација спречава такве узроке пристрасности у моделу машинског учења.

    Процес стандардизације обично укључује следеће две уобичајене технике:

    • Стандардизација З-оцена: Ова метода трансформише сваку карактеристику тако да има средњу вредност (просек) од 0 и стандардну девијацију од 1. Овде одузимате средњу вредност карактеристике од сваке тачке података и делите резултат са стандардном девијацијом.
    • Мин-мак скалирање: Мин-мак скалирање трансформише податке у одређени опсег, обично између 0 и 1. Ово можете постићи одузимањем минималне вредности карактеристике од сваке тачке података и дељењем са опсегом.
      Како направити резервну копију вашег иПхоне-а или иПад-а

    #9. Нормализација

    Кроз нормализацију, нумеричке карактеристике се скалирају на уобичајени опсег, обично између 0 и 1. Одржава релативне разлике између вредности и осигурава да су све карактеристике у истом пољу.

    #1. Феатуретоолс

    Феатуретоолс је Питхон оквир отвореног кода који аутоматски креира карактеристике из временских и релационих скупова података. Може се користити са алатима које већ користите за развој МЛ пипелинеа.

    Решење користи Дееп Феатуре Синтхесис да аутоматизује инжењеринг карактеристика. Има библиотеку функција ниског нивоа за креирање функција. Феатуретоолс такође има АПИ, који је такође идеалан за прецизно руковање временом.

    #2. ЦатБоост

    Ако тражите библиотеку отвореног кода која комбинује више стабала одлучивања како бисте креирали моћан предиктивни модел, идите на ЦатБоост. Ово решење нуди прецизне резултате са подразумеваним параметрима, тако да не морате да трошите сате на фино подешавање параметара.

    ЦатБоост вам такође омогућава да користите ненумеричке факторе за побољшање резултата тренинга. Уз то, такође можете очекивати да добијете прецизније резултате и брза предвиђања.

    #3. Феатуре-Енгине

    Феатуре-Енгине је Питхон библиотека са више трансформатора и одабраним функцијама које можете користити за МЛ моделе. Трансформатори које укључује могу се користити за трансформацију променљивих, креирање променљивих, карактеристике датума и времена, претходну обраду, категорично кодирање, ограничавање или уклањање оутлиера и импутацију података који недостају. У стању је да аутоматски препозна нумеричке, категоричке и временске променљиве.

    Феатуре Енгинееринг Леарнинг Ресурси

    Онлине курсеви и виртуелни часови

    #1. Инжењеринг карактеристика за машинско учење у Питхон-у: Датацамп

    Овај Датацамп курс Инжењеринг карактеристика за машинско учење у Питхон-у омогућава вам да креирате нове функције које побољшавају перформансе вашег модела машинског учења. Научиће вас да изводите инжењеринг функција и анализирате податке да бисте развили софистициране МЛ апликације.

    #2. Инжењеринг карактеристика за машинско учење: Удеми

    Од Курс Инжењеринг карактеристика за машинско учењенаучићете теме укључујући импутацију, променљиво кодирање, екстракцију карактеристика, дискретизацију, функционалност датума и времена, одступања, итд. Учесници ће такође научити да раде са искривљеним варијаблама и да се баве ретким, невидљивим и ретким категоријама.

    #3. Инжењеринг карактеристика: Плуралсигхт

    Ово Плуралсигхт пут учења има укупно шест курсева. Ови курсеви ће вам помоћи да научите важност инжењеринга карактеристика у току рада МЛ, начине за примену његових техника и издвајање обележја из текста и слика.

    #4. Избор функција за машинско учење: Удеми

    Уз помоћ овога Удеми курс, учесници могу научити мешање функција, филтер, омотач и уграђене методе, рекурзивно елиминисање карактеристика и исцрпну претрагу. Такође се говори о техникама одабира карактеристика, укључујући оне са Питхон, Лассо и стаблима одлучивања. Овај курс садржи 5,5 сати видеа на захтев и 22 чланка.

    #5. Инжењеринг карактеристика за машинско учење: одлично учење

    Овај курс из Греат Леарнинг ће вас упознати са инжењерингом карактеристика док вас учи о прекомерном и премалом узорковању. Штавише, омогућиће вам да изводите практичне вежбе на подешавању модела.

    #6. Инжењеринг карактеристика: Цоурсера

    Придружи Цоурсера курс за коришћење БигКуери МЛ, Керас и ТенсорФлов за обављање инжењеринга функција. Овај курс средњег нивоа такође покрива напредне праксе инжењеринга карактеристика.

    Дигиталне књиге или књиге са тврдим повезом

    #1. Инжењеринг карактеристика за машинско учење

    Ова књига вас учи како да трансформишете функције у формате за моделе за машинско учење.

    Такође вас учи инжењерским принципима и практичној примени кроз вежбу.

    #2. Инжењеринг и избор карактеристика

    Читајући ову књигу, научићете методе развоја предиктивних модела у различитим фазама.

    Из њега можете научити технике за проналажење најбољих предикторских репрезентација за моделирање.

    #3. Инжењеринг функција је постао лак

    Књига је водич за побољшање предвиђања моћи МЛ алгоритама.

    Учи вас да дизајнирате и креирате ефикасне функције за апликације засноване на МЛ-у, нудећи дубински увид у податке.

    #4. Феатуре Енгинееринг Боокцамп

    Ова књига се бави практичним студијама случаја како би вас научила техничким техникама за боље резултате МЛ-а и надограђеним препуцавањем података.

    Читање овога ће осигурати да можете дати побољшане резултате без трошења много времена на фино подешавање параметара МЛ-а.

    #5. Уметност инжињеринга карактеристика

    Ресурс функционише као суштински елемент за сваког научника података или инжењера машинског учења.

    Књига користи приступ унакрсних домена за дискусију о графиконима, текстовима, временским серијама, сликама и студијама случаја.

    Закључак

    Дакле, овако можете да извршите инжењеринг карактеристика. Сада када знате дефиницију, постепени процес, методе и ресурсе за учење, можете их имплементирати у своје МЛ пројекте и видети успех!

    Следеће, погледајте чланак о учењу са појачањем.