Да ли сте спремни да научите инжењеринг функција за машинско учење и науку о подацима? На правом сте месту!
Инжењеринг карактеристика је критична вештина за извлачење вредних увида из података, а у овом кратком водичу ћу их поделити на једноставне, сварљиве делове. Дакле, хајде да заронимо одмах и почнимо на вашем путу ка савладавању екстракције функција!
Преглед садржаја
Шта је инжењеринг карактеристика?
Када креирате модел машинског учења који се односи на пословни или експериментални проблем, податке за учење достављате у колонама и редовима. У домену науке о подацима и МЛ развоја, колоне су познате као атрибути или варијабле.
Грануларни подаци или редови испод ових колона познати су као запажања или инстанце. Колоне или атрибути су карактеристике у необрађеном скупу података.
Ове сирове карактеристике нису довољне нити оптималне за обуку МЛ модела. Да бисте смањили шум прикупљених метаподатака и максимизирали јединствене сигнале од карактеристика, потребно је да трансформишете или конвертујете колоне метаподатака у функционалне карактеристике путем инжењеринга карактеристика.
Пример 1: Финансијско моделирање
Необрађени подаци за обуку модела МЛ
На пример, на горњој слици примера скупа података, колоне од А до Г су карактеристике. Вредности или текстуални низови у свакој колони дуж редова, као што су имена, износ депозита, године депозита, каматне стопе, итд., су запажања.
У МЛ моделирању, морате избрисати, додати, комбиновати или трансформисати податке да бисте креирали значајне карактеристике и смањили величину укупне базе података за обуку модела. Ово је инжењеринг карактеристика.
Пример инжењеринга карактеристика
У истом скупу података који је раније поменут, функције као што су Укупан износ закупа и Износ камате су непотребни улази. Ово ће једноставно заузети више простора и збунити МЛ модел. Дакле, можете смањити две карактеристике од укупно седам функција.
Пошто базе података у МЛ моделима садрже хиљаде колона и милионе редова, смањење две карактеристике у великој мери утиче на пројекат.
Пример 2: АИ музички списак за репродукцију
Понекад можете креирати потпуно нову функцију од више постојећих функција. Претпоставимо да креирате АИ модел који ће аутоматски креирати листу за репродукцију музике и песама према догађају, укусу, режиму итд.
Сада сте прикупили податке о песмама и музици из различитих извора и направили следећу базу података:
Постоји седам функција у горњој бази података. Међутим, пошто је ваш циљ да обучите МЛ модел да одлучи која песма или музика је погодна за који догађај, можете да укључите функције као што су жанр, оцена, ритмови, темпо и брзина у нову функцију под називом Применљивост.
Сада, било кроз стручност или идентификацију шаблона, можете комбиновати одређене инстанце функција да бисте утврдили која је песма погодна за који догађај. На пример, запажања као што су Јазз, 4.9, Кс3, И3 и З1 говоре МЛ моделу да песма Црас макимус јусто ет треба да буде на листи песама корисника ако траже песму за време спавања.
Типови функција у машинском учењу
Категоричке карактеристике
То су атрибути података који представљају различите категорије или ознаке. Морате да користите овај тип за означавање квалитативних скупова података.
#1. Редне категоријалне особине
Редна обележја имају категорије са смисленим редоследом. На пример, нивои образовања као што су средња школа, бацхелор, мастер, итд., имају јасну разлику у стандардима, али не постоје квантитативне разлике.
#2. Називне категорије
Номиналне карактеристике су категорије без икаквог инхерентног реда. Примери могу бити боје, земље или врсте животиња. Такође, постоје само квалитативне разлике.
Карактеристике низа
Овај тип функције представља податке организоване у низове или листе. Научници података и програмери МЛ често користе функције низа за руковање секвенцама или уграђивање категоричких података.
#1. Уграђивање функција низа
Уграђивање низова претвара категоричне податке у густе векторе. Обично се користи у системима за обраду природног језика и препоруке.
#2. Листа функција низа
Низови листа чувају низове података, као што су листе ставки у поруџбини или историја радњи.
Нумеричке карактеристике
Ове карактеристике обуке МЛ се користе за извођење математичких операција пошто ове карактеристике представљају квантитативне податке.
#1. Интервалне нумеричке карактеристике
Карактеристике интервала имају конзистентне интервале између вредности, али немају праву нулту тачку—на пример, податке за праћење температуре. Овде нула значи температуру смрзавања, али атрибут је још увек ту.
#2. Однос Нумеричке карактеристике
Карактеристике односа имају доследне интервале између вредности и праве нулте тачке. Примери укључују старост, висину и приход.
Важност инжењеринга карактеристика у МЛ и науци о подацима
Затим ћемо истражити корак по корак процес пројектовања карактеристика.
Процес инжењеринга карактеристика корак по корак
Затим ћемо разговарати о методама инжењеринга карактеристика.
Феатуре Енгинееринг Метходс
#1. Анализа главних компоненти (ПЦА)
ПЦА поједностављује сложене податке проналажењем нових некорелираних карактеристика. То се назива главним компонентама. Можете га користити да смањите димензионалност и побољшате перформансе модела.
#2. Полиномске карактеристике
Креирање полиномских обележја значи додавање моћи постојећих функција за снимање сложених односа у вашим подацима. Помаже вашем моделу да разуме нелинеарне обрасце.
#3. Хандлинг Оутлиерс
Оутлиерс су необичне тачке података које могу утицати на перформансе ваших модела. Морате идентификовати и управљати изванредним вредностима да бисте спречили искривљене резултате.
#4. Лог Трансформ
Логаритамска трансформација вам може помоћи да нормализујете податке са искривљеном дистрибуцијом. Смањује утицај екстремних вредности како би подаци били погоднији за моделирање.
#5. т-Дистрибутед Стохастиц Неигхбор Ембеддинг (т-СНЕ)
т-СНЕ је користан за визуелизацију високодимензионалних података. Смањује димензионалност и чини кластере очигледнијим уз очување структуре података.
У овом методу екстракције обележја, тачке података представљате као тачке у простору ниже димензије. Затим постављате сличне тачке података у оригинални високодимензионални простор и моделирају се тако да буду близу једна другој у нижедимензионалној представи.
Разликује се од других метода смањења димензионалности по очувању структуре и удаљености између тачака података.
#6. Оне-Хот Енцодинг
Оне-хот енцодинг трансформише категоричке варијабле у бинарни формат (0 или 1). Дакле, добијате нове бинарне колоне за сваку категорију. Оне-хот кодирање чини категоричке податке погодним за МЛ алгоритме.
#7. Цоунт Енцодинг
Кодирање бројача замењује категоричке вредности са бројем појављивања у скупу података. Може да прикупи вредне информације из категоричких варијабли.
У овој методи инжењеринга карактеристика, користите учесталост или број сваке категорије као нову нумеричку карактеристику уместо да користите оригиналне ознаке категорије.
#8. Стандардизација карактеристика
Особине већих вредности често доминирају особинама малих вредности. Дакле, МЛ модел може лако постати пристрасан. Стандардизација спречава такве узроке пристрасности у моделу машинског учења.
Процес стандардизације обично укључује следеће две уобичајене технике:
- Стандардизација З-оцена: Ова метода трансформише сваку карактеристику тако да има средњу вредност (просек) од 0 и стандардну девијацију од 1. Овде одузимате средњу вредност карактеристике од сваке тачке података и делите резултат са стандардном девијацијом.
- Мин-мак скалирање: Мин-мак скалирање трансформише податке у одређени опсег, обично између 0 и 1. Ово можете постићи одузимањем минималне вредности карактеристике од сваке тачке података и дељењем са опсегом.
#9. Нормализација
Кроз нормализацију, нумеричке карактеристике се скалирају на уобичајени опсег, обично између 0 и 1. Одржава релативне разлике између вредности и осигурава да су све карактеристике у истом пољу.
#1. Феатуретоолс
Феатуретоолс је Питхон оквир отвореног кода који аутоматски креира карактеристике из временских и релационих скупова података. Може се користити са алатима које већ користите за развој МЛ пипелинеа.
Решење користи Дееп Феатуре Синтхесис да аутоматизује инжењеринг карактеристика. Има библиотеку функција ниског нивоа за креирање функција. Феатуретоолс такође има АПИ, који је такође идеалан за прецизно руковање временом.
#2. ЦатБоост
Ако тражите библиотеку отвореног кода која комбинује више стабала одлучивања како бисте креирали моћан предиктивни модел, идите на ЦатБоост. Ово решење нуди прецизне резултате са подразумеваним параметрима, тако да не морате да трошите сате на фино подешавање параметара.
ЦатБоост вам такође омогућава да користите ненумеричке факторе за побољшање резултата тренинга. Уз то, такође можете очекивати да добијете прецизније резултате и брза предвиђања.
#3. Феатуре-Енгине
Феатуре-Енгине је Питхон библиотека са више трансформатора и одабраним функцијама које можете користити за МЛ моделе. Трансформатори које укључује могу се користити за трансформацију променљивих, креирање променљивих, карактеристике датума и времена, претходну обраду, категорично кодирање, ограничавање или уклањање оутлиера и импутацију података који недостају. У стању је да аутоматски препозна нумеричке, категоричке и временске променљиве.
Феатуре Енгинееринг Леарнинг Ресурси
Онлине курсеви и виртуелни часови
#1. Инжењеринг карактеристика за машинско учење у Питхон-у: Датацамп
Овај Датацамп курс Инжењеринг карактеристика за машинско учење у Питхон-у омогућава вам да креирате нове функције које побољшавају перформансе вашег модела машинског учења. Научиће вас да изводите инжењеринг функција и анализирате податке да бисте развили софистициране МЛ апликације.
#2. Инжењеринг карактеристика за машинско учење: Удеми
Од Курс Инжењеринг карактеристика за машинско учењенаучићете теме укључујући импутацију, променљиво кодирање, екстракцију карактеристика, дискретизацију, функционалност датума и времена, одступања, итд. Учесници ће такође научити да раде са искривљеним варијаблама и да се баве ретким, невидљивим и ретким категоријама.
#3. Инжењеринг карактеристика: Плуралсигхт
Ово Плуралсигхт пут учења има укупно шест курсева. Ови курсеви ће вам помоћи да научите важност инжењеринга карактеристика у току рада МЛ, начине за примену његових техника и издвајање обележја из текста и слика.
#4. Избор функција за машинско учење: Удеми
Уз помоћ овога Удеми курс, учесници могу научити мешање функција, филтер, омотач и уграђене методе, рекурзивно елиминисање карактеристика и исцрпну претрагу. Такође се говори о техникама одабира карактеристика, укључујући оне са Питхон, Лассо и стаблима одлучивања. Овај курс садржи 5,5 сати видеа на захтев и 22 чланка.
#5. Инжењеринг карактеристика за машинско учење: одлично учење
Овај курс из Греат Леарнинг ће вас упознати са инжењерингом карактеристика док вас учи о прекомерном и премалом узорковању. Штавише, омогућиће вам да изводите практичне вежбе на подешавању модела.
#6. Инжењеринг карактеристика: Цоурсера
Придружи Цоурсера курс за коришћење БигКуери МЛ, Керас и ТенсорФлов за обављање инжењеринга функција. Овај курс средњег нивоа такође покрива напредне праксе инжењеринга карактеристика.
Дигиталне књиге или књиге са тврдим повезом
#1. Инжењеринг карактеристика за машинско учење
Ова књига вас учи како да трансформишете функције у формате за моделе за машинско учење.
Такође вас учи инжењерским принципима и практичној примени кроз вежбу.
#2. Инжењеринг и избор карактеристика
Читајући ову књигу, научићете методе развоја предиктивних модела у различитим фазама.
Из њега можете научити технике за проналажење најбољих предикторских репрезентација за моделирање.
#3. Инжењеринг функција је постао лак
Књига је водич за побољшање предвиђања моћи МЛ алгоритама.
Учи вас да дизајнирате и креирате ефикасне функције за апликације засноване на МЛ-у, нудећи дубински увид у податке.
#4. Феатуре Енгинееринг Боокцамп
Ова књига се бави практичним студијама случаја како би вас научила техничким техникама за боље резултате МЛ-а и надограђеним препуцавањем података.
Читање овога ће осигурати да можете дати побољшане резултате без трошења много времена на фино подешавање параметара МЛ-а.
#5. Уметност инжињеринга карактеристика
Ресурс функционише као суштински елемент за сваког научника података или инжењера машинског учења.
Књига користи приступ унакрсних домена за дискусију о графиконима, текстовима, временским серијама, сликама и студијама случаја.
Закључак
Дакле, овако можете да извршите инжењеринг карактеристика. Сада када знате дефиницију, постепени процес, методе и ресурсе за учење, можете их имплементирати у своје МЛ пројекте и видети успех!
Следеће, погледајте чланак о учењу са појачањем.