Како (и зашто) користити функцију Оутлиерс у Екцел-у

Оутлиер је вредност која је знатно виша или нижа од већине вредности у вашим подацима. Када користите Екцел за анализу података, одступања могу да искриве резултате. На пример, средњи просек скупа података може заиста да одражава ваше вредности. Екцел пружа неколико корисних функција које помажу у управљању вашим одступницима, па хајде да погледамо.

Брзи пример

На слици испод, одступања је прилично лако уочити — вредност два додељена Ерику и вредност 173 додељена Рајану. У оваквом скупу података, довољно је лако уочити и позабавити се тим одступницима ручно.

У већем скупу података то неће бити случај. Бити у стању да идентификујемо одлике и уклонимо их из статистичких прорачуна је важно — и то је оно што ћемо погледати како да урадимо у овом чланку.

Како пронаћи одлике у вашим подацима

Да бисмо пронашли ванредне вредности у скупу података, користимо следеће кораке:

Израчунајте 1. и 3. квартил (ми ћемо говорити о томе шта су они за мало).
Процените интерквартилни опсег (ми ћемо их такође објаснити мало ниже).
Вратите горњу и доњу границу нашег опсега података.
Користите ове границе да идентификујете вањске тачке података.

  Како повезати СФТП користећи ФилеЗилла? [2 Methods]

Опсег ћелија са десне стране скупа података који се види на слици испод ће се користити за чување ових вредности.

Хајде да почнемо.

Први корак: Израчунајте квартиле

Ако своје податке поделите на четвртине, сваки од тих скупова се назива квартил. Најнижих 25% бројева у опсегу чине 1. квартил, следећих 25% 2. квартил, итд. Прво предузимамо овај корак зато што је најчешће коришћена дефиниција оутлиер-а тачка података која је више од 1,5 интерквартилних опсега (ИКР) испод 1. квартила и 1,5 интерквартилних опсега изнад 3. квартила. Да бисмо одредили те вредности, прво морамо да схватимо шта су квартили.

Екцел обезбеђује функцију КУАРТИЛЕ за израчунавање квартила. Захтева две информације: низ и кварт.

=QUARTILE(array, quart)

Низ је опсег вредности које процењујете. А квартил је број који представља квартил који желите да вратите (нпр. 1 за 1. квартил, 2 за 2. квартил и тако даље).

Напомена: У програму Екцел 2010, Мицрософт је објавио функције КУАРТИЛЕ.ИНЦ и КУАРТИЛЕ.ЕКСЦ као побољшања функције КУАРТИЛЕ. КУАРТИЛЕ је компатибилнији са претходним верзијама када радите на више верзија Екцел-а.

Вратимо се на нашу табелу примера.

За израчунавање 1. квартила можемо користити следећу формулу у ћелији Ф2.

=QUARTILE(B2:B14,1)

Док уносите формулу, Екцел пружа листу опција за аргумент куарт.

Да бисмо израчунали трећи квартил, можемо да унесемо формулу попут претходне у ћелију Ф3, али користећи три уместо један.

=QUARTILE(B2:B14,3)

Сада имамо квартилне тачке података приказане у ћелијама.

Други корак: Процените интерквартилни опсег

Интерквартилни опсег (или ИКР) је средњих 50% вредности у вашим подацима. Израчунава се као разлика између вредности 1. квартила и вредности 3. квартила.

  Како БЕСПЛАТНО спојити ПДФ датотеке?

Користићемо једноставну формулу у ћелији Ф4 која одузима 1. квартил од 3. квартила:

=F3-F2

Сада можемо да видимо приказан наш интерквартилни опсег.

Трећи корак: Вратите доњу и горњу границу

Доња и горња граница су најмање и највеће вредности опсега података које желимо да користимо. Све вредности које су мање или веће од ових ограничених вредности су одступања.

Израчунаћемо доњу границу у ћелији Ф5 тако што ћемо ИКР вредност помножити са 1,5, а затим је одузети од тачке података К1:

=F2-(1.5*F4)

Напомена: Заграде у овој формули нису неопходне јер ће део за множење израчунати пре дела за одузимање, али чине формулу лакшом за читање.

Да бисмо израчунали горњу границу у ћелији Ф6, поново ћемо помножити ИКР са 1,5, али овај пут га додати у тачку података К3:

=F3+(1.5*F4)

Четврти корак: Идентификујте одсутне

Сада када смо поставили све наше основне податке, време је да идентификујемо наше вањске тачке података—оне које су ниже од доње граничне вредности или веће од вредности горње границе.

Користићемо ОР функција да извршите овај логички тест и покажете вредности које испуњавају ове критеријуме уношењем следеће формуле у ћелију Ц2:

=OR(B2$F$6)

Затим ћемо ту вредност копирати у наше ћелије Ц3-Ц14. ТРУЕ вредност указује на одбацивање, а као што видите, имамо два у нашим подацима.

Игнорисање одступања приликом израчунавања средњег просека

Користећи функцију КУАРТИЛЕ, дозволите нам да израчунамо ИКР и радимо са најчешће коришћеном дефиницијом одступања. Међутим, када се израчунава средњи просек за опсег вредности и занемарују одступања, постоји бржа и лакша функција за коришћење. Ова техника неће идентификовати изузетак као раније, али ће нам омогућити да будемо флексибилни у односу на оно што бисмо могли да сматрамо нашим изузетним делом.

  Који оквир треба да користите?

Функција која нам је потребна зове се ТРИММЕАН, а синтаксу за њу можете видети испод:

=TRIMMEAN(array, percent)

Низ је опсег вредности које желите да усредсредите. Проценат је проценат тачака података које треба искључити са врха и дна скупа података (можете да га унесете као проценат или децималну вредност).

Унели смо формулу испод у ћелију Д3 у нашем примеру да бисмо израчунали просек и искључили 20% одступања.

=TRIMMEAN(B2:B14, 20%)

Ту имате две различите функције за руковање одступницима. Без обзира да ли желите да их идентификујете за неке потребе извештавања или да их искључите из прорачуна као што су просеци, Екцел има функцију која одговара вашим потребама.