Израчунајте одступања

Аутор: Charles Brown
Датум Стварања: 8 Фебруар 2021
Ажурирати Датум: 1 Јули 2024
Anonim
Python - уграђене функције (min, max, abs)
Видео: Python - уграђене функције (min, max, abs)

Садржај

А. оутлиер или оутлиер у статистици је тачка података која се значајно разликује од осталих тачака у узорку. Често оутлиери статистичарима указују на одступања или грешке у мерењима, након чега они могу уклонити одступање из скупа података. Ако се заиста одлуче уклонити изузетке из скупа података, то би могло произвести значајне промене у закључцима изведеним из студије. Због тога је важно израчунати и одредити одступања ако желите правилно тумачити статистичке податке.

На корак

  1. Научите како да уочите могуће одступања. Пре него што одлучимо да ли ћемо уклонити аномалне вредности из одређеног скупа података, морамо прво идентификовати могуће одступања у скупу података. Генерално, оутлиерс су тачке података које значајно одступају од тренда који формира друге вредности у скупу - другим речима, они пуцати осталих вредности. Обично је то лако препознати у табелама и (посебно) на графиконима. Ако се скуп података визуелно графира, одступања ће бити „далеко“ од осталих вредности. На пример, ако већина тачака у скупу података чини праву линију, одступања неће одговарати овој линији.
    • Погледајмо скуп података који приказује температуре 12 различитих предмета у соби. Ако температура 11 предмета флуктуира за највише неколико степени око 21 ° Ц, док један предмет, пећница, има температуру од 150 ° Ц, на први поглед можете видети да је пећница вероватно ван куће.
  2. Поредајте све тачке података од најниже до највише. Први корак у израчунавању одступања је проналажење медијане вредности (или средње вредности) скупа података. Овај задатак постаје много лакши ако су вредности у скупу у редоследу од најниже до највише. Дакле, пре него што наставите, сортирајте вредности у свом скупу података овако.
    • Наставимо са горњим примером. Ево нашег скупа података који показује температуре различитих степени Целзијуса у објектима у соби: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ако сортирамо вредности у скупу од најниже до највише, ово постаје наш нови скуп: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Израчунајте медијану скупа података. Медијана скупа података је тачка података где је половина података изнад ње, а половина података испод ње - то је у ствари „центар“ скупа података. Ако скуп података садржи непаран број поена, медијану је лако пронаћи - медијана је тачка са онолико тачака горе као испод. Ако постоји паран број бодова, јер не постоји један центар, морате узети просек две централне тачке да бисте пронашли медијану. При израчунавању одступања, на медијану се обично односи променљива К2 - јер она лежи између К1 и К3, првог и трећег квартила. Ове варијабле ћемо утврдити касније.
    • Нека вас не збуне скупови података са парним бројем тачака - просек две средње тачке често је број који није у самом скупу података - ово је у реду. Међутим, ако су две средње тачке исте, средња вредност ће наравно бити и овај број - такође ово у реду.
    • У нашем примеру имамо 12 бодова. Средња два члана су тачке 6, односно 7 - 70, односно 71. Дакле, медијана нашег скупа података је средња вредност ове две тачке: ((70 + 71) / 2) =70,5.
  4. Израчунај први квартил. Ова тачка, коју означавамо променљивом К1, је тачка података испод које лежи 25 процената (или четвртина) посматрања. Другим речима, ово је средиште свих тачака у вашем скупу података доле медијана. Ако је паран број вредности испод медијане, поново морате узети просек две средње вредности да бисте пронашли К1, као што сте можда и сами урадили да одредите медијану.
    • У нашем примеру, шест поена је изнад медијане и шест поена испод ње. Да бисмо пронашли први квартил, морамо узети просек две средње тачке у доњих шест поена. Тачке 3 и 4 доњих шест су 70, па је њихова средња вредност ((70 + 70) / 2) =70. Дакле, наша вредност за К1 је 70.
  5. Израчунај трећи квартил. Ова тачка, коју означавамо променљивом К3, је тачка података изнад које се налази 25 процената података. Проналажење К3 је практично исто што и проналазак К1, осим што у овом случају разматрамо тачке горе медијана.
    • Настављајући са горњим примером, видимо да су две средње тачке од шест тачака изнад медијане 71 и 72. Средња вредност ове две тачке је ((71 + 72) / 2) =71,5. Дакле, наша вредност за К3 је 71,5.
  6. Пронађите интерквартилни опсег. Сада када смо утврдили К1 и К3 морамо израчунати растојање између ове две променљиве. Удаљеност између К1 и К3 можете пронаћи одузимањем К1 од К3. Вредност коју добијете за интерквартилни опсег пресудна је за одређивање граница за тачке које не одступају у вашем скупу података.
    • У нашем примеру, вредности за К1 и К3 су 70, односно 71,5. Да бисмо пронашли интерквартилни опсег, израчунавамо К3 - К1: 71,5 - 70 =1,5.
    • Ово функционише чак и ако су К1, К3 или оба броја негативна. На пример, да су наше вредности за К1 -70, интерквартилни опсег би био 71,5 - (-70) = 141,5, што је тачно.
  7. Пронађите „Унутрашња ограничења“ скупа података. Одступања можете препознати утврђивањем да ли спадају у бројне нумеричке границе; такозване „унутрашње границе“ и „спољне границе“. Тачка која излази из унутрашњих граница скупа података класификује се као једна благ оутлиер, а тачка ван спољних граница је класификована као једна крајњи оутлиер. Да бисте пронашли унутрашње границе скупа података, прво помножите интерквартилни опсег са 1,5. Додајте резултат у К3 и одузмите га од К1. Два резултата су унутрашња ограничења вашег скупа података.
    • У нашем примеру, интерквартилни опсег је (71,5 - 70), или 1,5. Помножите ово са 1,5 да бисте добили 2,25. Овај број додајемо у К3 и одузимамо од К1 да бисмо пронашли унутрашње границе како следи:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Дакле, унутрашње границе јесу 67,75 и 73,75.
    • У нашем скупу података, само је температура рерне - 300 степени Фахренхеита - ван овог опсега. Дакле, ово може бити благо одступање. Међутим, тек треба да утврдимо да ли је ова температура крајње необична, па немојмо још пребрзо доносити закључке.
  8. Пронађите „спољна ограничења“ скупа података. То радите на исти начин као и са унутрашњим границама, с једином разликом што помножите интерквартилну удаљеност са 3 уместо са 1,5. Затим резултат додате К3 и одузмете од К1 да бисте пронашли спољне граничне вредности.
    • У нашем примеру множимо интерквартилну удаљеност са 3 да бисмо добили (1,5 * 3) или 4,5. Сада можемо пронаћи спољне границе на исти начин као и унутрашње:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Дакле, спољне границе су 65,5 и 76.
    • Тачке података које се налазе изван спољних граница сматрају се екстремним одступањима. У нашем примеру, температура рерне, 300 степени Фахренхеита, је далеко изнад спољних граница. Дакле, температура рерне је сигурно екстремни оутлиер.
  9. Користите квалитативну процену да бисте утврдили да ли треба да „избаците“ крајње вредности. Помоћу горње методе можете утврдити да ли су одређене тачке благи, крајњи или никакви. Али не грешите - препознавање тачке као одступања чини је само једном кандидат да се уклони из скупа података, а не одмах тачка која се уклања мора претворити се у. Тхе разлог зашто се оутлиер разликује од осталих тачака у скупу је пресудно за одређивање да ли оутлиер треба уклонити. Генерално се уклањају одступања узрокована неком грешком - на пример, грешком у мерењима, снимцима или експерименталном дизајну. Супротно томе, одступања која нису узрокована грешкама и која откривају нове, непредвиђене информације или трендове обично постају не избрисан.
    • Други критеријум који треба размотрити је да ли одступања утичу на средину скупа података на начин који је искривљен или обмањујући. Ово је посебно важно ако планирате да закључке изводите из средине вашег скупа података.
    • Проценимо наш пример. Од највиши Мало је вероватно да је пећ достигла температуру од 300 ° Ф због неке непредвиђене природне силе, у нашем примеру можемо са готово 100% сигурношћу закључити да је пећ случајно укључена, што је изазвало очитавање абнормално високе температуре. Поред тога, ако не уклонимо одступање, средња вредност нашег скупа података излази на (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° Ф, док је средња без оутлиер излази на (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° Ф.
      • Будући да је испуштање узроковано људском грешком и зато што је нетачно рећи да је просечна собна температура била близу 32 ° Ц, морамо одабрати да користимо свој испуштач. уклонити.
  10. Схватите важност (понекад) задржавања крајњих вредности. Иако неке одступања треба уклонити из скупа података зато што су резултат грешака или зато што искривљују резултате на обмањујући начин, друге одступања треба сачувати. На пример, ако је искорак исправно добијен (а самим тим није резултат грешке) и / или ако одступање нуди нови увид у појаву која се мери, не треба га одмах уклонити. Научни експерименти су посебно осетљиве ситуације када је у питању бављење необичним стварима - погрешно уклањање одступања може значити бацање важних информација о новом тренду или открићу.
    • На пример, замислите да дизајнирамо нови лек како би риба у рибогојилишту постала већа. Користимо наш стари скуп података ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), с том разликом што свака тачка сада представља масу рибе (у грамима ) након лечења другим експерименталним леком од рођења. Другим речима, први лек је дао једној риби масу од 71 грама, други је дао маси од 70 грама итд. У овој ситуацији 300 још увек огроман оутлиер, али не бисмо га требали уклонити сада. Јер, ако претпоставимо да одступање није резултат грешке, то представља велики успех у нашем експерименту. Лек који је произвео рибу од 300 грама деловао је боље од било ког другог лека, па је то то највише важна тачка података у нашем скупу, уместо најмање важна тачка података.

Савети

  • Ако пронађете одступања, покушајте да их објасните пре него што их уклоните из скупа података; могу указивати на грешке у мерењу или одступања у расподели.

Неопходности

  • Калкулатор