Dom Miris iz usta Višestruki koeficijent korelacije i koeficijent višestruke determinacije. Višestruka linearna korelacija

Višestruki koeficijent korelacije i koeficijent višestruke determinacije. Višestruka linearna korelacija

Pokušajmo prvo pronaći odgovor na svako od pitanja koje smo identificirali u situaciji u kojoj naš kauzalni model sadrži samo dvije nezavisne varijable.

Višestruka korelacija R i koeficijent determinacije R2

Da biste procijenili agregatni odnos svih nezavisnih varijabli sa zavisnom varijablom, koristite višestruki koeficijent R korelacije. Razlika između višestrukog koeficijenta korelacije R iz bivarijatnog koeficijenta korelacije G je da to može biti samo pozitivno. Za dvije nezavisne varijable može se procijeniti na sljedeći način:

Koeficijent višestruke korelacije se također može odrediti procjenom koeficijenata parcijalne regresije koji čine jednačinu (9.1). Za dvije varijable, ova jednačina će očito poprimiti sljedeći oblik:

(9.2)

Ako se naše nezavisne varijable transformišu u standardne jedinice normalna distribucija, ili Z-distribucija, jednadžba (9.2) će očigledno imati sljedeći oblik:

(9.3)

U jednačini (9.3), koeficijent β označava standardiziranu vrijednost koeficijenta regresije IN.

Sami standardizirani koeficijenti regresije mogu se izračunati korištenjem sljedećih formula:

Sada će formula za izračunavanje koeficijenta višestruke korelacije izgledati ovako:

Drugi način za procjenu koeficijenta korelacije R je proračun bivarijatnog koeficijenta korelacije r između vrijednosti zavisne varijable Y i odgovarajućih vrijednosti izračunatih na osnovu jednačine linearna regresija(9.2). Drugim riječima, vrijednost R može se ocijeniti na sljedeći način:

Uz ovaj koeficijent možemo procijeniti, kao iu slučaju jednostavne regresije, vrijednost R 2, koji se također obično označava kao koeficijent odlučnosti. Baš kao iu situaciji procjene odnosa između dvije varijable, koeficijent determinacije R 2 pokazuje koliki je postotak varijanse zavisne varijable Y , tj. , ispada da je povezano sa disperzijom svih nezavisnih varijabli – . Drugim riječima, koeficijent determinacije se može procijeniti na sljedeći način:

Također možemo procijeniti postotak preostale varijanse u zavisnoj varijabli koja nije povezana ni sa jednom od nezavisnih varijabli 1 – R 2. Kvadratni korijen od ove vrijednosti, tj. količina se, baš kao iu slučaju bivarijantne korelacije, naziva koeficijent otuđenja.

Korelacijski dio

Koeficijent odlučnosti R Slika 2 pokazuje koji se postotak varijanse u zavisnoj varijabli može pripisati varijansi svih nezavisnih varijabli uključenih u kauzalni model. Što je ovaj koeficijent veći, to je kauzalni model koji smo postavili značajniji. Ako se pokaže da ovaj koeficijent nije prevelik, onda se doprinos varijabli koje proučavamo ukupnoj varijansi zavisne varijable također pokazuje da je beznačajan. U praksi, međutim, često je potrebno procijeniti ne samo ukupan doprinos svih varijabli, već i pojedinačni doprinos svake od nezavisnih varijabli koje razmatramo. Takav doprinos se može definisati kao korelacioni deo.

Kao što znamo, u slučaju bivarijantne korelacije, postotak varijanse u zavisnoj varijabli koja je povezana s varijansom u nezavisnoj varijabli može se označiti kao r 2. Međutim, dio ove varijanse u slučaju proučavanja efekata više nezavisnih varijabli istovremeno je posljedica varijanse nezavisne varijable koju koristimo kao kontrolu. Ovi odnosi su jasno prikazani na Sl. 9.1.

Rice. 9.1. Odnos varijansi zavisnog (Y ) i dva nezavisna (X 1IX 2) varijable u korelacione analize sa dve nezavisne varijable

Kao što je prikazano na sl. 9.1, sve varijanse Y , povezana s naše dvije nezavisne varijable, sastoji se od tri dijela, označena a, b I With. dijelovi A I b varijanse Y pripadaju odvojeno varijansama dvije nezavisne varijable – X 1 i X 2. Istovremeno, disperzija dijela c istovremeno povezuje i disperziju zavisne varijable Y i disperziju naše dvije varijable X. Stoga, da bi se procijenio odnos varijable X 1 sa varijablom Y, što nije zbog uticaja varijable X 2 po varijabli Y , potrebno od količine R" 2 oduzmite kvadratnu vrijednost korelacije Y With X 2:

(9.6)

Na sličan način možemo procijeniti dio korelacije Y sa X 2, što nije zbog njegove korelacije sa X 1.

(9.7)

Magnituda sr u jednačinama (9.6) i (9.7) je ono što tražimo korelacioni deo.

Korelacija dijela se također može definirati u smislu uobičajene bivarijantne korelacije:

Na drugi način, djelomična korelacija se naziva semi-parcijalna korelacija. Ovaj naziv znači da se prilikom izračunavanja korelacije efekat druge nezavisne varijable eliminiše u odnosu na vrednosti prve nezavisne varijable, ali se ne eliminiše u odnosu na zavisnu varijablu. Efekat X 1 se nekako prilagođava pomoću vrijednosti X 2, tako da se koeficijent korelacije ne računa između Y I X 1 i između Y i , a vrijednosti se izračunavaju na osnovu vrijednosti X 2 kao što je objašnjeno u poglavlju o jednostavnoj linearnoj regresiji (vidi pododjeljak 7.4.2). Dakle, ispostavlja se da vrijedi sljedeća relacija:

Da bi se procijenila korelacija jedne nezavisne varijable sa zavisnom varijablom u odsustvu uticaja drugih nezavisnih varijabli i na samu nezavisnu varijablu i na zavisnu varijablu, u regresionoj analizi se koristi koncept parcijalne korelacije.

Parcijalne korelacije

privatno, ili djelomično, korelacija određuje se u matematičkoj statistici kroz proporciju varijanse zavisne varijable koja je povezana sa varijansom date nezavisne varijable, u odnosu na celokupnu varijansu ove zavisne varijable, ne računajući onaj njen deo koji je povezan sa varijansom druge nezavisne varijable. Formalno, za slučaj dvije nezavisne varijable, to se može izraziti na sljedeći način:

Parcijalna korelacija vrednuje same sebe pr može se naći na osnovu vrijednosti bivarijatne korelacije:

Djelomična korelacija se stoga može definirati kao obična bivarijantna korelacija između prilagođenih vrijednosti i zavisne i nezavisne varijable. Sama korekcija se provodi u skladu s vrijednostima nezavisne varijable, koja djeluje kao kontrolna varijabla. Drugim riječima, djelomična korelacija između zavisne varijable Y i nezavisna varijabla X i može se definirati kao uobičajena korelacija između vrijednosti i vrijednosti , sa vrijednostima i predviđenim na osnovu vrijednosti druge nezavisne varijable X 2.

Višestruki koeficijent korelacije koristi se kao mjera stepena bliskosti statističke veze između rezultirajućeg indikatora (zavisne varijable) y i skup eksplanatornih (nezavisnih) varijabli ili, drugim riječima, procjenjuje bliskost zajedničkog uticaja faktora na rezultat.

Koeficijent višestruke korelacije može se izračunati korištenjem niza formula 5 , uključujući:

    koristeći matricu koeficijenata korelacije parova

, (3.18)

gdje je  r- determinanta matrice koeficijenata korelacije parova y,
,

r 11 - determinanta matrice međufaktorske korelacije
;

. (3.19)

Za model u kojem postoje dvije nezavisne varijable, formula (3.18) je pojednostavljena

. (3.20)

Kvadrat koeficijenta višestruke korelacije je koeficijent odlučnosti R 2. Kao i kod parne regresije, R 2 ukazuje na kvalitetu regresijskog modela i odražava udio ukupne varijacije rezultirajuće karakteristike y objašnjava se promjenama u regresijskoj funkciji f(x) (vidi 2.4). Osim toga, koeficijent determinacije se može naći pomoću formule

. (3.21)

Međutim, upotreba R 2 u slučaju višestruka regresija nije sasvim tačno, budući da se koeficijent determinacije povećava kada se dodaju regresori u model. To je zato što se rezidualna varijansa smanjuje kada se uvedu dodatne varijable. A ako se broj faktora približi broju zapažanja, tada će preostala varijansa biti jednaka nuli, a koeficijent višestruke korelacije, a samim tim i koeficijent determinacije, će se približiti jedinici, iako je u stvarnosti odnos između faktora i rezultata a moć objašnjenja regresijske jednačine može biti mnogo niža.

Kako bi dobili adekvatnu procjenu koliko je varijacija rezultirajuće karakteristike objašnjena varijacijom nekoliko faktorskih karakteristika, koriste se prilagođeni koeficijent determinacije

(3.22)

Prilagođeni koeficijent determinacije je uvijek manji R 2. Štaviše, za razliku od R 2, što je uvijek pozitivno,
može imati i negativnu vrijednost.

Primjer (nastavak primjera 1). Izračunajmo koeficijent višestruke korelacije prema formuli (3.20):

Vrijednost koeficijenta višestruke korelacije, jednaka 0,8601, ukazuje na jaku vezu između cijene transporta i težine tereta i udaljenosti na kojoj se transportuje.

Koeficijent determinacije je jednak: R 2 =0,7399.

Prilagođeni koeficijent determinacije izračunava se pomoću formule (3.22):

=0,7092.

Imajte na umu da se vrijednost prilagođenog koeficijenta determinacije razlikuje od vrijednosti koeficijenta determinacije.

Tako se 70,9% varijacije zavisne varijable (troškovi transporta) objašnjava varijacijom nezavisnih varijabli (težina tereta i udaljenost transporta). Preostalih 29,1% varijacije zavisne varijable se objašnjava faktorima koji nisu uzeti u obzir u modelu.

Vrijednost prilagođenog koeficijenta determinacije je prilično velika, pa smo u modelu mogli uzeti u obzir najznačajnije faktore koji određuju troškove transporta. 

Koeficijent višestruke korelacije tri varijable pokazatelj je bliskosti linearnog odnosa između jedne od karakteristika (slovo indeksa prije crtice) i kombinacije dvije druge karakteristike (slovo indeksa iza crtice):

; (12.7)

(12.8)

Ove formule olakšavaju izračunavanje višestrukih koeficijenata korelacije kada poznate vrednosti koeficijenti korelacije parova r xy, r xz i r yz.

Koeficijent R nije negativan i uvijek se kreće od 0 do 1. Kako se približavate R Do jedne, povećava se stepen linearne povezanosti između tri karakteristike. Između koeficijenta višestruke korelacije, npr. R y-xz, i dva koeficijenta korelacije para r yx I r yz postoji sljedeća veza: svaki od uparenih koeficijenata ne može premašiti apsolutna vrijednost R y-xz.

Koeficijent višestruke korelacije na kvadrat R 2 naziva se koeficijent višestruke determinacije. Pokazuje udio varijacije zavisne varijable pod uticajem faktora koji se proučavaju.

Značaj višestruke korelacije se procjenjuje pomoću
F– kriterijum:

, (12.9)

n- veličina uzorka,

k– broj karakteristika; u našem slučaju k = 3.

Teorijska vrijednost F– kriterijumi su preuzeti iz tabele za prijavu za ν 1 = k–1 i ν 2 = n–k stepena slobode i prihvaćenog nivoa značaja. Nul hipoteza da je koeficijent višestruke korelacije u populaciji jednak nuli ( H0:R= 0) se prihvata ako F činjenica.< F табл . i odbija se ako F činjenica. ≥ F tabela.

Kraj rada -

Ova tema pripada sekciji:

Math statistics

Obrazovna ustanova.. Gomel Državni univerzitet.. nazvan po Franji Skarini Yu M Žučenku..

Ako vam je potreban dodatni materijal na ovu temu, ili niste pronašli ono što ste tražili, preporučujemo da koristite pretragu u našoj bazi radova:

Šta ćemo sa primljenim materijalom:

Ako vam je ovaj materijal bio koristan, možete ga spremiti na svoju stranicu na društvenim mrežama:

Sve teme u ovoj sekciji:

Tutorial
za studente koji studiraju na specijalnosti 1-31 01 01 “Biologija” Gomel 2010.

Predmet i metoda matematičke statistike
Predmet matematičke statistike je proučavanje svojstava masovnih pojava u biologiji, ekonomiji, tehnologiji i drugim oblastima. Ove pojave se obično predstavljaju kao složene zbog raznolikosti (varijacija)

Koncept slučajnog događaja
Statistička indukcija ili statistički zaključak, kao glavni komponenta metode za proučavanje masovnih pojava, imaju svoje karakteristične karakteristike. Statistički zaključci se donose brojčanim

Vjerovatnoća slučajnog događaja
Numerička karakteristika slučajnog događaja koja ima svojstvo da se za bilo koju dovoljno veliku seriju testova učestalost događaja samo malo razlikuje od ove karakteristike naziva se

Izračunavanje vjerovatnoće
Često postoji potreba da se istovremeno sabiraju i množe vjerovatnoće. Na primjer, trebate odrediti vjerovatnoću da dobijete 5 bodova kada bacate 2 kockice u isto vrijeme. Vjerovatno je potreban iznos

Koncept slučajne varijable
Nakon što smo definisali pojam vjerovatnoće i razjasnili njegova glavna svojstva, pređimo na razmatranje jednog od najvažnijih koncepata teorije vjerovatnoće - koncepta slučajne varijable. Pretpostavimo da je to rezultat

Diskretne slučajne varijable
Slučajna varijabla je diskretna ako je skup njenih mogućih vrijednosti konačan ili barem prebrojiv. Pretpostavimo da slučajna varijabla X može uzeti vrijednosti x1

Kontinuirane slučajne varijable
Za razliku od diskretnih slučajnih varijabli o kojima se raspravljalo u prethodnom pododjeljku, populacija moguće vrijednosti kontinuirana slučajna varijabla ne samo da nije konačna, već i ne može biti

Očekivanja i varijanse
Često postoji potreba da se distribucija slučajne varijable karakteriše korišćenjem jednog ili dva numerička indikatora koji izražavaju najbitnija svojstva ove distribucije. Za takve

Trenuci
Takozvani momenti distribucije slučajne varijable su od velikog značaja u matematičkoj statistici. U matematičkom očekivanju, velike vrijednosti slučajne varijable nisu dovoljno uzete u obzir.

Binomna distribucija i mjerenje vjerovatnoće
U ovoj temi ćemo razmotriti glavne tipove distribucije diskretnih slučajnih varijabli. Pretpostavimo da je vjerovatnoća pojave nekog slučajnog događaja A tokom jednog pokušaja jednaka

Pravokutna (ujednačena) distribucija
Pravokutna (ujednačena) distribucija - najjednostavniji tip kontinuirane distribucije. Ako slučajna varijabla X može uzeti bilo koju realnu vrijednost u intervalu (a, b), gdje su a i b realni

Normalna distribucija
Normalna distribucija igra fundamentalnu ulogu u matematičkoj statistici. To nije ni najmanje slučajno: u objektivnoj stvarnosti vrlo se često susreću različiti znakovi

Lognormalna distribucija
Slučajna varijabla Y ima lognormalnu distribuciju s parametrima μ i σ ako slučajna varijabla X = lnY ima normalnu distribuciju sa istim parametrima μ i &

Prosječne vrijednosti
Od svih grupnih svojstava, prosječni nivo, mjeren prosječnom vrijednošću atributa, ima najveći teorijski i praktični značaj. Prosječna vrijednost karakteristike je veoma dubok koncept,

Opšta svojstva prosjeka
Za ispravnu upotrebu prosječnih vrijednosti potrebno je poznavati svojstva ovih indikatora: srednju lokaciju, apstraktnost i jedinstvo ukupne akcije. Prema svojoj brojčanoj vrijednosti

Aritmetička sredina
Aritmetička sredina, koja ima opšta svojstva prosečnih vrednosti, ima svoje karakteristike, koje se mogu izraziti sledećim formulama:

Prosječan rang (neparametarski prosjek)
Prosječni rang se utvrđuje za karakteristike za koje kvantitativne metode mjerenja još nisu pronađene. Prema stepenu ispoljavanja ovakvih znakova, objekti se mogu rangirati, odnosno locirati

Ponderisani aritmetički prosjek
Obično, za izračunavanje aritmetičkog prosjeka, sve vrijednosti atributa se zbrajaju, a rezultirajući zbroj se dijeli s brojem opcija. U ovom slučaju, svaka vrijednost uključena u zbir povećava ga u potpunosti

Srednji kvadrat
Srednji kvadratni korijen izračunava se pomoću formule: , (6.5) jednak je kvadratnom korijenu sume

Medijan
Medijan je karakteristična vrijednost koja cijelu grupu dijeli na dva jednaka dijela: jedan dio ima karakterističnu vrijednost manju od medijane, a drugi veću vrijednost. Na primjer, ako imate

Geometrijska sredina
Da biste dobili geometrijsku sredinu za grupu s n podataka, trebate pomnožiti sve opcije i izdvojiti iz rezultirajućeg proizvoda n-ti korijen stepeni:

Harmonična sredina
Harmonička sredina se izračunava pomoću formule. (6.14) Za pet opcija: 1, 4, 5, 5 srijeda

Broj stepeni slobode
Broj stupnjeva slobode jednak je broju elemenata slobodne raznolikosti u grupi. On je jednak broju svih dostupnih elemenata učenja bez broja ograničenja raznolikosti. Na primjer, za istraživanje

Koeficijent varijacije
Standardna devijacija– imenovana veličina, izražena u istim mjernim jedinicama kao i aritmetička sredina. Stoga, za poređenje različiti znakovi, izraženo u različitim jedinicama od

Ograničenja i obim
Za brzu i grubu procjenu stepena raznolikosti često se koriste najjednostavniji indikatori: lim = (min ¸ max) – granice, tj. najmanji i najveća vrijednost znak, p =

Normalizovano odstupanje
Obično se stepen razvijenosti osobine utvrđuje njenim merenjem i izražava određenim imenovanim brojem: 3 kg težine, 15 cm dužine, 20 udica na krilu pčela, 4% masti u mleku, 15 kg clipping

Prosjek i sigma ukupne grupe
Ponekad je potrebno odrediti srednju vrijednost i sigmu za zbirnu distribuciju koja se sastoji od nekoliko distribucija. U ovom slučaju nisu poznate same distribucije, već samo njihovi prosjeci i sigme.

Kosina (iskrivljenost) i strmina (kurtosis) krivulje distribucije
Za velike uzorke (n > 100) izračunavaju se još dvije statistike. Kosina krivulje naziva se asimetrija:

Varijacijska serija
Kako se broj proučavanih grupa povećava, sve je očigledniji obrazac raznolikosti koji je u malim grupama bio skriven slučajnim oblikom njegovog ispoljavanja.

Histogram i krivulja varijacije
Histogram je varijantne serije, predstavljen u obliku dijagrama u kojem su različite vrijednosti frekvencije predstavljene različitim visinama šipki. Histogram distribucije podataka prikazan je na str

Pouzdanost razlika u distribucijama
Statistička hipoteza je specifična pretpostavka o distribuciji vjerovatnoće koja leži u osnovi promatranog uzorka podataka. Ispitivanje statistička hipoteza je proces prihvatanja

Kriterijum za iskrivljenost i eksces
Neke karakteristike biljaka, životinja i mikroorganizama, pri kombinovanju objekata u grupe, daju distribucije koje se značajno razlikuju od normalnih. U slučajevima kada postoji

Populacija i uzorak
Čitav niz pojedinaca određene kategorije naziva se opšta populacija. Volume stanovništva određena ciljevima studije. Ako se proučava neka divlja vrsta

Reprezentativnost
Direktno proučavanje grupe odabranih objekata daje, prije svega, primarni materijal i karakteristike samog uzorka. Svi uzorci podataka i zbirni indikatori su relevantni

Greške reprezentativnosti i druge greške istraživanja
Procjena općih parametara korištenjem indikatora uzorka ima svoje karakteristike. Dio nikada ne može u potpunosti okarakterizirati cjelinu, dakle karakteristike opšte populacije

Granice povjerenja
Neophodno je odrediti veličinu grešaka reprezentativnosti kako bi se pomoću indikatora uzorka pronašli i moguće vrijednosti općih parametara. Ovaj proces se naziva o

Opšti postupak ocjenjivanja
Tri veličine potrebne za procjenu općeg parametra - indikator uzorka (), kriterij pouzdanosti

Procjena aritmetičke sredine
Procjena prosječne vrijednosti ima za cilj utvrđivanje vrijednosti opšteg prosjeka za proučavanu kategoriju objekata. Greška reprezentativnosti potrebna za ovu svrhu određena je formulom:

Procjena srednje razlike
Neke studije uzimaju razliku dva mjerenja kao primarni podatak. Ovo može biti slučaj kada se svaki pojedinac u uzorku proučava u dva stanja - ili u u različitim godinama, ili str

Nepouzdana i pouzdana procjena srednje razlike
Takvi rezultati studija uzoraka za koje se ne može dobiti definitivna procjena općeg parametra (ili je veći od nule, manji od, ili jednak nuli) nazivaju se nepouzdanim.

Procjena razlike između općih srednjih vrijednosti
U biološkim istraživanjima razlika između dvije veličine je od posebnog značaja. Po razlici se vrše poređenja između različitih populacija, rasa, pasmina, sorti, linija, porodica, eksperimentalnih i kontrolnih grupa (gr metoda

Kriterijum pouzdanosti razlike
Štaviše veliki značaj, što je važno za istraživače da dobiju pouzdane razlike, postoji potreba za ovladavanjem metodama koje omogućavaju da se utvrdi da li je rezultat pouzdan, realan

Reprezentativnost u proučavanju kvalitativnih karakteristika
Kvalitativne karakteristike obično ne mogu imati gradacije ispoljavanja: one su prisutne ili nisu prisutne kod svakog pojedinca, na primer, pol, polnost, prisustvo ili odsustvo nekih karakteristika, deformitet

Pouzdanost razlike udjela
Pouzdanost razlike u proporcijama uzorka određuje se na isti način kao i za razliku srednjih vrijednosti: (10,34)

Koeficijent korelacije
Mnoga istraživanja zahtijevaju ispitivanje više osobina u njihovim međusobnim odnosima. Ako takvu studiju provedete u odnosu na dvije karakteristike, primijetit ćete da varijabilnost jedne karakteristike nije

Greška koeficijenta korelacije
Kao i svaka vrijednost uzorka, koeficijent korelacije ima vlastitu grešku reprezentativnosti, izračunatu za velike uzorke pomoću formule:

Pouzdanost koeficijenta korelacije uzorka
Kriterijum za koeficijent korelacije uzorka određen je formulom: (11.9) gdje je:

Granice povjerenja koeficijenta korelacije
Granice pouzdanosti opće vrijednosti koeficijenta korelacije su na opšti način prema formuli:

Pouzdanost razlike između dva koeficijenta korelacije
Pouzdanost razlike u koeficijentima korelacije određuje se na isti način kao i pouzdanost razlike u srednjim vrijednostima, prema uobičajenoj formuli

Jednačina ravne regresije
Pravolinijska korelacija je drugačija po tome što kod ovog oblika veze svaka od identičnih promjena prve karakteristike odgovara potpuno određenoj i također u prosjeku istovjetnoj promjeni druge karakteristike.

Greške u elementima jednadžbe linearne regresije
U jednostavnoj jednačini linearne regresije: y = a + bx, javljaju se tri greške reprezentativnosti. 1 Greška regresijskog koeficijenta:

Parcijalni koeficijent korelacije
Parcijalni koeficijent korelacija je indikator koji mjeri stepen konjugacije dvije karakteristike sa konstantnom vrijednošću treće. Math statistics omogućava vam da uspostavite korelaciju

Jednačina linearne višestruke regresije
Matematička jednačina za linearni odnos između tri varijable naziva se višestruka linearna jednačina regresijske ravni. Ima sljedeći opći oblik:

Korelacioni odnos
Ako odnos između proučavanih pojava značajno odstupa od linearnog, što je lako utvrditi iz grafa, tada je koeficijent korelacije neprikladan kao mjera povezanosti. On može da ukaže na odsustvo

Svojstva korelacione relacije
Odnos korelacije meri stepen korelacije u bilo kom obliku. Pored toga, korelacioni odnos ima niz drugih svojstava koja su od velikog značaja za statistiku

Greška reprezentativnosti korelacionog odnosa
Tačna formula za grešku reprezentativnosti korelacionog odnosa još nije razvijena. Formula koja se obično daje u udžbenicima ima nedostatke koji se ne mogu uvijek zanemariti. Ova formula ne uči

Kriterijum linearnosti korelacije
Da bi se odredio stepen aproksimacije krivolinijske zavisnosti pravolinijskoj, koristi se F kriterijum izračunat po formuli:

Kompleks disperzije
Kompleks disperzije je skup gradacija sa podacima uključenim u studiju i prosjekom podataka za svaku gradaciju (djelimični prosjek) i za cijeli kompleks (ukupni prosjek).

Statistički uticaji
Statistički uticaj je odraz u raznolikosti rezultirajućeg atributa različitosti faktora (njegovih gradacija) koji je organizovan u studiji. Procijeniti uticaj neo faktora

Faktorski uticaj
Faktorski uticaj je jednostavan ili kombinovani statistički uticaj faktora koji se proučavaju. U jednofaktorskim kompleksima proučava se jednostavan uticaj jednog faktora na određenu organizaciju

Jednofaktorski disperzioni kompleks
Analiza varijanse razvio i uveo u praksu poljoprivrednih i bioloških istraživanja engleski naučnik R. A. Fisher, koji je otkrio zakon raspodjele srednjeg kvadratnog odnosa

Kompleks multifaktorske disperzije
Jasna ideja o matematički model analiza varijanse olakšava razumijevanje potrebnih računskih operacija, posebno pri obradi podataka iz multivarijantnih eksperimenata u kojima više

Transformacije
Pravilna upotreba analiza varijanse za obradu eksperimentalnog materijala pretpostavlja homogenost varijansi po varijantama (uzorcima), normalnu ili blisku normalnoj distribuciji u

Indikatori jačine uticaja
Određivanje jačine uticaja na osnovu njihovih rezultata potrebno je u biologiji, poljoprivredi i medicini kako bi se odabralo najviše efektivna sredstva efekti, za doziranje fizičkih i hemijskih sredstava - st.

Greška reprezentativnosti glavnog indikatora jačine uticaja
Tačna formula greške za glavni indikator jačine uticaja još nije pronađena. U jednofaktorskim kompleksima, kada se greška reprezentativnosti utvrđuje samo za jedan faktorski indikator

Granične vrijednosti indikatora uticaja
Glavni pokazatelj jačine uticaja je jednak udjelu jednog pojma u ukupnom zbiru termina. Osim toga, ovaj indikator jednak kvadratu korelacioni odnos. Iz ova dva razloga, indikator napajanja

Pouzdanost uticaja
Glavni pokazatelj moći uticaja dobijenog u uzorak studije, karakterizira, prije svega, stupanj utjecaja koji se stvarno manifestirao u grupi predmeta koji se proučava

Diskriminantna analiza
Diskriminantna analiza je jedna od metoda multivarijantne statističke analize. Svrha diskriminantne analize je da se na osnovu mjerenja različitih karakteristika (osobine, parovi)

Izjava problema, metode rješenja, ograničenja
Pretpostavimo da postoji n objekata sa m karakteristika. Kao rezultat mjerenja, svaki objekt karakterizira vektor x1 ... xm, m >1. Izazov je to

Pretpostavke i ograničenja
Diskriminantna analiza “radi” ako su ispunjene brojne pretpostavke. Pretpostavka da vidljive veličine – mjerljive karakteristike objekta – imaju normalnu distribuciju. Ovo

Algoritam diskriminantne analize
Rješenje problema diskriminacije (diskriminantna analiza) sastoji se od podjele cijelog prostora uzorka (skupa realizacija svih multidimenzionalnih slučajnih varijabli koje se razmatraju) na određeni broj

Klaster analiza
Klaster analiza spaja razne procedure, koristi se za klasifikaciju. Kao rezultat primjene ovih procedura, početni skup objekata se dijeli na klastere ili grupe

Metode klaster analize
U praksi se obično primjenjuju metode aglomerativnog klasteriranja. Obično, prije početka klasifikacije, podaci se standardiziraju (prosjek se oduzima i dijeli s kvadratnim korijenom

Algoritam klaster analize
Klaster analiza je skup metoda za klasifikaciju višedimenzionalnih zapažanja ili objekata zasnovanih na definisanju koncepta udaljenosti između objekata i zatim identifikovanju grupa od njih, &

7.1. Analiza linearne regresije sastoji se od odabira grafa za skup opažanja korištenjem metode najmanjih kvadrata. Regresiona analiza nam omogućava da uspostavimo funkcionalni odnos između nekih slučajna varijabla Y i neki uticaj Y vrijednosti X. Ova zavisnost se naziva jednačina regresije. Postoje jednostavne ( y=m*x+b) i množina ( y=m 1 *x 1 +m 2 *x 2 +... + m k *x k +b) regresija linearnog i nelinearnog tipa.
Za procjenu stepena povezanosti između veličina koristi se Pearson R koeficijent višestruke korelacije(korelacijski odnos), koji može imati vrijednosti od 0 do 1. R=0 ako ne postoji odnos između veličina, i R=1 ako postoji funkcionalna veza između veličina. U većini slučajeva, R uzima srednje vrijednosti od 0 do 1. Vrijednost R 2 pozvao koeficijent odlučnosti.
Zadatak konstruisanja regresijske zavisnosti je pronalaženje vektora koeficijenata M model višestruke linearne regresije, u kojem je koeficijent R uzima maksimalnu vrijednost.
Za procjenu značaja R primjenjuje Fišerov F test, izračunato po formuli:

Gdje n– broj eksperimenata; k– broj koeficijenata modela. Ako F premašuje neku kritičnu vrijednost za podatke n I k i prihvaćeno verovatnoća poverenja, zatim vrijednost R smatra značajnim.

7.2. Alat Regresija od Paket analiza omogućava vam da izračunate sljedeće podatke:

· kvote linearna funkcija regresija– metoda najmanjih kvadrata; tip funkcije regresije je određen strukturom izvornih podataka;

· koeficijent determinacije i srodne veličine(tabela Statistika regresije);

· tabela varijanse i statistika kriterijuma za testiranje značajnosti regresije(tabela Analiza varijanse);

· standardna devijacija i njene druge statističke karakteristike za svaki koeficijent regresije, što vam omogućava da provjerite značaj ovog koeficijenta i konstruišete intervale povjerenja za njega;

· vrijednosti funkcije regresije i reziduale– razlike između početnih vrijednosti varijable Y i izračunate vrijednosti funkcije regresije (tab Povlačenje bilansa);

· vjerovatnoće koje odgovaraju vrijednostima varijable Y poredanih u rastućem redoslijedu(tabela Izlaz vjerovatnoće).

7.3. Pozovite alat za odabir putem Podaci > Analiza podataka > Regresija.

7.4. Na terenu Interval unosa Y unesite adresu raspona koji sadrži vrijednosti zavisne varijable Y. Opseg se mora sastojati od jedne kolone.
Na terenu Interval unosa X unesite adresu raspona koji sadrži vrijednosti varijable X. Opseg se mora sastojati od jedne ili više kolona, ​​ali ne više od 16 kolona. Ako je navedeno u poljima Interval unosa Y I Interval unosa X opsezi uključuju zaglavlja kolona, ​​tada morate označiti okvir sa opcijama Oznake– ova zaglavlja će se koristiti u izlaznim tabelama koje generira alat Regresija.
Potvrdni okvir opcija Konstanta - nula treba uspostaviti ako jednačina regresije ima konstantu b je prinudno jednak nuli.
Opcija Nivo pouzdanosti se postavlja kada je potrebno konstruirati intervale povjerenja za koeficijente regresije s razinom pouzdanosti drugačijim od 0,95, koji se koristi po defaultu. Nakon što potvrdite izbor u polju Nivo pouzdanosti Postaje dostupno polje za unos u koje se unosi nova vrijednost nivoa pouzdanosti.
U području Ostaci Postoje četiri opcije: Ostaci, Standardizovani bilansi, Bilans grafikon I Raspored odabira. Ako je barem jedan od njih instaliran, tabela će se pojaviti u rezultatima izlaza Povlačenje bilansa, koji će prikazati vrijednosti regresijske funkcije i reziduale - razlike između početnih vrijednosti varijable Y i izračunatih vrijednosti regresijske funkcije. U području Normalna vjerovatnoća Postoji jedna opcija – ; njegova instalacija generiše tabelu u izlaznim rezultatima Izlaz vjerovatnoće i vodi do konstrukcije odgovarajućeg grafa.


7.5. Podesite parametre prema slici. Uvjerite se da je Y vrijednost prva varijabla (uključujući ćeliju s imenom), a vrijednost X druge dvije varijable (uključujući ćelije s imenima). Kliknite uredu.

7.6. U tabeli Statistika regresije Dati su sljedeći podaci.

Množina R– korijen koeficijenta determinacije R 2 dat u sljedećem redu. Drugi naziv za ovaj indikator je indeks korelacije ili koeficijent višestruke korelacije.

R-kvadrat– koeficijent determinacije R 2 ; izračunato kao omjer regresijski zbir kvadrata(ćelija C12) do ukupan zbir kvadrata(ćelija C14).

Normalizirani R-kvadrat izračunato po formuli

gdje je n broj vrijednosti varijable Y, k je broj stupaca u ulaznom intervalu varijable X.

Standardna greška– korijen preostale varijanse (ćelija D13).

Zapažanja– broj vrijednosti varijable Y.

7.7. IN Tablica disperzije u koloni SS sume kvadrata su date u koloni df– broj stepeni slobode. u koloni GOSPOĐA– disperzija. U redu Regresija u koloni f Vrijednost statistike kriterija izračunata je kako bi se testirala značajnost regresije. Ova vrijednost se izračunava kao omjer varijanse regresije i preostale varijanse (ćelije D12 i D13). U koloni Značaj F izračunava se verovatnoća dobijene vrednosti statistike kriterijuma. Ako je ova vjerovatnoća manja od, na primjer, 0,05 (dati nivo značajnosti), tada se hipoteza o beznačajnosti regresije (tj. hipoteza da su svi koeficijenti funkcije regresije jednaki nuli) odbacuje i regresija se smatra značajnim. U ovom primjeru, regresija nije značajna.

7.8. U sljedećoj tabeli, u koloni Odds, upisane su izračunate vrijednosti koeficijenata funkcije regresije, dok su u redu Y-raskrsnica upisuje se vrijednost slobodnog termina b. U koloni Standardna greška Izračunate su standardne devijacije koeficijenata.
U koloni t-statistika Bilježe se omjeri vrijednosti koeficijenata i njihovih standardnih devijacija. Ovo su vrijednosti statistike kriterija za testiranje hipoteza o značajnosti koeficijenata regresije.
U koloni P-vrijednost izračunavaju se nivoi značajnosti koji odgovaraju vrijednostima statistike kriterija. Ako je izračunati nivo značajnosti manji od specificiranog nivoa značajnosti (na primjer, 0,05). tada se prihvata hipoteza da se koeficijent značajno razlikuje od nule; u suprotnom se prihvata hipoteza da se koeficijent neznatno razlikuje od nule. U ovom primjeru samo koeficijent b značajno se razlikuje od nule, ostalo - beznačajno.
U kolonama donjih 95% I Top 95% date su granice intervala pouzdanosti sa nivoom pouzdanosti od 0,95. Ove granice se izračunavaju pomoću formula
Donji 95% = Koeficijent - Standardna greška * t α;
Gornjih 95% = koeficijent + standardna greška * t α.
Evo t α– kvantil narudžbe α Studentove t distribucije sa (n-k-1) stepenima slobode. IN u ovom slučaju α = 0,95. Granice intervala pouzdanosti u kolonama se izračunavaju na isti način Donjih 90,0% I Top 90,0%.

7.9. Razmotrite tabelu Povlačenje bilansa iz izlaznih rezultata. Ova tabela se pojavljuje u rezultatima izlaza samo kada je postavljena barem jedna opcija u području Ostaci dijaloški okvir Regresija.

U koloni Opservation dati su serijski brojevi vrijednosti varijabli Y.
U koloni Predviđeno Y vrijednosti funkcije regresije y i = f(x i) se izračunavaju za te vrijednosti varijable X, što odgovara serijski broj i u koloni Opservation.
U koloni Ostaci sadrži razlike (ostatke) ε i =Y-y i, i kolonu Standardni bilansi– normalizovani ostaci, koji se računaju kao odnosi ε i / s ε. gdje je s ε standardna devijacija reziduala. Kvadrat vrijednosti s ε izračunava se pomoću formule

gdje je prosjek ostataka. Vrijednost se može izračunati kao omjer dvije vrijednosti iz tabele disperzije: sume kvadrata reziduala (ćelija C13) i stupnjeva slobode iz reda Ukupno(ćelija B14).

7.10. Po vrijednostima tablice Povlačenje bilansa grade se dvije vrste grafikona: rezidualni grafikoni I rasporedi izbora(ako su odgovarajuće opcije postavljene u tom području Ostaci dijaloški okvir Regresija). Oni su napravljeni za svaku varijabilnu komponentu X odvojeno.

On bilansne karte prikazana su stanja, tj. razlike između originalnih vrijednosti Y i izračunati iz regresijske funkcije za svaku vrijednost varijabilne komponente X.

On rasporedi izbora prikazuje i originalne Y vrijednosti i izračunate vrijednosti funkcije regresije za svaku vrijednost varijabilne komponente X.

7.11. Poslednja tabela izlaznih rezultata je tabela Izlaz vjerovatnoće. Pojavljuje se ako u dijaloškom okviru Regresija instalirana opcija Grafikon normalne vjerovatnoće.
Vrijednosti stupaca Percentil izračunavaju se na sljedeći način. Korak se izračunava h = (1/n)*100%, prva vrijednost je h/2, ovo drugo je jednako 100-h/2. Počevši od druge vrijednosti, svaka sljedeća vrijednost jednaka je prethodnoj, kojoj se dodaje korak h.
U koloni Y date su vrijednosti varijabli Y, sortirano uzlaznim redoslijedom. Na osnovu podataka u ovoj tabeli, tzv graf normalne distribucije. Omogućava vam da vizuelno procenite stepen linearnosti odnosa između varijabli X I Y.


8. D analiza varijanse

8.1. Paket analiza omogućava tri tipa analize varijanse. Izbor specifičnog instrumenta određen je brojem faktora i brojem uzoraka u skupu podataka koji se proučava.
koristi se za testiranje hipoteze da su srednje vrijednosti dva ili više uzoraka koji pripadaju istoj populaciji slične.
Dvosmjerna ANOVA sa ponavljanjima je složenija opcija univarijantna analiza, uključujući više od jednog uzorka za svaku grupu podataka.
Dvosmjerna ANOVA bez ponavljanja je dvosmjerna analiza varijanse koja ne uključuje više od jednog uzorka po grupi. Koristi se za testiranje hipoteze da su srednja vrijednost dva ili više uzoraka ista (uzorci pripadaju istoj populaciji).

8.2. Jednosmjerna ANOVA

8.2.1. Pripremimo podatke za analizu. Kreirajte novi list i kopirajte kolone na njega A B C D. Uklonite prva dva reda. Pripremljeni podaci se mogu koristiti za provođenje Jednosmjerna analiza varijanse.

8.2.2. Pozovite alat za odabir putem Podaci > Analiza podataka > Jednosmjerna ANOVA. Popunite prema slici. Kliknite uredu.

8.2.3. Razmotrite tabelu Rezultati: Provjeri– broj ponavljanja, Suma– zbir vrijednosti indikatora po redu, Disperzija– djelomična varijansa indikatora.

8.2.4. Table Analiza varijanse: prva kolona Izvor varijacije sadrži naziv disperzija, SS– zbir kvadrata odstupanja, df- stepen slobode, GOSPOĐA– prosečan kvadrat, F-test stvarna F distribucija. P-vrijednost– vjerovatnoća da je varijansa reprodukovana jednadžbom jednaka varijansi reziduala. Njime se utvrđuje vjerovatnoća da se dobijena kvantitativno određivanje odnosa između faktora i rezultata može smatrati slučajnim. F-kritično je teoretska vrijednost F, koja se naknadno upoređuje sa stvarnim F.

8.2.5. Nul hipoteza jednakosti matematička očekivanja svih uzoraka je prihvaćeno ako je nejednakost F-test < F-kritično. ovu hipotezu treba odbaciti. U ovom slučaju, prosječne vrijednosti uzoraka se značajno razlikuju.

IN regresijska statistika naznačen je koeficijent višestruke korelacije (množina R) i odlučnost (R-kvadrat) između Y i niza faktorskih karakteristika (što se poklapa sa prethodno dobijenim vrednostima u korelacionoj analizi)

Srednji dio stola (Analiza varijanse) neophodno da se testira značaj jednačine regresije.

Dno tabele - tačno

konačne procjene bi koeficijenata opšte regresije bi, testiranje njihove važnosti i intervalne procjene.

Procjena vektora koeficijenata b (kolona Odds):

Tada procjena jednadžbe regresije ima oblik:

Potrebno je provjeriti značaj jednačine regresije i rezultirajućih regresijskih koeficijenata.

Provjerimo značaj jednačine regresije na nivou b=0,05, tj. hipoteza H0: v1=v2=v3=…=vk=0. Da biste to učinili, izračunava se promatrana vrijednost F-statistike:

Excel to pokazuje u rezultatima analiza varijanse:

QR=527.4296; Qost=1109.8673 =>

U koloni F vrijednost je naznačena Fvidljivo.

Iz tablica F-distribucije ili korištenjem ugrađene statističke funkcije FDISCOVER za nivo značajnosti b=0,05 i broj stepena slobode brojila n1=k=4 i nazivnika n2=n-k-1=45 nalazimo kritičnu vrednost F-statistike jednaku

Fcr = 2,578739184

Pošto posmatrana vrednost F-statistike prelazi njenu kritičnu vrednost 8,1957 > 2,7587, hipoteza o jednakosti vektora koeficijenata se odbacuje sa verovatnoćom greške od 0,05. Posljedično, barem jedan element vektora b=(b1,b2,b3,b4)T se značajno razlikuje od nule.

Provjerimo značaj pojedinih koeficijenata regresione jednačine, tj. hipoteza .

Testiranje značajnosti koeficijenata regresije vrši se na osnovu t-statistike za nivo značajnosti.

Uočene vrijednosti t-statistike su navedene u tabeli rezultata u koloni t-statistika.

koeficijenti (bi)

t-statistika (tob)

Y-raskrsnica

Varijabla X5

Varijabla X7

Varijabla X10

Varijabla X15

Moraju se uporediti sa kritičnom vrijednošću tcr pronađenom za nivo značajnosti b=0,05 i broj stupnjeva slobode n=n – k - 1.

Da bismo to učinili, koristimo ugrađenu statističku funkciju Excel STUDISPOBR, unošenjem u predloženi meni verovatnoće b = 0,05 i broja stepeni slobode n = n–k-1 = 50-4-1 = 45. (Vrijednosti tcr možete pronaći iz tabela matematičke statistike.

Dobijamo tcr = 2,014103359.

Za posmatranu vrijednost t-statistike je manja od kritične u apsolutnoj vrijednosti 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629 |.

Shodno tome, hipoteza da su ovi koeficijenti jednaki nuli se ne odbacuje sa vjerovatnoćom greške od 0,05, tj. odgovarajući koeficijenti su beznačajni.

Za posmatranu t-statističku vrijednost je veća kritična vrijednost modulo |3,7658|>2,0141, dakle, hipoteza H0 se odbacuje, tj. - značajno

Značajnost koeficijenata regresije se također provjerava sljedećim stupcima rezultirajuće tabele:

Kolona str-značenje pokazuje značaj parametara modela na graničnom nivou od 5%, tj. ako je p≤0,05, tada se odgovarajući koeficijent smatra značajnim, ako je p>0,05 onda je beznačajan.

I poslednje kolone - niže 95% I gornjih 95% I donjih 98% I top 98% - ovo su intervalne procjene koeficijenata regresije sa specificiranim nivoima pouzdanosti za r = 0,95 (uvijek se izdaju) i r = 0,98 (izdaju se kada je postavljena odgovarajuća dodatna pouzdanost).

Ako donji i gornje granice imaju isti predznak (nula nije uključena u interval povjerenja), tada se odgovarajući koeficijent regresije smatra značajnim, inače – beznačajnim

Kao što se može vidjeti iz tabele, za koeficijent b3 p-vrijednost p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.

Prema algoritmu stepenaste regresione analize uz isključenje beznačajnih regresora, u sljedećoj fazi potrebno je iz razmatranja isključiti varijablu koja ima beznačajan koeficijent regresije.

U slučaju kada se tokom procene regresije identifikuje nekoliko beznačajnih koeficijenata, prvi koji se isključuje iz jednačine regresije je regresor za koji je t-statistika () minimalna u apsolutnoj vrednosti. Prema ovom principu, u sljedećoj fazi potrebno je isključiti varijablu X5 koja ima beznačajan koeficijent regresije b2

II FAZA REGRESNE ANALIZE.

Model uključuje faktorske karakteristike X7, X10, X15, a isključuje X5.

ZAKLJUČAK REZULTATA

Statistika regresije

Množina R

R-kvadrat

Normalizirani R-kvadrat

Standardna greška

Zapažanja

Analiza varijanse

(broj stepena slobode n)

(zbir kvadratnih devijacija Q)

(srednji kvadrat MS=SS/n)

(Fobovi = MSR/MSost)

Značaj F

Regresija

Odds

Standardna greška

t-statistika

P-vrijednost

Top 95% (bimax)

Donji 98% (bimin)

Y-raskrsnica

Varijabla X7

Varijabla X10

Varijabla X15



Novo na sajtu

>

Najpopularniji