Lucrarea nr. 1 Statistică descriptivă (Excel)

Size: px
Start display at page:

Download "Lucrarea nr. 1 Statistică descriptivă (Excel)"

Transcription

1 Statistică multivariată Lucrarea nr. 1 Statistică descriptivă (Excel) A. Noţiuni teoretice Variabilă o caracteristică ale cărei valori se modifică după elementele studiate (este modelată printr-o variabilă aleatorie). Statistica este inutilă în analiza caracteristicilor constante în domeniul observat. Observaţie valorile unei mulţimi de variabile măsurate pentru un element studiat. Statistică descriptivă 1. Valoare care reprezintă o sinteză, un rezumat al valorilor unei caracteristici pentru un eşantion sau care evaluează relaţia dintre două variabile.. Parte a statisticii care priveşte descrierea variabilelor (calcularea indicatorilor statistici descriptivi statisticile descriptive, reprezentări grafice etc.). Statistică inferenţială Parte a statisticii care cuprinde procedurile prin intermediul cărora se pot obţine aserţiuni asupra populaţiei studiate din observaţiile efectuate asupra unui eşantion din acea populaţie. Măsurare atribuirea de valori la elemente, observaţii potrivit unei reguli; este procesul prin care se obţin valorile variabilelor. Scală de măsură regula prin care se atribuie o valoare numerică în procesul de măsurare. Niveluri de măsurare clasificarea variabilelor după proprietăţile numerice asociate scalelor pe care se măsoară valorile. Variabile nominale (nivelul nominal) variabile care pot lua un număr finit de valori neordonate; variabile calitative, permit doar clasificarea observaţiilor. De observat că nivelul de măsurare nu se modifică prin utilizarea unei codificări numerice. Variabilele calitative care au exact două valori sunt denumite dihotomice sau binare. Codificarea prin 0/1 permite utilizarea acestor variabile în proceduri dedicate nivelurilor mai înalte de măsurare (ordinal, interval). Variabile ordinale (nivelul ordinal) variabile ale căror valori sunt ordonate dar nu este definită (nu se poate defini) distanţa dintre două valorile posibile. Variabile de interval (nivelul interval) variabile cu valori ordonate şi pentru care este definită o distanţă (se poate gândi că valorile posibile sunt similare gradaţiilor unei rigle uzuale). Dacă există o valoare zero adevărată, variabila se zice de raport Variabilele de interval sunt cele mai complexe şi majoritatea tehnicilor statistice au fost dezvoltate tocmai pentru aceste variabile. Variabile continue variabile care odată cu două valori pot lua orice valoare intermediară; pot lua orice valori din domeniul lor. Variabilele de interval (raport) sunt, de regulă, continue. Variabile discrete variabile care nu sunt continue. Variabilele nominale şi cele ordinale sunt variabile discrete. Distribuţia unei variabile toate valorile unei variabile pentru fiecare caz (element) studiat/cunoscut. Tipuri de distribuţie: 1. valorile pentru un eşantion sau populaţie (distribuţie empirică),. distribuţia de sondaj a unei statistici (distribuţie teoretică), 3. distribuţia privită ca structură a datelor, ilustrată numeric sau grafic. Descrierea distribuţiilor 1. Tabelară a. listarea datelor fără nicio ordonare prealabilă

2 b. tablouri ordonate - cu cât numărul de observaţii este mai mare, cu atât este mai greu de intuit structura. c. distribuţii de frecvenţe absolute - se pot utiliza pentru toate tipurile de variabile, dar utilizarea cea mai frecventă este pentru datele discrete (nominale, ordinale). d. distribuţii de frecvenţe relative (procentuale) - evidenţiază valorile mai frecvente, sunt utile pentru comparaţii. e. distribuţii cumulate - atât pentru frecvenţe absolute, cât şi relative.. Grafică (tipurile uzuale) a. grafice cu bare pentru date discrete. b. histograme pentru date continue. c. grafice arie pentru date cumulate. Caracterizarea unei distribuţii - trebuie să surprindă trei aspecte a. tendinţa centrală (referită uzual ca "medie" deşi poate fi vorba de indicatori statistici diferiţi) b. împrăştierea (cât de mult sunt repartizate sau depărtate valorile) c. forma distribuţiei (simetria - asimetrie, aplatizare) Rezumate pentru evaluarea tendinţei centrale - oferă o valoare de prognoză, încrederea depinde de gradul de împrăştiere a valorilor 1. Mod - cea mai frecventă valoare; este utilizată în special pentru date discrete. Pentru date continue se obişnuieşte gruparea datelor şi mijlocul intervalului modal.. Mediana - valoarea care depăşeşte jumătate dintre observaţii (quantila de ordin 0.5); este o valoare "negociată" pentru date ordinale (valoarea care împarte cel mai bine observaţiile). Deoarece presupune ordine între valori, nu se aplică datelor nominale. Este un indicator de tendinţă centrală preferat în locul mediei pentru distribuţii continue asimetrice. 3. Media - este media aritmetică a valorilor măsurate, utilizată pentru date continue. Rezumate pentru evaluarea împrăştierii 1. IQV (indicele de variaţie calitativă), Entropia - sunt utilizate în cazul datelor discrete. Quantile - utilizate pentru datele ordonate (ordinale, de interval) 3. Domeniul (amplitudinea) - pentru date continue 4. Intervalul interquartilic - adecvat pentru date ordonate (dar utilizat prin abuz pentru date ordinale), reprezintă domeniul centrat pe mediană şi care conţine jumătate dintre valorile măsurate. 5. Dispersia (varianţa), abaterea standard - sunt indicatorii uzuali de caracterizare a împrăştierii datelor continue. Interpretarea uzuală a abaterii standard este aceea că, pentru o variabilă distribuită normal - această ipoteză se omite uneori, prin exces -, circa 68% dintre valori diferă de medie cu cel mult o abatere standard şi circa 95% dintre valori diferă de medie cu cel mult două abateri standard. Împreună cu media (aritmetică) sunt indicatorii statistici cei mai des invocaţi in analiza datelor continue (de interval sau de raport).

3 B. Instrumente Excel Pentru prelucrarea unui set de date memorat într-un document Excel se pot utiliza atât funcţiile statistice ale aplicaţiei, cât şi proceduri obţinute prin Tools Data Analysis. Funcţiile statistice uzuale sunt (în ordine alfabetică): AVEDEV abaterea medie absolută AVERAGE media aritmetică BINOMDIST funcţia de repartiţie binomială CHIDIST funcţia de repartiţie χ CHIINV inversa funcţiei de repartiţie χ CHITEST aplicarea testului χ CONFIDENCE intervalul de încredere pentru medie FDIST funcţia de repartiţie F FINV inversa funcţiei de repartiţie F FTEST aplicarea testului F HARMEAN media armonică KURT coeficientul de aplatizare MIN, MAX valorile extreme din listă MEDIAN mediana MODE valoarea mod NORMDIST funcţia de repartiţie normală NORMINV inversa funcţiei de repartiţie normală NORMSDIST funcţia de repartiţie normală standard NORMSINV inversa funcţiei de repartiţie normală standard PERCENTILE quantile QUARTILE quartile RANK rangul argumentului într-o listă SKEW coeficientul de asimetrie STANDARDIZE valoarea standardizată a argumentului STDEV abaterea standard TDIST funcţia de repartiţie Student, t TINV inversa funcţiei de repartiţie Student TTEST aplicarea testului Student VAR dispersia Pentru a utiliza procedurile statistice, trebuie ca prin Tools AddIns să se verifice dacă este instalat utilitarul Analysis ToolPak. În caz afirmativ, comanda Tools Data Analysis va deschide dialogul Data Analysis din care sunt accesibile o serie de prelucrări statistice conduse de dialogurile asociate. Astfel, Descriptive Statistics va produce indicatorii statistici ai unei variabile continue. Tot în partea de descriere statistică poate fi încadrată şi metoda de creare a cuburilor OLAP prin Data Pivot Table, metodă prin care se obţin distribuţiile simple sau multivariate ale unor variabile discrete sau indicatorii statistici esenţiali ai subpopulaţiilor. De asemenea, nu trebuie uitat că toate procedurile legate de reprezentările grafice, iniţiate prin Insert - Chart (sau uneltele corespunzătoare) sunt o parte a prelucrării statistice descriptive oferind grafice, histograme etc. C. Lucrarea practică 1. Se va importa în Excel fişierul de date care conţine datele de la un examen de admitere la facultatea de informatică, pe vremea când examenul includea şi o probă scrisă.. Se va stabili tipul fiecărei variabile (nominal, ordinal, interval) Legitimatie - numărul legitimaţiei (eliberate în ordinea înscrierii) Bacalaureat - media la bacalaureat Optiune - proba la alegere (A - analiză matematică, C - programare C, P - programare Pascal) Sala - sala de examen Scris - media la scris

4 Final - media finală Situatie - situaţia după examen (1 - fără taxa, - cu taxă, 3 - respins, 4 - în aşteptare) 3. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici adecvaţi. 4. Se vor realiza grafice de ilustrare a distribuţiilor variabilelor. 5. Se vor identifica subpopulaţiile pentru care este de interes să se realizeze prelucrări separate. 6. Să se creeze tablourile de frecvenţe încrucişate dintre variabilele Opţiune şi Situaţie, incluzând şi calculul frecvenţelor relative. 7. Utilizând atât indicatori statistici cât şi reprezentări grafice, se vor compara subpopulaţiile atât după repartiţiile unor variabile discrete, cât şi a unor variabile continue. Se va decide: i. dacă a fost mai avantajos să se dea examen la analiză sau la programare; la analiză, la programare C sau la programare Pascal; ii. care candidaţi şi-au depăşit aşteptarea dată de media la bacalaureat; iii. dacă s-au obţinut note mai mari la scris de către cei care au susţinut proba în săli de examen mai mari; iv. dacă se poate spune că acei candidaţi care s-au înscris în primele zile au avut rezultate mai bune.

5 Statistică multivariată Lucrarea nr. Inferenţa statistică. Testarea ipotezelor statistice (Excel) A. Noţiuni teoretice Fie un spaţiu de probabilitate (Ω,A, P). Se numeşte variabilă aleatoare o funcţie reală X:Ω R, care satisface condiţia: { ω X( ω) x} A, oricare ar fi x R. Numim funcţie de repartiţie a v.a. X, funcţia reală de variabilă reală, F:R R, definită prin F( x) = P(X x), unde prin (X x) s-a notat evenimentul { ϖ X( ω) x}, adică reuniunea acelor evenimente elementare pentru care v.a. ia valori mai mici sau egale cu x. Funcţia de repartiţie se zice absolut continuă dacă există o funcţie reală, f:r R, astfel încât x F( x ) = f( u)du, Interpretarea geometrică este cea uzuală de mărime a ariei de sub graficul funcţiei f. Funcţia f, dacă există, se numeşte densitate de probabilitate a v.a. X. Observaţie. Funcţia de repartiţie conţine toată informaţia necesară pentru calcularea probabilităţilor cu care o variabilă aleatoare ia valori în anumite intervale şi pentru acest lucru va fi utilizată în ceea ce ne interesează. Repartiţii teoretice remarcabile Repartiţia normală Această repartiţie are un rol central, atât din considerente teoretice, cât şi practice (nu în ultimul rând, uşurinţa aplicării). Teoretic, repartiţia normală reprezintă o repartiţie limită către care tind, în anumite condiţii, celelalte repartiţii. Prin definiţie, o variabilă continuă X are o repartiţie normală, sau repartiţie Gauss Laplace, dacă funcţia de repartiţie este dată de: x 1 F(x) = P(X < x) = e σ dt, x R, µ R, σ > 0, σ π unde µ şi σ sunt parametrii funcţiei de repartiţie (t µ)

6 Funcţia de repartiţie normală se va nota prin N(µ; σ ) iar faptul că v.a. X este repartizată normal cu parametrii µ şi σ se notează X ~ N(µ; σ ). Parametrii repartiţiei au semnificaţia unor valori tipice şi anume M(X) = Me(X) = Mo(X) = µ D (X) = σ motiv pentru care se poate vorbi de repartiţia normală cu media µ şi dispersia σ, ceea ce determină complet repartiţia. Repartiţia normală N(0,1) se numeşte repartiţia normală redusă, repartiţia normală normată sau repartiţia normală standard. O v.a. repartizată N(0;1) este notată, în mod uzual, cu Z şi este referită drept variabilă Z, variabilă normală redusă etc. Orice variabilă repartizată normal poate fi transformată într-o v.a. repartizată N(0;1) prin transformarea (de normare, de standardizare) Z = X µ. σ Inferenţa statistică Prin inferenţă statistică se înţelege, în sensul precizat anterior, obţinerea de concluzii bazate pe o evidenţă statistică, adică pe informaţii derivate dintr-un eşantion. Concluziile sunt asupra caracteristicilor populaţiei din care provine eşantionul. Observaţie. Dacă este investigată întreaga populaţie, atunci rezultatele care se obţin constituie finalul prelucrării şi nu sunt necesare (şi nici posibile) prelucrările introduse în această secţiune. Prin eşantion (sau selecţie) vom înţelege o submulţime a populaţiei statistice considerate. Operatiunea de formare a unui eşantion se numeşte sondaj. Sondajele care au şanse mai mari de a produce eşantioane reprezentative sunt cele bazate pe proceduri de selecţie aleatoare. In eşantioane diferite, statisticile calculate au valori diferite. În acest fel se poate vorbi despre o distribuţie a valorilor statisticii în mulţimea eşantioanelor de un acelaşi volum; apare astfel distribuţia de sondaj a statisticii respective. Inferenţa statistică implică trei distribuţii asociate cu caracteristica studiată: distribuţia populaţiei; distribuţia de sondaj; distribuţia eşantionului. Prin distribuţia populaţiei se înţelege distribuţia pe care o are caracteristica studiată (sau v.a. asociată ei) în populaţie. Această distribuţie nu este, în general, cunoscută. Interesul unei cercetări este tocmai acela de a studia această distribuţie. Prin distribuţia eşantionului se înţelege distribuţia pe care o are caracteristica studiată în eşantionul disponibil în studiu. Această distribuţie este cunoscută complet, întrucât toate datele necesare sunt măsurate. Prin distribuţia de sondaj a unei statistici se înţelege distribuţia pe care o are statistica în mulţimea tuturor eşantioanelor de volum dat. Este însă remarcabil faptul că, din considerente teoretice, între distribuţia populaţiei şi distribuţia de sondaj există legături bine precizate sau, datorită unor teoreme de limită centrală, se cunoaşte forma acestei distribuţii atunci când volumul eşantionului creşte (tinde spre infinit). Inferenţa statistică urmează, în general, următorul algoritm: se obţine, printr-un procedeu valid, un eşantion; se calculează o valoare tipică a eşantionului (o statistică de sondaj); din considerente teoretice, se cunoaşte repartiţia din care provine această valoare tipică şi relaţia repartiţiei de sondaj a statisticii cu valoarea tipică din populaţie;

7 utilizând repartiţia de sondaj a statisticii se pot face evaluări ale erorilor de estimaţie. Repartiţia de sondaj a mediei este caracterizată de σ σ M( x) = µ, D ( x) =, D( x) =. n n Practic, se poate accepta o repartiţie N(µ;σ /n) pentru n > 10 dacă repartiţia lui X este aproape simetrică, sau pentru n > 30 pentru repartiţii cu asimetrie pronunţată sau necunoscută. Estimaţii Se numeşte estimator orice entitate a cărei valoare poate fi utilizată drept valoare (de regulă aproximativă) pentru o altă entitate. Valoarea estimatorului se zice că este o estimaţie. Valoarea care aproximează, pe baza datelor de sondaj, valoarea necunoscută a unui parametru al populaţiei poartă denumirea de estimaţie statistică. Astfel, media aritmetică este estimator pentru media populaţiei µ, abaterea standard s este estimator pentru abaterea standard a populaţiei σ etc. După natura lor, în statistică se utilizează două tipuri de estimaţii: punctuale sub formă de interval. Printr-o estimaţie punctuală se înţelege valoarea unui estimator calculată într-un eşantion. Numim eroare de estimare valoarea absolută a diferenţei dintre estimaţia punctuală şi valoarea parametrului estimat. Fie o populaţie statistică, caracterizată de o v.a. continuă X a cărei repartiţie depinde de un parametru δ, necunoscut. Prin definiţie, dacă se pot determina δ 1 şi δ astfel încât pentru o valoare α prestabilită (0 < α < 1) să aibă loc P( δ1 < δ < δ ) = 1 α, atunci intervalul (δ 1, δ ) se numeşte interval de încredere pentru parametrul necunoscut δ, cu un coeficient (sau nivel) de încredere egal cu α, sau cu o siguranţă statistică S α = 1 α. Dacă atât δ 1 cât şi δ sunt finite, atunci intervalul de încredere se zice bilateral. În cazul când δ 1 este -, sau δ este +, ceea ce revine în fapt la determinarea unei singure limite, intervalul se zice unilateral. Intervale de încredere pentru valoarea medie Fie o populaţie statistică caracterizată de o v.a. X repartizată normal, cu parametrii µ şi σ. Presupunem că s-au obţinut, dintr-un eşantion de volum n, media de sondaj x şi dispersia de sondaj s. Fixăm pragul de semnificatie α. Dacă dispersia, σ este cunoscută, intervalul de încredere pentru media populaţiei: σ σ x z α < µ < x + z α, n 1 n 1 Dacă dispersia, σ, nu este cunoscută s s x t1 α / ; ν < µ < x + t1 α / ; ν n n

8 Intervale de încredere pentru dispersie Fie o populaţie normală, sau aproximativ normală, cu parametrii µ şi σ necunoscuţi. Se demonstrează că intervalul de încredere bilateral pentru dispersia populaţiei, cu încrederea statistică de 1 α, este dat de ( n 1) s ( n 1) s < σ <, χ1 α / ; ν χα / ; ν unde n este volumul eşantionului, σ este dispersia de sondaj, iar χ şi α / ; ν χ grade de libertate. sunt quantilele de ordin α/, respectiv 1- α/, ale repartiţiei χ cu ν = n 1 1 α / ; ν Testarea ipotezelor statistice Fără a încerca o generalizare, se poate accepta ideea că, în cele mai multe prelucrări statistice, datele sunt obţinute şi prelucrate pentru a verifica ipoteze ale cercetătorilor. Deci, ca o primă imagine a subiectului, trebuie reţinută secvenţa: 1. formularea unei ipoteze;. obţinerea de date experimentale; 3. verificarea ipotezei pe baza acestor date. Vom considera semnificativ un eveniment care contrazice ipoteza de plecare. Raţionamentul general Lumea reală Are loc un eveniment Rezultă că probabilitatea de realizare este suficient de mare Statistică Se formulează setul de ipoteze H 0, H 1 Se calculează, dintr-un eşantion, o statistică (statistica testului). Se calculează, în ipoteza H 0, probabilitatea p c de apariţie a valorii calculate (probabilitatea critică a testului, p-value). Dacă p c este mică, apare o contradicţie, Pentru a rezolva contradicţia se va respinge H 0 în favoarea ipotezei H 1 deoarece motivul pentru care probabilitatea critică este mică este faptul că la calculul acesteia s-a acceptat ipoteza H 0. Dacă p c este mare, nu se respinge H 0, nu există nici un motiv pentru a lua decizia contrară. Rămâne o singură întrebare: începând de unde o probabilitate este considerată drept mică? Pentru a nu introduce subiectivismul în această decizie, se fixează, anterior deciziei în test, un prag sub care o probabilitate este considerată mică. Această valoare se numeşte prag de semnificaţie şi se notează uzual cu α. Regula de decizie în test poate fi formulată atunci: dacă p c α, atunci se respinge ipoteza nulă, H 0, în favoarea ipotezei alternative, H 1 ; dacă p c > α, atunci nu se respinge ipoteza nulă H 0. Se numeşte regiune de respingere, pentru un nivel de semnificaţie α fixat, mulţimea rezultatelor (valorilor statisticii testului) care conduc la respingerea ipotezei H 0. Dacă se pot defini limitele numerice ale regiunii de respingere, acestea se vor numi, uneori, valori critice ale testului.

9 Testele pot fi parametrice = ipoteza H 0 este strict legată de un parametru al populaţiei, iar statistica testului are o repartiţie cunoscută tocmai din această ipoteză. neparametrice = repartiţia statisticii testului se calculează şi nu rezultă din presupuneri apriorice asupra acestei distribuţii şi a probabilităţilor ataşate. Testele parametrice pot fi (δ notează un parametru al populaţiei): bilaterale (nedirecţionale) H 0 : δ = δ 0 H 1 : δ δ 0 unilaterale (direcţionale) H 0 : δ = δ 0 H 1 : δ < (sau >) δ 0 Un test statistic are, de multe ori, o denumire dată de repartiţia statisticii testului: teste normale (sau Z), teste Student (sau t), teste F etc. Astfel, un test χ reprezintă un test a cărui statistică are o repartiţie de sondaj din clasa χ.. Categorii de teste Testele sunt clasificate în teste pentru variabile continue şi teste pentru variabile discrete (nominale sau ordinale). Primele sunt, de regulă, teste parametrice, celelalte sunt neparametrice. Teste de concordanţă Aceste teste se referă la potrivirea, concordanţa dintre valorile calculate în eşantion (statisticile de sondaj) şi valorile parametrilor respectivi din populaţia statistică (valori cunoscute sau presupuse). Cu alte cuvinte, problema poate fi formulată: cât de mult poate să se abată o valoare calculată (dintr-un eşantion) de la valoarea presupusă pentru întreaga populaţie pentru a putea considera că are loc o nepotrivire între cele două valori? Deşi formulată astfel problema pare că se referă la eşantion şi la populaţia de bază, punctul de vedere corect este: 1. există o populaţie statistică de interes, fie ea P 1 ;. pentru orice eşantion se poate considera o populaţie de bază din care este extras eşantionul (reprezentativ pentru acea populaţie); fie P această populaţie; 3. problema este dacă se poate considera că P este în concordanţă cu P 1, adică parametrii de interes ai celor două populaţii nu diferă semnificativ. Se observă că testarea se va efectua pentru ipoteze privind populaţii, se va utiliza informaţia dintr-un eşantion, deci rămânem în domeniul inferenţei statistice. Ipoteza nulă va afirma, în general, că populaţiile P 1 şi P concordă. Respingerea ipotezei nule poate avea, în practică, două consecinţe: se va considera că eşantionul nu este reprezentativ pentru populaţia de interes, populaţie care se consideră stabilă; se va căuta un alt eşantion; sau se va considera că populaţia P 1 şi-a modficat între timp parametrii; noua populaţie de referinţă este P. Alegerea între cele două afirmaţii aparţine practicianului din domeniul studiat, fiind, de cele mai multe ori, o alegere ghidată de intuiţie, de experienţă etc.

10 Testul erorii standard a mediei Fie P 1 populaţia statistică de interes, caracterizată de media µ 0 (cunoscută sau presupusă) şi de abaterea standard σ (cunoscută). Întrebarea este dacă valorile tipice de sondaj susţin ipoteza că eşantionul este din populaţia P 1, accentul fiind pus pe media populaţiei. În testul erorii standard a mediei se presupune că sunt îndeplinite condiţiile care asigură mediei de sondaj o repartiţie normală sau aproape normală: caracteristica studiată este repartizată normal sau eşantionul este mare (n 30). In aceste condiţii, media de sondaj urmează o repartiţie normală N(µ,σ /n), unde µ este media populaţiei (notată în introducerea secţiunii cu P ) din care provine eşantionul. Pentru P se presupune aceeaşi abatere standard σ (se studiază modificarea mediei unei populaţii). Rezultă că variabila transformată x µ x µ Z = = n σ x σ este repartizată normal standard şi poate fi utilizată pentru calcularea probabilităţilor necesare. Ipotezele testului erorii standard a mediei sunt pentru testul bilateral: pentru testele unilaterale: H0 : µ = µ 0 H0 : µ = µ 0 H0 : µ = µ 0 (A) (B) sau (C) H1 : µ µ ' 0 H < H1 : > 1 : µ µ µ µ 1 0 În condiţiile ipotezei nule, µ = µ 0, rezultă că transformata Z a mediei de sondaj devine x µ Z = 0 n σ în care toate valorile sunt cunoscute şi prin urmare poate fi localizată pe curba densităţii de probabilitate normală standard. Pentru a aplica acest test este necesar să se cunoască σ şi, prin urmare, situaţia practică de referinţă este aceea în care se studiază dacă o populaţie statistică, constantă ca variabilitate, şi-a menţinut, sau nu, valoarea medie. Deoarece, în general, nu se poate şti cu siguranţă că repartiţia caracteristicii studiate este riguros normală, acest test se utilizează pentru eşantioane mari. Acest test este referit şi ca testul Z de concordanţă, datorită utilizării unei statistici repartizate normal standard.. Testul de concordanţă Student (t) Atunci când nu se cunoaşte abaterea standard a populaţiei, σ, se va utiliza estimaţia s, abaterea standard de sondaj, în locul lui σ, iar repartiţia statisticii testului va fi repartiţia Student. Pentru caracteristica studiată se presupune, însă, o repartiţie normală (cu parametri necunoscuţi) sau apropiată de o repartiţie normală. Ipotezele testului sunt aceleaşi cu seturile de ipoteze anterioare (A), (B), (C). Statistica testului este similară statisticii din testul erorii standard a mediei, cu excepţia faptului că în loc de σ se utilizează estimaţia s: x µ 0 t = n s

11 Dacă ipoteza nulă, H 0 : µ = µ 0, este adevărată, atunci variabila t urmează o repartiţie Student cu ν = n 1 grade de libertate şi se poate aplica o regulă uzuală de decizie în test. Teste de comparare Categoriile de teste prezentate aici se bazează, aparent, pe compararea datelor de sondaj care aparţin la două eşantioane. Cum şansa de a se obţine două eşantioane identice este extrem de redusă, problema comparării eşantioanelor, luată în sensul strict al cuvântului, pare neimportantă. Un test de comparare trebuie, însă, înscris în inferenţa statistică: fie două eşantioane extrase din două populaţii P 1 şi P respectiv. Prin utilizarea eşantioanelor se doreşte de fapt compararea celor două populaţii. Dificultatea procedurii constă în aceea că diferenţele dintre cele două eşantioane, ca şi similaritatea lor, se pot datora: diferenţelor dintre populaţii, şi/sau diferenţelor de sondaj dintre eşantioane. Testul F Compararea mediilor populaţiilor normale ia în considerare împrăştierea datelor în cele două populaţii. Este important atunci să se cunoască dacă dispersiile celor două populaţii pot fi considerate egale, sau nu. Acest fapt se decide utilizând testul F, bazat pe repartiţia teoretică F (Fisher Snedecor). Situaţia poate fi recunoscută prin: două populaţii, caracterizate de variabilele X 1 şi X, respectiv; variabilele sunt repartizate normal, X1 ~ N( µ 1; σ 1 ), X ~ N( µ ; σ ) ; din două eşantioane, unul din fiecare populaţie, dispunem de estimaţiile s 1 şi s ale dispersiilor populaţiilor; eşantioanele au volume n 1 şi n, respectiv. Ipotezele testului F sunt atât de tip bilateral cât şi de tip unilateral. Testul bilateral: H0 : σ 1 = σ (A) H1 : σ 1 σ Teste unilaterale: (B) H H 0 ' 1 : σ : σ 1 1 = σ ; < σ (C) H H 0 " 1 : σ : σ 1 1 = σ > σ Când ipoteza nulă este adevărată, atunci statistica F * s = 1 s este repartizată F cu ν 1 = n1 1 şi ν = n 1grade de libertate, încât se pot utiliza valorile tabelate pentru F(ν 1 ;ν ) pentru determinarea probabilităţilor critice. Pentru simplificarea deciziei în test, în practică se utilizează o statistică uşor modificată prin considerarea ca primă populaţie, P 1, a populaţiei pentru care dispersia de sondaj este mai mare:

12 max ( s1, s ) F = min ( s, s ) în aşa fel încât sunt utilizabile doar testele (A) şi (C). În acest caz se notează cu ν max numărul gradelor de libertate pentru numărător şi cu ν min numărul gradelor de libertate pentru numitor. Decizia, la nivelul de semnificaţie α, pentru testul bilateral (A): se respinge ipoteza nulă H 0 în favoarea ipotezei alternative H 1 dacă F > 1 α / ; ν ; ν sau F F < F max min 1 α / ; ν Decizia, la nivelul de semnificaţie α, pentru testul unilateral (C): se respinge ipoteza nulă H 0 în favoarea ipotezei alternative H dacă F > F 1 α ; ν max ; ν min Teste t de comparare Compararea mediilor a două populaţii se realizează prin teste de comparare t. Sunt utilizate frecvent trei asemenea teste, diferenţiate de situaţia existentă între dispersiile populaţiilor şi independenţa eşantioanelor: eşantioane independente, dispersii egale, eşantioane independente, dispersii neegale, eşantioane dependente (perechi, corelate). B. Instrumente Excel Procedurile prezentate sunt disponibile prin dialogul Tools - Data Analysis. RANDOM NUMBER GENERATION Utilizând această procedură se pot genera serii de numere aleatoare distribuite după 7 tipuri diferite de funcţii de repartiţie. Rezultatul constă în una sau mai multe coloane de numere, fiecare coloană reprezentând valori ale unei variabile repartizate după o funcţie de repartiţie precizată. Pentru fiecare generare se va da numărul de coloane (variabile) generate, numărul de valori (acelaşi pentru toate variabilele), tipul funcţiei de repartiţie, parametrii funcţiei şi locul unde se vor înscrie rezultatele. Deoarece parametrii unei funcţii de repartiţie depind de tipul funcţiei, prezentarea procedurii va fi particularizată pentru câteva clase de funcţii. Dialogul principal al procedurii Random Number Generation este prezentat în figura care urmează. Se observă cele patru componente principale ale dialogului: zona care precizează tipul de generare (număr de variabile, număr de valori, tipul distribuţiei), zona cu parametrii funcţiei de repartiţie specifică funcţiei selectate, zona parametrului de iniţializare a generării aleatoare şi zona de precizare a domeniului rezultat. max ; ν min ' 1

13 Tipul de generare Number of Variables se precizează numărul de variabile generate, adică numărul de coloane; Number of Random Numbers se precizează numărul de valori generate, acelaşi pentru toate variabilele; Distribution se alege funcţia de repartiţie a variabilelor generate. Iniţializarea generării Random Seed Procesele de generare aleatoare sunt caracterizate şi prin fixarea unei valori iniţiale funcţie de care se începe procesul de generare. Această valoare, care nu înseamnă prima valoare generată, este un număr întreg între 1 şi Dacă nu se precizează această valoare, atunci se va considera în mod automat un număr aleator (obţinut din data curentă şi timpul curent). Diferenţa între cele două situaţii este: la alegerea automată se generează de fiecare dată serii diferite; la alegerea de către utilizator se va genera aceeaşi serie de fiecare dată când se indică acelaşi număr. Prin urmare, se va completa această zonă doar dacă, pentru a simula o anumită comportare sau prelucrare, este nevoie de generarea aceleeaşi serii de numere aleatoare în utilizări succesive. Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Parameters Structura acestei zone depinde de funcţia de distribuţie selectată. Repartiţie discretă (Discrete) Structura zonei Parameters este prezentată în figură. O distribuţie discretă este distribuţia unei variabile care ia un număr finit de valori cu probabilităţi fixate. Deoarece valorile trebuie să fie numerice, acest tip de repartiţie poate fi utilizat pentru probleme care implică variabile nominale atunci când categoriile nominale sunt codificate numeric.

14 Precizarea distribuţiei se face enumerând, într-o zonă continuă, valorile posibile şi probabilităţile asociate acestora, de genul 1 0,40 0,15 3 0,0 4 0,5 pentru o variabilă care ia valoare 1 cu probabilitatea 0,4, valoarea cu probabilitatea 0,15 etc. Acest exemplu poate să corespundă repartiţiei unei variabile nominale pentru care categoriile au fost codificate cu 1,, 3, sau 4. Value and Probability Input Range se precizează domeniul care conţine definirea repartiţiei discrete: un domeniu dreptunghiular care dă probabilităţile valorilor numerice posibile. Domeniul poate fi selectat dinamic. Repartiţie normală (Normal) Structura zonei Parameters este prezentată în figura alăturată. Pentru determinarea distribuţiei este necesar să se precizeze valorile pentru media şi abaterea standard a populaţiei. Mean se precizează valoarea pentru media populaţiei. Standard Deviation se precizează valoarea pentru abaterea standard a populaţiei. Valorile implicite sunt cele ale repartiţiei normale standard, media 0 şi abaterea standard 1. SAMPLING Procedura de sondaj permite obţinerea unei submulţimi dintr-o mulţime de valori existentă. Parametrii prezenţi în dialogul procedurii sunt explicaţi în continuare. Input Input Range se specifică domeniul, sau denumirea domeniului, care conţine datele din care se va face selecţia. Domeniul poate fi selectat şi în mod dinamic. Datele care joacă rolul populaţiei statistice trebuie să fie de tip numeric şi organizate, de preferinţă, sub forma unei coloane sau a unei linii. Prima celulă poate conţine denumirea setului de date. În cazul în care selecţia se face dintre înregistrările unei baze de date (fiecare înregistrare având, uzual, mai multe câmpuri) se va indica drept domeniu doar coloana unui câmp cum ar fi numărul înregistrării, sau codul (numeric) de identificare etc.

15 Labels boxa de control va fi marcată dacă domeniul indicat conţine pe prima poziţie denumirea setului de date. Sampling Method În acest grup se precizează metoda de selecţie. Periodic selectarea acestui buton radio permite indicarea în câmpul Period a cotei fixe de formare a eşantionului. Dacă, de exemplu, se completează 5, atunci eşantionul este format din al 5-lea element şi toate cele care urmează din 5 în 5 (al 10-lea element, al 15-lea, al 0-lea etc.) Random selectarea acestui buton radio indică o formare aleatoare a eşantionului. Fiecare element are aceeaşi probabilitate de a fi ales. Din acest motiv, dacă mulţimea de bază este relativ restrânsă, atunci unele elemente pot să apară de mai multe ori în eşantionul constituit. Volumul eşantionului se specifică în câmpul Number of Samples. Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatul este o coloană cu valorile selectate. Verificarea ipotezelor statistice Sunt disponibile proceduri pentru efectuarea a trei tipuri de teste statistice: test F pentru compararea dispersiilor; test t pentru compararea mediilor, în toate variantele principale (eşantioane corelate, dispersii egale, dispersii neegale); test z pentru compararea mediilor. Fiecare procedură are ca rezultat atât probabilitatea critică a testului respectiv, cât şi valoarea critică pentru un nivel de semnificaţie fixat de utilizator. Ipoteza nulă este, pentru fiecare test, aceea a egalităţii, deci respingerea ei se va face dacă probabilitatea critică este mai mică decât α, sau dacă valoarea calculată este mai mare decât valoarea critică. Compararea mediilor unor (sub)populaţii se realizează prin proceduri apelate din dialogul deschis prin Tools Data Analysis. Atunci când se compară mediile a două populaţii pe baza unor eşantioane necorelate este necesară parcurgerea etapelor: 1. Testarea egalităţii dispersiilor prin procedura F-Test Two-Sample for Variances.. În funcţie de decizia în test se va aplica t-test: Two-Sample Assuming Equal Variances în cazul nerespingerii ipotezei nule din testul F t-test: Two-Sample Assuming Unequal Variances în cazul respingerii ipotezei nule în testul F. Dacă eşantioanele sunt corelate, situaţie caracteristică comparării rezultatelor unui grup înainte şi după efectuarea unui experiment, se aplică procedura t-test: Paired Two Sample For Means. F TEST TWO SAMPLE FOR VARIANCES Dialogul iniţiat de alegerea opţiunii F-Test Two-Sample for Variances este prezentat în figura III.5. În zona Input se vor indica domeniile ocupate de cele două eşantioane şi pragul de semnificatie ales. Zona Output va preciza domeniul unde se înscriu rezultatele prelucrării.

16 Input Variable 1 Range se va preciza domeniul primului eşantion. Este obligatoriu ca acesta să fie o coloană sau o linie. Domeniul poate fi ales dinamic sau dat prin denumirea sa. Variable Range se va preciza domeniul celui de al doilea eşantion. Este obligatoriu ca acesta să fie o coloană sau o linie şi să nu se intersecteze cu domeniul primului eşantion. Domeniul poate fi ales dinamic sau dat prin denumirea sa. Labels se va marca boxa de control dacă domeniile eşantioanelor conţin în prima celulă denumirea (eticheta) variabilei. Alpha se precizează valoarea nivelului de semnificaţie. Implicit se va considera α = 0,05. Fig. III.5. Dialogul procedurii F-Test Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziţia colţului din stânga sus. Semnificaţia rubricilor din tabel este explicată în exemplul prezentat. Exemplu Un exemplu de aplicare a procedurii F-Test este arătat în figura următoare (numărul zecimalelor afişate a fost redus). Mean mediile eşantioanelor; Variance dispersiile eşantioanelor; Obsevations volumele eşantioanelor; df gradele de libertate; F statistica testului F (câtul dispersiilor); P(F<=f) one-tail probabilitatea critică unilaterală, adică probabilitatea ca o variabilă f, repartizată Fisher-Snedecor, cu numerele respective de grade de libertate, să depăşească valoarea calculată. Ipoteza nulă a egalităţii dispersiilor F-Test structura rezultatelor poate fi respinsă dacă valoarea raportată aici este mai mică sau egală cu nivelul de semnificaţie ales. De exemplu, pentru α = 0,5 (un prag neuzual) se poate respinge ipoteza nulă întrucât 0,03 < 0,5. F Critical one-tail valoarea critică a testului. Determină regiunea de respingere a testului, la pragul de semnificaţie fixat în dialogul procedurii. Dacă valoarea F, din linia a 5-a a rezultatelor, este mai mare sau egală cu valoarea critică, înseamnă că aparţine regiunii de respingere şi deci se poate respinge ipoteza egalităţii dispersiilor. În tabel avem 1,410 < 1,984 şi deci nu se poate respinge ipoteza nulă (la pragul fixat).

17 Concluzia testului este aceea că ipoteza nulă nu poate fi respinsă. Se va tolera prin urmare ipoteza că dispersiile sunt egale sau, cu alte cuvinte, că în populaţiile din care provin eşantioanele variabila urmărită prezintă acelaşi grad de împrăştiere. TESTE STUDENT (t) Sunt disponibile trei teste bazate pe distribuţia Student. În toate cazurile se verifică ipoteza nulă privind mediile atât într-un test unilateral, cât şi bilateral. Ipoteza nulă priveşte o diferenţă fixată a mediilor: H 0 : µ 1 µ = d, unde µ 1, µ sunt mediile populaţiilor din care provin eşantioanele disponibile, iar d este diferenţa presupusă sau cunoscută a mediilor. Pentru a testa egalitatea mediilor celor două populaţii se va aplica procedura în cazul particular d = 0. Cele trei teste t sunt cazurile principale din punct de vedere practic: testul t pentru eşantioane corelate; testul t pentru populaţii cu dispersii egale; testul t pentru populaţii cu dispersii neegale. t TEST: PAIRED TWO SAMPLE FOR MEANS Sunt considerate două eşantioane cu date perechi (corelate), provenite eventual dintr-o cercetare pretest-posttest pe un acelaşi eşantion, din care un eşantion este lotul experimental, celălat fiind lotul martor. Compararea mediilor este efectuată pentru a decide dacă experimentul la care este supus lotul experimental produce o abatere suficient de mare în media variabilei de control. În figură se prezintă dialogul de fixare a parametrilor procedurii. Input Variable 1 Range, Variable Range conţin referinţele la zonele celor două eşantioane, respectiv. Deoarece testul este pentru eşantioane cu date perechi, este necesar ca zonele indicate să aibă acelaşi număr de celule completate cu date numerice, valorile de pe aceleaşi poziţii în cele două serii fiind perechi. Domeniile pot fi selectate dinamic. Hypothesized Mean Difference conţine valoarea testată pentru diferenţa mediilor. Dacă se indică valoarea 0 (zero), atunci se verifică ipoteza egalităţii mediilor. Labels boxa de control se marchează dacă zonele de date indicate conţin pe primele locuri denumirile zonelor.

18 Alpha conţine valoarea pragului de semnificaţie utilizat de procedură pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule). Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziţia colţului din stânga sus. Semnificaţia rubricilor din tabel este explicată în exemplul prezentat. Exemplu Un grup de 0 de persoane au fost evaluate înainte şi după efectuarea unui experiment, care avea scopul de a micşora valoarea unei caracteristici măsurate. Deoarece efectul experimentului trebuie evaluat la nivelul populaţiei de unde s-a selectat eşantionul, un indicator statistic adecvat este media rezultatelor înainte şi după. Cum datele sunt perechi, situaţia descrisă fiind tipică, compararea mediilor s-a efectuat printr-un test t pentru date perechi (corelate). Seriile de date sunt numite Date1 (datele pretest), Date (datele posttest) şi s-a indicat în dialogul procedurii, un prag de semnificaţie α = 0,05. Rezultatele produse de procedura t Test: Paired Two Sample for Means sunt descrise în figura alăturată: Mean mediile celor două eşantioane. Se observă că media primului eşantion este mai mare (10,6 faţă de 9,9), diferenţa fiind relativ importantă, 0,7 reprezintă o diminuare a mediei cu 6,6%. Compararea mediilor vrea să Rezultatele aplicării testului t arate dacă această diferenţă poate fi acceptată pentru date perechi. pentru întreaga populaţie, sau este efectul sondajului (întâmplător în primul eşantion sunt mai multe valori mari). Variance dispersiile celor două eşantioane. Se poate emite ipoteza că dispersiile se modifică semnificativ: se pare că experimentul are efectul unei concentrări a rezultatelor în jurul mediei. Observations numărul de observaţii (= volumul eşantionului). Pearson Correlation coeficientul de corelaţie Pearson. Valoarea obţinuţă este relativ mare, apropiată de 0,5. Deşi nu este însoţită de testul de semnificaţie, arată o bună corelaţie între seriile de rezultate, cu interpretarea că scăderea valorilor după experiment are loc oarecum uniform: observaţiile cu valori mari înainte rămân, în general, cu valori mari şi după experiment (evident că observaţiile cu valori mici înainte rămân, în general, cu valori mici şi după experiment). Hypothesized Mean Difference valoarea cu care se compară diferenţa mediilor populaţiilor. Deoarece ne-am propus să testăm egalitatea mediilor, aceasta revine la a compara diferenţa mediilor cu zero. df numărul gradelor de libertate al repartiţiei t (a statisticii testului). Este numărul de observaţii mai puţin unu. t Stat valoarea calculată a statisticii testului. Provine, teoretic, dintr-o repartiţie Student cu df (raportat anterior) grade de libertate.

19 P(T<=t) one-tail probabilitatea critică unidimensională, arată care este probabilitatea ca o variabilă Student cu df grade de libertate să depăşească valoarea calculată. Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative. Deoarece, în situaţia dată, prima medie este mai mare, ipoteze alternativă într-un test unilateral este H 1 : µ 1 µ > 0 sau, echivalent, H 1 : µ 1 > µ. Valoarea 0,169 afişată este mai mare decât toate valorile α uzuale, deci nu se poate respinge ipoteza nulă. Prin urmare se pare că diferenţa dintre medii este datorată mai mult întâmplării, selecţiei eşantionului. t Critical one-tail valoarea critică unidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea t calculată este mai mare decât această valoare critică, atunci se poate respinge H 0 în favoarea ipotezei alternative H 1 : µ 1 > µ. Pentru exemplul prezentat acest fapt nu se întâmplă (0,984 < 1,79). P(T<=t) two-tail probabilitatea critică bilaterală, arată care este probabilitatea ca o variabilă Student cu df grade de libertate să depăşească, în valoare absolută, valoarea calculată. Cu alte cuvinte, probabilitatea ca diferenţa dintre mediile populaţiilor să fie mai depărtată de zero decât diferenţa observată. Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative a unor medii diferite: H 1 : µ 1 µ. Valoarea 0,337 afişată este mai mare decât toate valorile α uzuale, deci nu se poate respinge ipoteza nulă. t Critical two-tail valoarea critică bidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea t calculată este mai mare, în valoare absolută, decât această valoare critică, atunci se poate respinge H 0 în favoarea ipotezei alternative H 1 : µ 1 µ. Pentru exemplul prezentat, t = 0,984 = 0,984 <,093, deci nu se poate respinge ipoteza nulă. z-test: TWO SAMPLE FOR MEANS Această procedură serveşte pentru compararea mediilor a două populaţii atunci când se cunosc dispersiile acestora. Testul utilizat este bazat pe distribuţia normală standard. Input Variable 1 Range, Variable Range conţin referinţele la zonele celor două eşantioane, respectiv. Domeniile indicate pot să aibă numere diferite de celule, dar completate cu date

20 numerice (cel mult prima celulă în fiecare zonă poate fi un titlu). Domeniile pot fi selectate dinamic. Hypothesized Mean Difference conţine valoarea testată pentru diferenţa mediilor. Dacă se indică valoarea 0 (zero), atunci se verifică ipoteza egalităţii mediilor. Variable 1 Variance (known), Variable Variance (known) dispersiile celor două populaţii. Acestea se presupun cunoscute. În practică, pentru eşantioane mari, se pot lua valorile dispersiilor de sondaj, dar în această situaţie este preferabil să se aplice un test t decât un test z. Labels boxa de control se marchează dacă zonele de date indicate conţin pe primele locuri denumirile zonelor. Alpha conţine valoarea pragului de semnificaţie utilizat de procedură pentru a calcula valorile critice ale statisticii (utilizate ca limite ale domeniului de respingere a ipotezei nule). Implicit se ia α = 0,05. Output options Output Range, New Worksheet Ply, New Workbook potrivit descrierii de la Descriptive Statistics. Precizează domeniul din foaia de calcul unde se vor înscrie rezultatele. Rezultatele sunt formatate ca un tabel pentru care se va preciza poziţia colţului din stânga sus. Semnificaţia rubricilor din tabel este explicată în exemplul prezentat. Exemplu Pentru a compara mediile a două populaţii s-au extras două eşantioane de volume 35, respectiv 34. Se cunoaşte, din alte cercetări, că dispersiile populaţiilor sunt 18 şi 15, respectiv. Dispersiile de sondaj concordă cu aceste valori. Pentru a compara mediile populaţiilor se aplică un test z. Resultatele sunt explicate în continuare. Mean mediile de sondaj ale celor două eşantioane. Known Variance dispersiile cunoscute ale celor două populaţii. Observations numărul de observaţii (volumul eşantionului). Hypothesized Mean Difference valoarea cu care se compară diferenţa mediilor populaţiilor. Testarea egalităţii mediilor revine la a compara diferenţa mediilor cu zero. z valoarea calculată a statisticii testului. Provine, teoretic, dintr-o repartiţie normală standard. Serveşte pentru raportare sau pentru decizia în Rezultatele procedurii z-test. test la alte grade de semnificaţie decât valoarea fixată în dialogul procedurii. P(Z<=z) one-tail probabilitatea critică unidimensională, arată care este probabilitatea ca o variabilă normală redusă să depăşească valoarea calculată. Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative. Deoarece, în situaţia dată, prima medie este mai mare, ipoteza alternativă într-un test unilateral este H 1 : µ 1 µ > 0 sau, echivalent, H 1 : µ 1 > µ. Valoarea 0,008 afişată este mai mică decât valorile α uzuale (0,05 sau 0,01), deci nu se poate respinge ipoteza nulă la aceste valori ale lui α. Prin urmare se poate respinge ipoteza nulă şi accepta ipoteza alternativă că prima populaţie are o medie mai mare. z Critical one-tail valoarea critică unidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea z calculată este mai mare decât această

21 valoare critică, atunci se poate respinge H 0 în favoarea ipotezei alternative H 1 : µ 1 > µ. Pentru exemplul prezentat acest fapt nu se întâmplă (,4096 < 1,6449). P(Z<=z) two-tail probabilitatea critică bilaterală, arată care este probabilitatea ca o variabilă normală standard să depăşească, în valoare absolută, valoarea calculată. Cu alte cuvinte, probabilitatea ca diferenţa dintre mediile populaţiilor să fie mai depărtată de zero decât diferenţa observată. Dacă această valoare este mai mică decât pragul de semnificaţie fixat, atunci se poate respinge ipoteza nulă în favoarea ipotezei alternative a unor medii diferite: H 1 : µ 1 µ. Valoarea 0,016 afişată este mai mică decât α = 0,05, deci se poate respinge ipoteza nulă. z Critical two-tail valoarea critică bidimensională pentru pragul de semnificaţie α = 0,05 (precizată în dialogul procedurii). Dacă valoarea z calculată este mai mare, în valoare absolută, decât această valoare critică, atunci se poate respinge H 0 în favoarea ipotezei alternative H 1 : µ 1 µ. Pentru exemplul prezentat, z =,4096 =,4096 > 1,96, deci se poate respinge ipoteza nulă. C. Lucrarea practică 1) Un studiu a arătat că 50% dintre utilizatorii de internet au primit mai mult de 10 mesaje pe zi. Repetând, după un timp, studiul, se doreşte verificarea ipotezei că a crescut utilizarea -ului. Să se precizeze ipoteza nulă şi ipoteza alternativă a testului statistic adecvat. ) Într-un test z cu ipotezele H 0 : µ 1 µ = 5 vs. H 1 : µ 1 µ > 5 s-a obţinut statistica testului z = Care este probabilitatea critică a testului? 3) Se vor genera două coloane de câte 100 de valori dintr-o repartiţie normală cu media 0 şi dispersia 1. i) să se calculeze mediile şi dispersiile celor şirruri de valori; să se compare cu valorile 0, respectiv 1, şi să se interpreteze rezultatul comparaţiilor în termenii populaţie-eşantion. ii) să se testeze egalitatea mediilor celor două seturi de valori cu valoarea teoretică 0. iii) să se testeze dacă cele două seturi de valori au mediile egale. 4) Se vor genera două coloane de valori din repartiţii normale cu medii şi dispersii diferite. Presupunând că media celei de a doua coloane diferă de media primei coloane cu ε, să se verifice, prin generări repetate ale coloanelor, dacă eşantioanele pot fi considerate ca aparţinând aceleiaşi populaţii. i) Se va mări treptat diferenţa ε, ca şi diferenţa dispersiilor, pentru a obţine o imagine intuitivă asupra răspunsului la întrebarea: cât de mare trebuie să fie diferenţa pentru ca eşantioanele să nu potă fi considerate omogene? ii) Se va studia şi influenţa diferenţelor dintre dispersii asupra concluziei testului. 5) Se importă în Excel fişierul admitere.txt (utilizat la lucrarea nr.1). Să se verifice statistic dacă i) mediile la bacalaureat pot fi considerate egale pentru cei care optează la analiză, programare C sau programare Pascal ii) mediile la scris pot fi considerate egale pentru cei care optează la analiză, programare C sau programare Pascal

22 Statistică multivariată Lucrarea nr. 3 Introducere în SPSS A. Noţiuni teoretice Lucrarea are ca obiectiv introducerea în SPSS şi realizarea prelucrărilor uzuale de statistică descriptivă şi de testarea ipoteselor statistice, care au făcut obiectul primelor două lucrări realizate în Excel. Prin urmare se pot revedea secţiunile A din primele două lucrări. B. SPSS - prezentare şi operare Programul SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai utilizate în analiza statistică a datelor. Prima versiune a apărut în anul 1968, a evoluat până la versiunea 15 şi aria de aplicabilitate s-a extins de la versiune la versiune, odată cu modul de operare şi cu facilităţile oferite. Programul este utilizat astăzi în marketing, cercetare experimentală, educaţie, sănătate etc. În afară de analizele statistice posibile, programul are componente puternice pentru managementul datelor (selectare, reconfigurare, creare de date noi) şi pentru documentarea datelor (există un dicţionar metadata, care reţine caracteristici ale datelor). Se mai poate adăuga flexibilitatea privind tipurile de date acceptate ca şi modulul de construire a rapoartelor. Acest document se doreşte a fi o introducere în operarea SPSS: - interfaţă, - gestionarea datelor, - analiza statistică elementară. Ferestre SPSS Sunt enumerate tipurile de ferestre disponibile în mediul SPSS şi se precizează funcţionalitatea lor. Data Editor Este fereastra care se deschide automat la pornirea unei sesiuni şi care permite editarea datelor, crearea de noi înregistrări, eliminarea unor înregistrări etc. Datele pot fi văzute în două ipostaze:

23 - Activând tab-ul Data View se vor afişa înregistrările fişierului de date într-o grilă, coloanele reprezentând variabilele, liniile fiind cazurile studiate (termenul de cazuri provine evident din practica sociologică/medicală, sunt elementele eşantionului studiat). - Activând tab-ul Variable View se vor afişa metadatele asociate variabilelor (numele variabilei, tipul variabilei, indicaţii de afişare etc.). Viewer Fereastra Viewer este utilizată pentru afişarea rezultatelor: statistici, tabele, diagrame etc. Dacă nu există o fereastră Viewer deschisă, se va crea automat una la prima comandă care produce ieşiri. Rezultatele afişate pot fi editate, deplasate, eliminate etc. într-un mediu similar cu cel din Microsoft Explorer. Pivot Table Editor Multe dintre tabelele care conţin rezultate sunt de fapt tabele pivot (cuburi OLAP). Acestea pot fi modificate în fereastra Pivot Table Editor (editare text, reconfigurare tabel etc.) activată prin dublu click pe un tabel. Apar meniurile corespunzătoare care permit editarea. Chart Editor Diagramele care pot fi construite, în general prin comenzile meniului Graphs, pot fi modificate, formatate etc. prin comenzile disponibile în Chart Editor. O asemenea fereastră este activată la dublu click pe o diagramă dintr-un fişier SPSS de ieşire. Text Output Editor Textul simplu (neinclus într-un tabel pivot) poate fi modificat, la dublu click pe o intrare text din fişierul de ieşire, în fereastra Text Output Editor. Se pot modifica în acest fel caracteristicile uzuale ale fontului. Syntax Editor SPSS poate fi utilizat prin intermediul unei limbaj de comenzi proprii. Acesta a fost modul iniţial de operare, astfel încât o serie de prelucrări foarte specializate au rămas disponibile, chiar şi în ultimele versiuni, doar prin intermediul comenzilor. O fereastră Syntax Editor poate fi deschisă prin File New/Open Syntax. Comenzile pot fi scrise direct în fereastra Syntax Editor, dar există şi

24 posibilitatea de a înregistra acţiunile din interfaţa utilizator sub formă de comenzi (similar înregistrării unui macro din Microsoft Office). Comenzile pot fi salvate ca un fişier de comenzi, în vederea reutilizării. Script Editor SPSS poate fi personalizat/automatizat prin intermediul unui limbaj de scriptare, Sax Basic (compatibil Visual Basic for Applications). Se va deschide o fereastră Script Editor prin File New/Open Script. Pot exista mai multe ferestre de ieşire (Viewer), ca şi mai multe ferestre de sintaxă (Syntax Editor). Fereastra activă dintr-un grup este indicată de semnul! afişat pe bara de stare a ferestrei active, activarea poate fi modificată prin acţionarea uneltei din fereastra inactivă Meniuri SPSS Ca în orice aplicaţie Windows, multe dintre prelucrările SPSS pot fi executate prin acţionarea comenzilor din meniuri.fiecare fereastră SPSS are propriile meniuri şi unelte corespunzătoare. Meniuri comune File Este utilizat pentru creare, deschidere, export de fişiere diverse: date, rezultate, comenzi etc. Edit Editările uzuale pentru date numerice, text sau obiecte grafice: copieri, alipiri etc. în aceeaşi aplicaţie sau nu. View Controlează modul de afişare a uneltelor, a liniaturii, a identificatorilor de valori (valorile pot avea ataşate denumiri explicite). Analyze Este meniul care dă acces la procedurile statistice. Graphs Permite crearea diagramelor. Orice diagramă poate fi modificată (reamintim) prin Chart Editor, afişată la dublu click pe diagramă. Utilities Permite afisarea informaţiilor despre variabile, definirea unor mulţimi de variabile etc. Window Operaţii asupra ferestrelor. Help Deschide o fereastră standard de ajutor.

25 Data Editor meniuri specifice Data Se pot realiza modificări globale cum ar fi transpunerea variabilelor şi cazurilor, filtrarea cazurilor etc. Modificările sunt temporare dacă nu sunt salvate în fişierul iniţial. Transform Permite transformarea unor variabile (cum ar fi recodificare) şi obţinerea unor noi variabile prin calcule efectuate asupra variabilelor existente. Modificările sunt temporare pentru sesiunea curentă, dacă nu sunt salvate în fişierul iniţial. SPSS - Opţiuni Se poate personaliza mediul SPSS prin selectarea comenzii Edit - Options Se remarcă, pe pagina General, posibilitatea de a menţine un jurnal al acţiunilor (Session Journal), de a controla afişarea variabilelor şi rezultatelor, de a stabili folderul temporar. Celelalte pagini permit stabilirea atributelor implicite pentru diagrame, tablourile pivotante, modul de calcul etc.

26 Fişierul de rezultate Rezultatele sunt afişate în fereastra Viewer în ordinea în care sunt apelate procedurile, fiecare apel producând o intrare în arborele de navigare din stânga ferestrei. În această fereastră se poate naviga la orice componentă prin operare în arborele de navigare şi se pot efectua editări care să conducă la o ieşire clară, uşor de interpretat, potrivit necesităţilor prelucrării. Se poate utiliza fereastra Viewer pentru: Parcurgerea rezultatelor, vizualizarea sau ascunderea unor componente (tabele, diagrame), Modificarea ordinii în care sunt afişate componentele, Accesul la ferestrele Pivot Table Editor, Text Output Editor, Chart Editor, Copierea/mutarea elementelor între SPSS şi alte aplicaţii (Word, Excel etc.). Panelul din stânga al ferestrei conţine arborele de structură a ieşirii. Se pot extinde sau restrânge ramuri, se pot deplasa elementele prin drag-and-drop, se poate naviga la un element prin selectarea nodului asociat. Pentru copiere între aplicaţii se poate utiliza tehnica uzuală Edit Copy urmat de Edit Paste/Paste Special. Există însă şi posibilitatea de export a ieşirii prin Se activează fereastra Viewer şi se dă comanda File Export. Se afişează dialogul Se fixează în File Type tipul fişierului destinaţie; ultimele versiuni acceptă şi formate.xls,.doc. Se alege numele şi calea fişierului destinaţie şi ce anume se exportă (întreg documentul cu sau fără diagrame, ce obiecte).

27 Organizarea datelor SPSS utilizează datele organizate în linii şi coloane: liniile reprezintă cazurile (observaţiile), coloanele reprezintă variabilele cercetării. Aparent, grila seamănă cu o foaie Excel, dar funcţionalitatea nu este aceeaşi. Deoarece prelucrările statistice se aplică variabilelor, acestea au în SPSS o serie de atribute memorate în fişierul de date şi arătate în Data Editor - Variable View: În SPSS, variabilele sunt denumite, cel puţin în versiunile mai vechi, cu identificatori de maxim 8 caractere şi care nu se pot termina cu punct (rezervat pentru comenzi de scriptare). Identificatorii sunt formaţi după regulile uzuale (cele mai restrictive sunt interzicerea spaţiilor şi a caracterelor speciale &,!,?, ', *) şi nu sunt case sensitive. Tipul unei variabile poate fi (semnificaţia este evidentă) numeric, comma, dot, scientific notation, date, custom currency sau string. Variabilele numerice pot avea cel mult 40 de caractere, dintre care 16 la partea zecimală. Variabilele string se pot clasifica în short string (până la 8 caractere) sau long string (până la 56 caractere). Variabilele short string suportă unele proceduri SPSS. Se poate defini pentru fiecare variabilă care este valoarea lipsă (missing value), cu alte cuvinte cum este codificată situaţia că un caz nu conţine o valoare pentru variabila respectivă. Valorile lipsă pot fi separate în system missing (un spaţiu în cazul datelor numerice sau nimic, şirul vid, în toate cazurile) şi user missing (cele specificate explicit ca valori lipsă). Variabilele long string nu permit valori user-missing. Pe lângă denumire, care apare ca nume al coloanei, o variabilă poate avea ataşată o etichetă, label, care este un text explicit privind semnificaţia variabilei. De exemplu, variabila Nume poate avea ca label textul Numele şi prenumele candidatului. Aceste etichete vor fi utilizate în raportarea rezultatelor. Atributul Width fixează numărul maxim de caractere al valorilor string, Columns precizează numărul de caractere afişate. Deoarece cazul frecvent întâlnit în prelucrările statistice este acela în care sunt înscrise în fişierul de date codurile valorilor (de exemplu, 1=elev, =student etc.), SPSS permite definirea şi memorarea codificărilor utilizate pentru fiecare variabilă. În fereastra Data Editor, pagina Variable View, activarea celulei din coloana Values conduce la afişarea dialogului Value Labels: Fiecare pereche Value Value Label este adăugată la lista de coduri prin activarea butonului Add etc. Etichetele de valori, împreună cu etichetele de variabile conduc la o formă explicită a rezultatelor. Ultimul atribut specific al unei variabile este scala de măsură utilizată, atribut reţinut în coloana Measure din Variable View. Denumirile SPSS utilizate

28 sunt scale pentru variabile de interval, ordinal pentru variabile ordinale, nominal pentru variabile nominale. Fixarea măsurii corecte este esenţială deoarece, reamintim, anumite prelucrări statistice se pot aplica doar unor variabile ordinale, sau de interval etc. Filtrarea cazurilor Apare uneori necesitatea de a prelucra doar un subset de înregistrări: pentru a obţine o imagine rapidă a unei structuri, pentru a prelucra doar eşantionul dintr-o anumită subpopulaţie etc. SPSS oferă în acest scop comanda Data Select Cases care produce afişarea dialogului următor. Prin opţiunile din grupul Select se fixează modalitatea de filtrare. Este de remarcat că prin grupul Unselected Cases Are se poate opta pentru eliminarea efectivă a cazurilor neselectate (opţiune nerecomandată) sau pentru filtrarea lor, adică eliminarea este doar logică, o nouă selectare cu opţiunea All cases le va reactiva. În continuare se prezintă doar subdialogul obţinut la opţiunea If condition şi activarea butonului If. În zona de formare a condiţiei se pot utiliza denumiri de variabile (aduse din lista din stânga), operatori, funcţii. Vor rămâne vizibile doar înregistrările pentru care condiţia este adevărată. Generarea unei noi variabile Din diferite motive, de exemplu necesitatea unei recodificări sau cea a calculării unei variabile noi ca medie a altor variabile etc., este utilă posibilitatea de a genera automat o nouă variabilă. SPSS are două comenzi principale destinate acestui

29 scop: Transform Compute şi Transform Recode. Prima permite obţinerea unei variabile în urma unui calcul, a doua este pentru recodificare. Comanda Compute Prin Transform Compute se afişează dialogul Compute Variable (în versiuni mai noi dialogul este modificat ca aranjare a zonelor): În zona Target Variable se trece denumirea noii variabile pentru care se poate preciza tipul şi eticheta în subdialogul afişat prin acţionarea butonului Type & Label. În zona de formare a expresiei de calcul, Numeric Expression, se formează expresia de calcul prin utilizarea butoanelor existente pentru operatori şi funcţii sau prin tastare directă. Denumirile variabilelor existente pot fi aduse în expresie prin selectare în lista variabilelor, dublu click sau butonul. Se poate efectua o filtrare a înregistrărilor (cazurilor) pentru care are loc transformarea dacă se acţionează butonul If. Cazurile neselectate vor avea valoarea system-missing pentru noua variabilă. Comanda Recode Recodificarea unei variabile este utilă în două situaţii principale: 1. se transformă o variabilă de interval într-o variabilă ordinală pentru a o raporta ca date grupate sau pentru a studia asocierea cu alte variabile ordinale,. o variabilă string trebuie recodificată cu coduri numerice necesare pentru a putea aplica anumite proceduri SPSS, care cer variabile codificate numeric. Recodificarea poate fi în aceeaşi variabilă, sau într-o nouă variabilă, cazul discutat aici. Prin Transform Recode Into Different Variables se afişează dialogul în care se transferă variabila numerica pentru care se realizează recodificarea din lista

30 variabilelor în lista Numeric Variable Output Variable, se completează numele şi eventual eticheta noii variabile în Output Variable după care se acţionează Change. Se pot selecta cazurile pentru care are loc recodificarea prin If. Prin acţionarea Old and New Values se deschide dialogul Se va selecta în zona Old Value opţiunea dorită, se va completa noua valoare în New Value şi prin Add se trece corespondenţa definită în lista Old New. Noile coduri pot fi de tip string doar dacă se activează checkbox-ul Output variables are string. Prelucrări statistice Prelucrările statistice din SPSS se realizează prin comenzile din meniul Analyze, sau prin executarea comenzilor scrise în fereastra Syntax Editor. Deoarece efectuarea unei prelucrări necesită operarea cu un număr de dialoguri specializate, pentru familiarizarea cu principalele dialoguri care apar la comenzile de prelucrări statistice se prezintă în continuare modul în care se obţin statisticile descriptive şi o procedură de testare a egalităţii mediilor. Analyze - Frequencies Se selectează Analyze - Descriptive Statistics - Frequencies... Apare dialogul următor în care se trec variabilele dorite din lista din stânga în lista din dreapta (prin dublu click sau selectare şi ). Se marchează checkbox-ul Display frequency tables dacă se doresc şi tabelele de frecvenţe calculate. In caz contrar trebuie să se opereze cu subdialogurile Statistics, Charts pentru a obţine rezultate.

31 La acţionarea butonului Statistics, se afişează dialogul Frequencies: Statistics în care se pot activa opţiunile corespunzătoare indicatorilor de tendinţă centrală, împrăştiere sau de caracterizare a curbei distribuţiei (evident că anumite statistici se pot calcula doar pentru variabile de tipuri adecvate: interval, ordinal, nominal). Subdialogul Charts permite construirea unui grafic adecvat pentru un tabel de frecvenţe. Opţiunea Histograms with normal curve afişează curba normală suprapusă peste histogramă, utilă pentru aprecierea depărtării de la normalitate. Subdialogul Format gestionează modul de afişare a intrărilor tabelului de frecvenţe în Order by. În Multiple variables se poate opta între un format care include toate variabilele selectate (pentru comparare trebuie ca variabilele să fie de acelaşi tip) şi un format în care fiecare variabilă este raportată separat. Prin OK în dialogul iniţial se va genera în fereastra Viewer ieşirea cerută.

32 Analyze Descriptives O comandă sintetică pentru statisticile descriptive ale variabilelor continue este Analyze - Descriptive Statistics - Descriptives. Parametrii prelucrării se fixează în următoarele două dialoguri. Analyze Crosstabs Obţinerea tabelelor de frecvenţe încrucişate, utile la studiul asocierii dintre variabile, este gestionată de comanda Analyze Descriptive Statistics Crosstabs, care iniţializează dialogul următor. Se trec, prin acţionarea butoanelor de trecere, variabilele dorite în lista Rows (tabelele vor avea câte o linie pentru fiecare valoare distinctă a variabilelor din această listă) şi în lista Columns (tabelele vor avea câte o coloană pentru fiecare valoare distinctă a variabilelor din această listă). Se va calcula şi afişa câte un tabel de frecvenţe încucişate pentru fiecare combinaţie de variabile, câte una din fiecare listă. În cazul în care se doresc frecvenţe încrucişate pentru trei sau mai multe variabile, se utilizează controlul Layer în care se vor trece variabilele de pe poziţia a treia, se trece la layerul următor şi se repetă procedura. Subdialogul Statistics permite selectarea statisticilor calculate. Este evident necesară cunoaşterea tipului variabilelor, pentru a alege statisticile adecvate.

33 Subdialogul Cell permite selectarea statisticilor calculate pentru fiecare celulă a tabelului. Se remarcă în grupul Percentages posibilitatea de a calcula frecvenţe relative raportate la totalul de pe linie, de pe coloană sau general. De asemenea, prin Count Expected se pot calcula frecvenţele implicate în calculul statisticii χ. Subdialogul Format gestionează doar ordinea liniilor funcţie de valorile care le generează. Analyse - Compare means Testarea ipotezelor de egalitate a mediilor se realizează prin intermediul comenzilor grupate în Analyze - Compare means. Dintre procedurile existente se prezintă în continuare doar cele care conduc la aplicarea unor teste t.. Prin Analyze - Compare means - Independent Samples T test se iniţiază testul t de comparare în cazul eşantioanelor independente (necorelate). Se realizează calculele atât pentru cazul dispersiilor egale, cât şi a dispersiilor neegale, utilizatorul fiind acela care alege situaţia adecvată.

34 Comanda produce afişarea următorului dialog. Se vor selecta variabilele, după care se compară cele două grupuri, din lista variabilelor (continue) şi se trec în lista variabilelor de test. Pentru a preciza grupurile care sunt comparate precizează variabila care identifică grupurile (Grouping Variable) şi se iniţiază dialogul Define Groups în care, pentru o variabilă discretă, se precizează valorile etichete ale celor două grupuri sau, pentru o variabilă continuă, valoarea care separă cele două grupuri. Prin intermediul dialogului iniţiat la Options, se poate fixa pragul de semnificaţie şi modul de tratare a valorilor lipsă.

35 Rezultatele conţin un tabel al statisticilor elementare pentru fiecare grup şi variabilă de test Rezultatele numerice utile în efectuarea testului t sunt conţinute într-un tabel precum cel care urmează. Independent Samples Test Fuel efficiency Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper,004,948 8,664 15,000 5,597,646 4,31 6,874 9,356 79,405,000 5,597,598 4,407 6,788 Tabelul conţine două linii de rezultate numerice: rândul superior priveşte testul t în situaţia dispersiilor egale, rândul inferior se referă la cazul dispersiilor neegale. Alegerea este condusă de testul Levene de egalitate a dispersiilor, care este realizat prin intermediul coloanelor aflate sub antetul Levene's Test. Statistica este F (=0,004 în cazul ilustrat) iar probabilitatea critică este Sig (0,948 în cazul ilustrat). Prin urmare, la pragul de 0,05, nu se respinge ipoteza egalităţii dispersiilor. In acest caz se vor utiliza valorile din rândul superior al tabelului şi se citeşte valoarea statisticii testului t = 8,664 şi probabilitatea critică bilaterală Sig < 0,001. Drept urmare se va respinge ipoteza egalităţii mediilor celor două grupuri. Ultimele 4 coloane conţin diferenţa dintre medii, eroarea standard a acestei diferenţe şi intervalul de încredere pentru diferenţa mediilor (faptul că intervalul nu conţine valoarea 0 este echivalent cu respingerea egalităţii mediilor). Alte teste, neparametrice, pot fi aplicate individual prin intermediul comenzilor grupate în Analyze - Nonparametric Tests.

36 Testele statistice specifice prelucrărilor diverse de analiză a datelor sunt aplicate automat sau la cerere la iniţierea diverselor prelucrări: analiza varianţei, analiza regresională etc. C. Lucrarea practică 1. Se va importa în SPSS fişierul de date (utilizat şi la lucrarea nr.1) i. Se vor completa, pentru fiecare variabilă, atributele specifice: tipul (nominal, ordinal, interval), denumirea, modul de afişare (coloane, zecimale etc.), etichetele de valori (acolo unde este cazul). ii. Se vor elimina coloanele care poartă în fişierul text informaţii auxiliare. iii. Se va crea o variabilă filtru cu valoarea 1 dacă proba la alegere este analiza matematică şi valoarea 0 în rest. iv. Se va recodifica variabila reprezentând situaţia după examen astfel încât să poată fi asimilată unei variabile ordinale (ordinea fiind cea intuitivă - reuşit fără taxă, cu taxă, în aşteptare, respins).. Se vor caracteriza variabilele cu ajutorul indicatorilor statistici adecvaţi. 3. Să se creeze tablourile de frecvenţe încrucişate dintre variabilele Opţiune şi Situaţie, incluzând şi calculul frecvenţelor relative. 4. Se va testa egalitatea mediilor de admitere după cele trei discipline la alegere. 5. Se va testa egalitatea mediilor de admitere pentru cei care au ales analiza matematică şi cei care au ales o probă de programare. 6. Se vor crea şi edita grafice adecvate ale repartiţiilor variabilelor conţinând proba la alegere, mediile la bacalaureat, scris, finală.

37 Statistică multivariată Lucrarea nr. 4 Analiza dispersională univariată - Excel, SPSS A. Noţiuni teoretice Structura datelor Valorile unei caracteristici X, sunt măsurate în k eşantioane independente, obţinute din k populaţii. Populaţiile se consideră repartizate normal, cu mediile µ 1, µ,, µ k şi dispersiile egale σ 1 = σ = K = σ k, respectiv. Problema care se cere rezolvată este să se stabilească dacă populaţiile pot fi considerate omogene din punctul de vedere al caracteristicii X. Cum egalitatea dispersiilor este impusă, mai trebuie testată egalitatea mediilor. Observaţie. Pentru verificarea ipotezei de egalitate a dispersiilor se va utiliza un test adecvat (De exemplu, Levene). În cazul în care ipoteza normalităţii nu este îndeplinită (sau nu este verificată), erorile care se introduc nu sunt importante în cazul în care volumul eşantioanelor este suficient de mare (> 4) iar numărul grupurilor este relativ mic. Există şi teste de egalitate a mediilor care se pot aplica şi în cazul respingerii ipotezei de egalitate a dispersiilor: Brown - Forsythe, Welch. De amintit şi că o reprezentare grafică de tip boxplot poate oferi o imagine intuitivă în ceea ce priveşte egalitatea dispersiilor. Formal, dispunem de k grupuri de valori, de volume n 1, n,, n k, respectiv, notate cu A 1, A,, A k. În sensul discuţiei generale, se poate considera că A 1, A, sunt categoriile unei variabile (de obicei nominale) care face deosebirea dintre grupuri. Aceasta este variabila independentă a analizei. Variabila X este variabila dependentă, variabila după care se compară populaţiile.. Variaţia datorată diferenţelor dintre grupuri este definită ca variaţie explicată partea din variaţia variabilei dependente explicată de variabila independentă. Cu alte cuvinte, variaţia explicată este partea explicată de către împărţirea în grupuri. Variaţia, care rămâne după separarea variaţiei explicate, este definită drept variaţie reziduală (variaţia neexplicată) şi este datorată unor surse întâmplătoare de variaţie. Variaţie explicată mai este denumită şi variaţie între grupuri (exterioară), iar cea reziduală variaţie în grupuri (internă). Se poate considera că modelul de bază al analizei dispersionale afirmă că orice valoare a variabilei X este obţinută prin cumularea a două efecte, unul sistematic şi unul întâmpător: x ij = efect sistematic (al nivelului A i ) + efect întâmplător (din nivelul A i ). Formule de calcul Mediile grupurilor x i x = + x + K + x i1 i ini 1 n i = n i n i j= 1 x ij, i = 1,, K, k Media generală (considerând grupurile reunite)

38 Numărul total de observaţii x = n 1 + n 1 + K + n n = n K + k n i k i= 1 j= n + n k. Cu aceste notaţii, se defineşte variaţia din interiorul unui grup prin abaterile faţă de media grupului, iar variaţia dintre grupuri prin abaterile de la media generală a mediilor grupurilor. Se demonstrează că are loc relaţia k n k n xij x) = i= 1 j= 1 i= 1 j= 1 i i x ij. i ( ( x x ) + ( x x). ij i k n i= 1 j= 1 i Relaţia se mai scrie SP = SP + SP g exp rez unde SP g este suma pătratelor globală, SP exp este suma pătratelor explicată, iar SP rez este suma pătratelor reziduală, cu interpretarea de descompunere a variaţiei globale în variaţia explicată şi variaţia reziduală. Cele trei sume de pătrate au, respectiv, următoarele grade de libertate: ν k g = ni 1 = n 1, ν exp = n k, i= 1 ν rez = k 1. Prin raportarea unei sume de pătrate la numărul ei de grade de libertate se obţine media pătratică. Astfel s SP g SP exp SPrez g = ; sexp = ; srez = ν g ν esp ν rez care caracterizează, respectiv, împrăştierile globală, explicată, reziduală. Dintre acestea, s rez estimează absolut corect dispersia teoretică σ, indiferent dacă mediile de sondaj ale grupurilor estimează sau nu aceeaşi medie teoretică µ. Dacă mediile de sondaj sunt omogene, atunci şi celelalte medii pătratice, s g şi s exp, sunt estimaţii absolut corecte ale dispersiei comune σ. Dacă mediile de sondaj nu sunt omogene (ca urmare a influenţei factorului sistematic de clasare în grupuri), s şi sexp nu vor mai estima absolut corect dispersia comună. Prin urmare, între s rez şi s exp apar diferenţe semnificative când mediile grupurilor sunt neomogene. Din acest motiv, analiza dispersională este uneori referită drept un test F pentru o comparare multiplă. Se construieşte astfel tabelul analizei dispersionale unifactoriale, ANOVA. Sursa Suma Grade de Media F variaţiei pătratelor libertate pătratelor Între grupuri SP (externă) exp ν exp s exp s exp F = În grupuri SP (internă) rez ν rez s s rez rez Globală SP g ν g s g, g

39 Testul F. Compararea cantităţilor s exp şi s rez se efectuează într-un test F cu ipotezele: H 0 : µ 1 = µ = = µ k (mediile grupurilor sunt egale); H 1 : există µ i µ j, (cel puţin două medii sunt neegale). De remarcat că în ipoteza alternativă se afirmă existenţa unei diferenţe între două medii, dar nu se pot specifica mediile diferite; nu se afirmă că toate mediile sunt diferite două câte două. În condiţiile ipotezei H 0, cantitatea F calculată în tabelul ANOVA urmează o repartiţie Fisher-Snedecor cu ν exp şi ν rez grade de libertate, Fν exp ; ν, ceea ce permite rez efectuarea unui test statistic. Decizia. Dacă, pentru un prag de semnificaţie α, fixat, valoarea F calculată este mai mare sau egală cu quantila corespunzătoare a repartiţiei F, F, F 1 α ; ν exp ; ν rez atunci se respinge ipoteza nulă în favoarea ipotezei alternative. Cu alte cuvinte, în acest caz se poate accepta ipoteza că mediile grupurilor nu sunt omogene, există cel puţin două diferite între ele. Se conchide că diferenţele dintre grupuri justifică o parte semnificativă a variaţiei variabilei dependente. În caz contrar, nu se respinge ipoteza nulă a omogenităţii mediilor: împărţirea în grupuri nu este semnificativă (grupurile sunt similare în privinţa variabilei dependente). Observaţie. Reamintim presupunerea iniţială că toate grupurile sunt caracterizate de aceeaşi dispersie. Modele ale analizei dispersionale unifactoriale În funcţie de modul de stabilire a grupurilor pot să apară două situaţii, după cum sunt considerate sau nu toate grupurile, de interes pentru cercetare, posibile. 1. Grupurile corespund categoriilor unei scale nominale (ordinale), toate categoriile scalei fiind luate în considerare. În acest caz se spune că se studiază întreaga populaţie a surselor. Situaţia apare şi atunci când, prin convenţie, se consideră că se studiază întreaga populaţie a surselor. În acest caz se compară grupurile între ele, se obţin concluzii valabile pentru fiecare grup în parte. Acesta este modelul cu efecte sistematice (sau modelul 1).. Grupurile corespund unor surse alese întâmplător dintr-o populaţie a surselor. In acest caz este important ca, pe lângă compararea grupurilor, să se obţină informaţii despre mulţimea tuturor surselor. Este ca şi cum, din multitudinea de categorii a unei scale nominale (ordinale) se aleg la întâmplare câteva categorii, se obţin eşantioane din grupurile corespunzătoare categoriilor selectate, prelucrarea se efectuează asupra acestor eşantioane. Acesta este modelul cu efecte întâmpătoare (sau modelul ). Observatie. Indiferent de modelul aplicat, calculele care conduc la stabilirea tabelului ANOVA sunt aceleaşi. Diferenţele între modele apar la concluzii şi la obţinerea altor estimaţii. B. Instrumente Excel, SPSS Excel Analiza dispersională unifactorială poate fi efectuată în Excel prin Tools - Data Analysis: - Anova: Single Factor.

40 Datele trebuie să fie structurate pe coloane/linii astfel încât fiecare coloană/linie să reprezinte eşantionul dintr-o subpopulaţie. Nu este necesar ca planul de experienţe să fie echilibrat (eşantioanele pot avea volume diferite). În exemplul alăturat, cele patru coloane etichetate Optiune1 - Optiune4 reprezintă fiecare câte un eşantion; etichetele pot fi gândite ca valori ale unei variabile discrete (nominală în mod uzual), valori care identifică subpopulaţiile comparate. organizarea datelor în zona care începe din celula A1 este întâmplătoare (din motive de prezentare). Dialogul analizei este prezentat în continuare şi se poate remarca faptul că se indică la Input Range întreg domeniul ocupat de date, faptul că prezenţa etichetelor în prima linie este menţionată în Label in first row şi că în zona Alpha se poate preciza valoarea pragului de semnificaţie (implicit este 0,05). Adresa Output Range se referă la un domeniu din caietul existent unde se vor afişa rezultatele, dar rezultatele pot fi scrise într-o nouă foaie de calcul sau un nou caiet. Rezultatele conţin un prim tabel sintetic cu statisticile uzuale:

41 Tabelul ANOVA este unde: Source of Variation reprezintă descompunerea în variaţie explicată (Between Groups) şi variaţie neexplicată (Within Groups) SS este coloana sumelor de pătrate df este coloana gradelor de libertate asociate sumelor de pătrate MS conţine mediile sumelor de pătrate F este valoarea calculată a staticii F P-value, F crit sunt, respectiv, probabilitatea critică şi valoarea critică care permit decizia în testul statistic: ipoteza nulă a grupurilor omogene se respinge dacă p-value este mai mică sau egală cu pragul a ales sau dacă valoarea F calculată este mai mare sau egală cu valoarea critică.. SPSS Pentru a realiza o analiză dispersională unifactorială se dă comanda Analyze - Compare Means - One-Way ANOVA... Este afişat dialogul Se va trece în zona Factor variabila discretă care realizează caracterizarea grupurilor de comparat iar în lista Dependent List variabilele continue pentru care se compară grupurile. Fiecare variabilă continuă va produce un tabel ANOVA, deci se realizează atâtea analize câte variabile sunt în lista variabilelor dependente. Comanda Options (celelalte comenzi, Contrasts şi Post Hoc vor fi utilizate în lucrarea următoare) afişează dialogul cu acelaşi nume, care permite fixarea statisticilor care se calculează: Descriptive indicatorii statistici ai variabilei dependente, total şi pe grupuri,

42 Fixed and random effects pentru a distinge la interpretare modelul cu efecte sistematice sau nu, Homogeneity of variance test testul Levene de egalitate a dispersiilor, Brown-Forsythe şi Welch teste de egalitate a mediilor aplicabile în cazul neegalităţii dispersiilor, Means plot produce reprezentarea grafică a mediilor grupurilor comparate (interpretarea este relativă, ca şi orice interpretare a unui grafic, dar poate constitui un sprijin intuitiv pentru rezultatele testelor statistice). In arborele de structură a fişierului de ieşire este de remarcat că intrarea corespunzătoare este un nod de tip Oneway, prezentat în continuare, în care sunt prezente toate secţiunile, vizibile sau ascunse. Dacă se vizualizează, prin dublu click, secţiunea Notes, se va obţine un tabel cu parametrii prelucrării: data prelucrării, fişier de date, filtrare etc. Se poate vedea, lucru util pentru crearea unor scripturi, sintaxa instrucţiunii care realizează aceeaşi prelucrare. Tabelul de statistici descriptive conţine, pentru fiecare grup determinat de valorile variabilei factor, informaţiile: număr de cazuri (N), media (Mean), abaterea standard (Std. Deviation), eroarea standard a mediei (Std. Error), intervalul de încredere pentru medie (Confidence Interval for Mean)

43 valorile extreme, statisticile specifice modelului de analiză solicitat (cu efecte sistematice sau cu efecte întâmplătoare). Dacă s-a solicitat testarea omogenităţii dispersiilor, se va aplica testul Levene, rezultatele fiind sub forma: în care Sig. reprezintă probabilitatea critică a testului (rotunjită la trei zecimale). Tabelul ANOVA este sub forma: afişându-se doar probabilitatea critică (p-value) în coloana Sig. Dacă se solicită graficul mediilor, interpretarea este relativă, funcţie de scalele utilizate, culori etc. Se pot însă vedea grupurile relativ apropiate, valorile extreme.

44 C. Lucrarea practică 1. Se salvează şi se deschide în Excel fişierul Datele privesc un studiu desfăşurat timp de 4 săptămâni în care s-a urmărit numărul de ore de vizionare a trei tipuri de programe TV: filme, divertisment, ştiri.. Să se analizeze setul de date TVHours.xls şi să se răspundă la următoarele întrebări: a. există diferenţe între bărbaţi şi femei în ceea ce priveşte numărul total de ore de vizionare? b. există diferenţe între bărbaţi şi femei în ceea ce priveşte numărul de ore de vizionare pe categorii de programe? c. pe total şi pe bărbaţi-femei separat, cele 4 săptămâni ale studiului diferă i. după numărul total al orelor de vizionare? ii. după numărul de ore pe categorii de programe? d. se împart subiecţii pe categorii de vârstă: 1-5, 6-30, Să se decidă dacă există deosebiri între cele trei categorii de vârstă definite în ceea ce priveşte i. numărul total al orelor de vizionare? ii. numărul de ore pe categorii de programe? 3. Se va importa în SPSS fişierul TVHours.xls şi se va reface analiza în vederea obţinerii răspunsurilor la întrebările -b, -d. 4. Se va deschide în SPSS fişierul cars.sav (fişierul de date se găseşte în folderul aplicaţiei SPSS). Să se decidă dacă, între caracteristicile tehnice ale autoturismelor considerate în studiul respectiv, există deosebiri după localizarea producătorului (Europa, Japonia, America) atât pe ansamblul perioadei considerate, cât şi pe ultimii 5 ani ai studiului.

45 Statistică multivariată Lucrarea nr. 5 ANOVA: analiza post-hoc, analiza bifactorială - Excel, SPSS A. Noţiuni teoretice Analiza post-hoc Aplicarea testului ANOVA poate produce ca rezultat respingerea ipotezei de egalitate a mediilor. Nu se precizează însă care grupuri au mediile diferite, producând astfel respingerea ipotezei nule. Din acest motiv au fost dezvoltate tehnicile de comparaţie multiplă, cunoscute ca analiza post-hoc, care vor evidenţia grupurile care diferă ca medie. Reamintim că nu se poate ajunge la acest lucru prin comparaţii asigurate de teste t, deoarece astfel nu se menţine pragul de semnificaţie la o valoare acceptabilă. Dintre metodele de comparaţie multiplă enumerăm: Bonferroni - (numit şi testul Dunn) implică o succesiune de teste t la care pragul de semnificaţie este divizat prin numărul de comparaţii. De exemplu, pentru a păstra nivelul de semnificaţie global la 0,05 în m comparaţii, fiecare test t de comparare este efectuat la pragul de 0,05/m. Rezultă că procedura poate fi aplicată doar atunci când există puţine comparaţii, în caz contrar este greu de găsit o diferenţă semnificativă (şi creşte riscul unei erori de speţa II). Scheffe - este o metodă bazată pe testul F, utilizată în situaţiile în care numărul de comparaţii este mare, cu menţiunea că puterea testului este mică (riscul apariţiei unei erori de speţa II este mare). Tukey - (honestly significant difference - HSD) este o metodă bazată pe statistica q şi este preferată în cazul în care se doreşte efectuarea tuturor comparaţiilor de grupuri, două câte două. Este, pe de altă parte, cea mai conservativă metodă, în sensul că acceptă cel mai repede ipoteza nulă a omogenităţii grupurilor (de regulă, în cazul unui număr mare de comparaţii, riscul apariţiei unei erori de speţa I este mare, astfel încât o metodă conservativă este de preferat). Statistica q, numită statistica amplitudinii studentizate, constituie baza unor metode de comparaţie multiplă. Diferenţa faţă de statistica t este doar în ceea ce priveşte numitorul expresiei matematice de definiţie: q utilizează eroarea standard a mediei, prin urmare se poate testa probabilitatea ca mediile extreme ale grupurilor comparate să fie obţinute din aceeaşi populaţie (în testul t se testa diferenţa a două medii). Evident, dacă ipoteza omogenităţii mediilor extreme nu se respinge, atunci toate mediile sunt omogene. Tukey's b - (wholly significant difference - WSD) este un test Tukey modificat pentru a fi mai puţin conservativ, considerându-se o valoare critică modificată. Dunnett - este un test bazat pe o statistică t, utilizată atunci când se doreşte compararea cu un grup de control. LSD - (least significant difference test - LSD) este bazat pe statistică t şi este cea mai liberală metodă de comparaţie multiplă, în sensul că acceptă cel mai adesea o diferenţă semnificativă. Există şi metode care se pot aplica în cazul în care ipoteza omogenităţii varianţelor nu este acceptată:

46 Games-Howell - (GH) bazată pe statistica q este mai conservativă şi, datorită puterii crescute (în raport cu alte metode similare), este recomandată în situaţia grupurilor de volume diferite şi cu dispersii neegale sau necunoscute. Dunnett's T3, Dunnett's C - păstrează un control mai strict al pragului de semnificaţie. Tamhane's T - este un test conservativ (tinde să nu respimgă ipoteza nulă). Contrast - reprezintă o combinaţie între mediile unor grupuri. Testarea egalităţii cu zero realizează astfel un test privind adevărul relaţiei respective între mediile grupurilor implicate. Analiza dispersională bifactorială (two-way ANOVA) Studiul asocierii dintre o variabilă continuă (variabila dependentă) şi două variabile discrete (variabile independente, factori) necesită un instrument de analiză care să poată diferenţia influenţa primului factor, influenţa celui de al doilea factor, precum şi influenţa combinată, interacţiunea celor doi factori. În acest scop s-a dezvoltat analiza dispersională bifactorială. Metoda este bazată tot pe descompunerea variaţiei totale în variaţie explicată şi variaţie reziduală, situaţie ilustrată în figura alăturată Variaţie explicată de primul factor Variaţie explicată de al doilea factor Variaţie neexplicată Variaţie explicată de interacţiunea factorilor După descompunerea variaţiei totale, decizia se ia pe baza comparării diferitelor părţi ale variaţiei explicate cu variaţia reziduală. Dacă o parte explicată este semnificativ mai mare decât partea reziduală, atunci se va considera că respectivul factor, sau interacţiunea lor, este important pentru nivelul valorii variabilei dependente. Notăm cu A şi B variabilele independente (factorii) iar cu X variabila dependentă (după care se compară grupurile determinate de nivelele factorilor). Presupunem că factorul A are h nivele, iar factorul B are q nivele. Rezultă că factorii A şi B determină hq grupuri. Este uzual ca valorile de sondaj corespunzătoare grupurilor să fie aranjate într-o structură dreptunghiulară, cu hq celule, fiecare eşantion ocupând celula corespunzătoare nivelelor A i şi B j, care identifică grupul. O asemenea structură este referită drept plan bifactorial. Deşi este posibil ca eşantioanele să aibă volume diferite, vom considera doar cazul în care toate celulele conţin un număr egal de valori, notat cu n, caz în care se spune că avem un plan factorial echilibrat. Prin x ijk

47 se notează astfel a k-a valoare din eşantionul care corespunde grupului determinat de nivelul i al factorului A şi nivelul j al factorului B. Utilizând valorile medii calculate pentru linii, coloane, celule şi pentru totalitatea valorilor se demonstrează că are loc relaţia de descompunere a variaţiei totale în variaţia datorată factorului A, variaţia datorată factorului B, variaţia datorată interacţiunii AB şi variaţia reziduală: SP g = SP A + SP B + SP AB + SP rez unde h q n SPg = ( xijk x) i= 1 j= 1k = 1 h SPA = qn ( xi x) i= 1 q SPB = hn ( x j x) j= 1 h q SPAB = n ( xij xi x j + x) i= 1 j= 1 h q n SPrez = ( xijk xij ). i= 1 j= 1k = 1 Sumele de pătrate au, respectiv, gradele de libertate ν = hqn 1, ν g AB ν = h 1, A = ( h 1) ( q 1), ν rez ν = q 1, B = hq( n 1). Cu aceste cantităţi se completează tabloul analizei dispersionale bifactoriale. Tabloul analizei dispersionale (ANOVA) bifactoriale Sursa de variaţie Suma Grade de pătratelor libertate Media pătratelor Între grupuri Factorul A SP A ν A s A = SP A / ν A Factorul B SP B ν B B Interacţiunea AB SP AB ν AB AB În interiorul grupurilor Globală SP g ν g SP rez ν rez s rez = SP rez / ν rez FA = sa / srez s B = SP B / ν FB = sb/ srez s AB = SP AB / ν FAB = sab/ srez F Ca şi în cazul analizei dispersionale unifactoriale, verificarea semnificaţiei factorilor se face prin intermediul unor teste F comparând variaţiile explicate cu variaţia reziduală. De aici coloana ultimă din tablou, care conţine cele trei statistici necesare testelor F, obţinute ca rapoarte având la numitor s rez. Ipotezele testate. Sunt trei seturi de ipoteze, corespunzătoare celor doi factori şi interacţiunii lor. Le vom nota după factorii implicaţi:

48 (AB) (A) H 0 : interacţiunea factorilor A şi B nu este semnificativă (efectul lui A nu se modifică funcţie de nivelul lui B) H 1 : interacţiunea factorilor A şi B este semnificativă (efectul lui A depinde de nivelul factorului B) H 0 : factorul A nu este semnificativ (clasificarea după linii nu este semnificativă sau mediile liniilor nu diferă semnificativ) H 1 : factorul A este semnificativ (clasificarea după linii este semnificativă, mediile liniilor diferă în mod semnificativ) (B) H 0 : factorul B nu este semnificativ (clasificarea după coloane nu este semnificativă sau mediile coloanelor nu diferă semnificativ) H 1 : factorul B este semnificativ (clasificarea după coloane este semnificativă, mediile coloanelor diferă în mod semnificativ) Decizia. Deoarece se demonstrează că, acceptând ipoteza nulă a fiecărui test, statistica F calculată în tabloul ANOVA urmează o repartiţie F având drept grade de libertate numerele ataşate numărătorului şi numitorului, se va respinge ipoteza nulă H 0 în favoarea ipotezei alternative dacă valoarea F calculată, corespunzătoare testului, citită în tabloul ANOVA, este mai mare sau egală cu quantila respectivă a repartiţiei Fisher-Snedecor. Testul (AB) (A) (B) Regula de respingere a ipotezei nule F F AB F A F B F F 1 α ; ν AB ; ν rez 1 α ; ν A ; ν rez 1 α ; ν B ; ν rez Observaţie. Pentru ca pragul de semnificaţie să fie α pentru ansamblul celor trei teste, se recomandă ca pragul de semnificaţie să fie α /3 pentru fiecare test individual. B. Instrumente Excel În Excel nu se poate efectua analiza post-hoc (dacă nu se dezvoltă/deschide etc. un proiect VBA dedicat). Pentru analiza dispersională bifactorială, datele se vor organiza în modul următor:

49 Este important de reţinut că se pot efectua doar analize în care planul de experimente este echilibrat, deci fiecare celulă are acelaşi număr de valori, n. Din Tools - Data Analysis se continuă cu: ANOVA: Two-Factor With Replication în cazul n > 1 ANOVA: Two-Factor Without Replication în cazul n = 1 Dialogul afişat în primul caz, cel mai general deoarece se permite studiul interacţiunii între factori, este unde se completează: Input Range - referinţa la zona datelor, zona colorată din figura cu structura datelor. Rows per sample - valoarea lui n, numărul de valori dintr-o celulă. Restul zonelor sunt explicate prin denumirile lor. Instrumente SPSS Analiza Post Hoc Pentru a realiza o analiză dispersională unifactorială se dă comanda Analyze - Compare Means - One-Way ANOVA... după cum s-a explicat în lucrarea anterioară. Analiza post-hoc este realizată prin acţionarea butonului Post Hoc. În dialogul afişat se marchează metodele dorite, atât în cazul ANOVA (dispersii egale), cât şi în cazul în care dispersiile nu sunt egale. În dialogul One-way ANOVA, prin Contrasts se afişează dialogul sinonim în care putem preciza coeficienţii contrastelor dorite. Procesul de definire este dublu iterativ: se tastează în Coefficients câte un coeficient şi apoi Add. La sfârşit prin Next se trece

50 la următorul contrast şi operaţiunea de definire se reia. Coeficienţii sunt în ordinea valorilor variabilei factor (deşi este o variabilă discretă, aceasta trebuie să fie codificată numeric). Two-Way ANOVA Analiza bifactorială se poate realiza în două moduri: 1. din fereastra de sintaxă sau. utilizând comanda General Linear Model (GLM). Comanda ANOVA Se deschide o nouă fereastră de sintaxă prin File - New - Syntax: Se afişeazăa stfel o fereastră în care se pot scrie şi executa comenzi: Comanda ANOVA are sintaxa generală: ANOVA [VARIABLES=] varlist BY varlist(min,max)...varlist(min,max) [WITH varlist] [/VARIABLES=...] [/COVARIATES={FIRST**}] {WITH }

51 {AFTER } [/MAXORDERS={ALL** }] {n } {NONE } [/METHOD={UNIQUE** }] {EXPERIMENTAL} {HIERARCHICAL} [/STATISTICS=[MCA] [REG ] [MEAN] [ALL] [NONE]] [/MISSING={EXCLUDE**}] {INCLUDE } unde: VARIABLES specifică lista variabilelor analizate. Analize diferite sunt separate prin slash-uri. variabilele din faţa cuvântului rezervat BY sunt dependente, cele de după sunt factorii analizei. fiecare factor trebuie să fie codificat numeric şi grupurile considerate se precizează prin valorile minimă şi maximă asociate. variabilele listate după WITH sunt covariabilele analizei (analiza covarianţei) COVARIATES specifică ordinea de considerare în analiză a covariabilelor şi a factorilor principali. FIRST produce procesarea covariabilelor înaintea factorilor; WITH procesare simultană; AFTER procesează covariabilelor la sfârşit. ordinea este neglijată dacă METHOD=UNIQUE. MAXORDERS precizează ordinul maxim de interacţiune considerat în analiză. ALL fixeaza ordinul de interacţiune la 5 (valoarea implicită în SPSS); n stabileşte ordinul maxim; NONE nu se analizează interacţiunile. interacţiunile omise sunt incluse în varianţa reziduală. METHOD controlează metoda de descompunere a sumei de pătrate în construcţia şi analiza tabelului ANOVA. UNIQUE înseamnă abordare regresională (toate efectele - covariabile, factori - sunt considerate simultan); EXPERIMENTAL abordarea clasică; HIERARCHICAL abordare ierarhică a considerării efectelor. alegerea unei opţiuni poate impune restricţii în alegerea altor parametri ai comenzii, ceea ce poate produce mesaje de atenţionare. STATISTICS precizează statisticile suplimentare calculate MEAN = mediile şi frecvenţele celulelor, pentru toate nivelurile de interacţiune cerute ; REG = coeficienţii de regresie nestandardizaţi (explicaţia va fi înţeleasă mai bine doar după studiul modelului liniar); MCA (Multiple Classification Analysis) = diverse statistici privind mediile prognozate, rapoarte de corelaţie etc. studiate ulterior; ALL, NONE cu sensurile evidente. MISSING precizează modul de tratare a valorilor lipsă. EXCLUDE - valoarea implicită- este exclusă orice observaţie cu o valoare lipsă în orice variabilă menţionată în analiză; INCLUDE are ca efect includerea în analiză a observaţiilor care au valori lipsă definite de utilizator. Comanda GLM Fundamentarea acestei proceduri se va găsi în capitolul privind modelul liniar, considerându-se deocamdată că analiza dispersională poate fi privită ca o problemă de model liniar şi, deci, rezolvată printr-o metodă dedicată acestei probleme.

52 1. Se dă comanda Analyze General Linear Model Univariate. Ca urmare, se afişează dialogul. Se precizează variabila dependentă prin mutarea în zona Dependent Variable 3. Se precizează factorii sistematici în zona Fixed Factor(s), factorii întâmplători în zona Random Factor(s), ca şi eventualele covariabile în lista Covariate(s). 4. Pentru o analiză ponderată se va preciza variabila pondere în WLS Weight. 5. Pentru a realiza comparaţiile multiple (analiza post hoc) se acţionează butonul Post Hoc, afişându-se dialogul în care se precizează factorii pentru care se doreşte analiza post hoc, ca şi metodele de analiză selectate. C. Lucrarea practică 1. Se va deschide fişierul care conţine date obţinute în urma analizării reclamelor unor reviste în ceea ce priveşte gradul de dificultate a lecturii lor, după nivelul de educaţie al cititorilor ţintă. Variabilele urmărite sunt:

53 Words - numărul de cuvinte din reclamă Sentences - numărul de propoziţii din reclamă Syllable3 - numărul de cuvinte cu mai mult de 3 silabe Magazine - codul revistei EducLevel - nivelul de educaţie a grupului de cititori ţintă, notat descrescător de la 1 la 3. a. Să se decidă dacă variabilele Words, Sentences şi Syllable3 diferă, în medie, i. după revistă, ii. după grupul ţintă. b. Să se decidă tipul de prelucrare după revistă dacă se cunoaşte că pentru fiecare nivel de educaţie s-au ales aleatoriu trei reviste dintre cele care au acest grup ţintă. c. Ce se poate spune de studiul interacţiunii dintre variabilele factor Magazine şi EducLevel?. Se va deschide în SPSS fişierul cars.sav (fişierul de date utilizat şi în Lucrarea 4, se găseşte în folderul aplicaţiei SPSS). Se va observa că anumite prelucrări trebuie să distingă între camioane şi autoturisme. a. Să se utilizeze ANOVA, inclusiv analiza post-hoc, pentru a decide asupra diferenţelor semnificative, dintre caracteristicile tehnice ale autoturismelor, după localizarea producătorului (Europa, Japonia, America), atât pe ansamblul perioadei considerate, cât şi pe ultimii 5 ani ai studiului. b. Să se aplice analiza bifactorială considerând factorii localizare şi număr de cilindri. c. Realizând o grupare a anilor de fabricaţie în 3-4 grupe, să se studieze eventuala interacţiune a noii variabilei factor cu factorul localizare.

54 Statistică multivariată Lucrarea nr. 6 Asocierea datelor - Excel, SPSS A. Noţiuni teoretice Generalităţi Spunem că două (sau mai multe) variabile sunt asociate dacă, în distribuţia comună a variabilelor, anumite grupuri de valori au probabilităţi mai mari de realizare simultană decât alte grupuri de valori. Cu alte cuvinte, dacă o variabilă ia o valoare, atunci celelalte variabile vor lua, cu probabilităţi mai mari, valori determinate de valoarea primei variabile. Se observă astfel că, în analiză, una dintre variabile joacă rolul de variabilă dependentă iar cealaltă (sau celelalte) joacă rolul de variabilă independentă (variabile independente). Denumirile (ca şi rolurile) sunt relative, doar necesităţile şi posibilităţile cercetătorului stabilind rolul fiecărei variabile. Un aspect al problemei este evidenţierea asocierii şi alt aspect este evaluarea gradului de asociere. Evaluarea asocierii: Scala direcţională ( 1 +1). Permite distingerea asocierilor negative (în care valorile variabilelor sunt invers proporţionale: mare cu mic, mic cu mare) de asocierile pozitive (în care valorile variabilelor sunt direct proporţionale: mare cu mare, mic cu mic). Valoarea zero indică lipsa de asociere. Este specifică variabilelor ordinale şi celor continue (de interval) Asociere negativă Lipsă de asociere Asociere pozitivă (inversă) (directă) Scala nedirecţională (0 1). Este mai puţin senzitivă decât scala direcţională, permite doar diferenţierea asociere neasociere, fără a specifica sensul asocierii. Pentru variabilele asociate puternic nu se poate preciza tipul de asociere. Este specifică variabilelor nominale. Atributul PRE (Proportional Reduction in Error) reducerea proporţională a erorii, se referă la îmbunătăţirea prognozei valorilor variabilei dependente atunci când se cunoaşte valoarea variabilei independente. Se defineşte ca măsură a cantităţii cu care cunoaşterea variabilei independente măreşte corectitudinea predicţiei în raport cu o "ghicire" pură (bazată doar pe cunoaşterea repartiţiei variabilei dependente): PRE= Eroarea folosind doar variabila dependentă Eroarea folosind variabila independentă Eroarea folosind doar variabila dependentă Se poate gândi PRE ca varianţa explicată de variabila independentă. Asocierea între două variabile nominale (calitative) Fie două variabile discrete nominale, X şi Y, având r şi, respectiv, s categorii. Se consideră că datele experimentale măsurate într-un eşantion de volum n sunt prezentate în tabelul de frecvenţe încrucişate:

55 Y 1 Y j Y s Total X 1 n 11 n 1j n 1s n 1* X i n i1 n ij n is n i* X r n r1 n rj n rs n r* Total n *1 n *j n *s n unde n i* reprezintă totalul frecvenţelor de pe linia i, iar n *j este suma frecvenţelor de pe coloana j. Se consideră că variabilele X şi Y sunt independente empiric, dacă are loc relaţia ni n j nij =,( ) i, j n care exprimă faptul că liniile (coloanele) sunt proporţionale, deci profilele-linii sunt egale (ca şi profilele-coloane). Se poate demonstra că, în aceste condiţii, proporţia elementelor clasate Y j este aceeaşi între elementele clasate X i ca şi între elementele neclasate X i (elementele non X i ). Între nivelurile X i şi Y j există o asociere pozitivă dacă n ij > (n i* n *j ) / n (adică în celula ij există o frecvenţă mai mare decât în populaţie); există o asociere negativă dacă n ij < (n i* n *j ) / n (adică în celula ij există o frecvenţă mai mică decât în populaţie). Se adoptă ca măsură a asocierii (globale) mărimea (Pearson) ni* n* j n ij d (sau χ n ) = i, j ni* n* j n sau n d ij = n 1. ij ni* n* j Indicatorul χ (numit indicator al contingenţei pătratice) nu este măsurat pe o scală 0-1 şi din acest motiv, neîncadrându-se în teoria generală a indicilor de asociere, nu poate fi utilizat cu bune rezultate pentru comparaţii. Au fost propuşi atunci o serie de alţi indici, (derivaţi din χ ): φ = χ n, indicator al contingenţei pătratice medii (Pearson) χ C = n + χ, coeficientul contingenţei pătratice medii (Pearson) T = φ ( s 1)( t 1), coeficientul lui Ciuprov V = φ, coeficientul lui Cramer. min{( s 1),( r 1)}

56 Semnificaţia statistică a asocierii: Se poate utiliza cantitatea χ pentru a testa asocierea evidenţiată de datele de sondaj. Testul de asociere χ are ipotezele: H 0 : variabilele X şi Y nu sunt asociate; H 1 : variabilele X şi Y sunt asociate. Se demonstrează că în condiţiile ipotezei H 0, variabila χ, calculată mai sus, este repartizată χ cu un număr de grade de libertate egal cu (r 1)(s 1), χ ~ χ (r-1)(s-1), ceea ce permite efectuarea unui test statistic. Limite de aplicare. Pentru a aplica testul trebuie ca nu mai mult de 0% dintre celule să aibă mai puţin de 5 elemente. Asocierea datelor ordinale Datorită faptului că scalele de măsură ordinale au definită ordinea între categorii (clase), coeficienţii de asociere sunt direcţionali, adică măsuraţi pe o scală ( ). Coeficientul de corelaţie a rangurilor (Spearman) r s Acesta este o măsură PRE şi este direcţională. Se utilizează atunci când observaţiile cuprind valori ale unor variabile ordinale, structurate ca în tabelul următor: Observaţia variabila 1 variabila 1 v 11 v 1 v 1 v n v 1n v n Se începe prin a atribui ranguri valorilor fiecărei variabile, separat, cu tratarea situaţiile de ex-aequo. Se obţine astfel Observaţia ranguri variabila 1 ranguri variabila 1 r 11 r 1 (r 11 -r 1 ) r 1 r (r 1 -r ) n r 1n r n (r 1n -r n ) Formula de definiţie a coeficientului de corelaţie a rangurilor este r s = 1 6 i d i. n( n 1) Testarea semnificaţiei coeficientului r s calculat este bazată pe statistica n τ = rs, 1 r s d

57 care, în ipoteza nulă, H 0 : ρ s = 0, urmează o distribuţie Student cu ν = n grade de libertate. Se va respinge H 0 în favoarea unei ipotezei alternative, direcţionale sau nu, prin procedura uzuală a unui test bazat pe repartiţia Student. Coeficientul de corelaţie a rangurilor nu este adecvat pentru scale ordinale cu puţine categorii (5 7) care dau, de regulă, multiple cazuri de egalitate. În asemenea situaţii se utilizează coeficientul γ, definit în continuare. Coeficientul γ Acest indicator este bazat tot pe atribuirea de ranguri valorilor celor două variabile ordinale, dar pleacă de la ideea: cunoaşterea ordinii a două ranguri pentru variabila independentă poate prezice ordinea rangurilor pentru variabila dependentă? Răspunsul ar trebui să fie afirmativ pentru variabile asociate, orice abatere de la acest răspuns trebuie să conducă la ideea de independenţă (lipsă de asociere) între cele două variabile. Coeficientul γ este o măsură PRE pe o scală direcţională şi se defineşte prin γ = f f a a unde f a este numărul de agremente (potriviri), f i este numărul de inversiuni, spunând că r 1i r i r 1j r j se potrivesc dacă ordinea este aceeaşi în cele douăcoloane şi că are loc o inversiune dacă ordinea este schimbată. Semnificaţia lui γ poate fi testată prin utilizarea unei formule aproximative (aplicabilă pentru n 10) z = γ f f i + f a n(1-γ ) care, în ipoteza H 0 : γ = 0, este o variabilă normală redusă şi se poate aplica un test bazat pe repartiţia normală standard. Asocierea datelor continue (de interval) În domeniul datelor continue, asocierea variabilelor este, de regulă, studiată sub denumirea de corelaţie (denumire care a fost introdusă şi la coeficientul de corelaţie a rangurilor, pentru date ordinale). Se pot distinge două mari direcţii în acest studiu: calcularea unui indicator al asocierii (corelaţiei) estimarea unui model funcţional care să reprezinte asocierea dintre variabile (analizat în cursurile dedicate tematicii modelului liniar). Coeficientul de corelaţie (liniară) Pentru a evalua existenţa unei asocieri şi intensitatea asocierii, se utilizează coeficientul de corelaţie, notat r. Acesta este măsurat pe o scală direcţională de la 1 la +1 şi are atributul PRE. Coeficientul de corelaţie este definit prin r = i ( x i i + f X )( y ( ( x X ) )( ( y Y ) ) i i Y ) i,

58 existând, evident, şi alte formule echivalente. Cantitatea r obţinută pe baza unui eşantion este, în spiritul discuţiei de până acum, o estimare a coeficientului de corelaţie ρ din populaţie. Semnificaţia coeficientului de corelaţie poate fi testată utilizând un test Student. În aplicarea testului se presupune (este cerut) că împrăştierea valorilor Y este uniformă după valorile lui X (proprietatea de homoscedasticitate). În plus, există şi ipoteze distribuţionale de normalitate a variabilelor X şi Y. Statistica testului este n t = r. 1 r În ipoteza H 0 : ρ = 0, statistica t este repartizată Student cu n- grade de libertate. Se respinge H 0 în favoarea ipotezei alternative nedirecţionale H 1 : ρ 0, dacă t > t 1-α/;n-. Se pot considera şi teste unilaterale, după procedura generală a testelor bazate pe distribuţia Student. B. Instrumente Excel, SPSS Excel Coeficientul de corelaţie dintre două variabile poate fi calculat prin funcţia CORREL(Array1,Array), unde Array1, Array sunt, respectiv, zonele care conţin valorile celor două variabile (trebuie să aibă, evident, acelaşi număr de valori). Pentru a calcula matricea de corelaţie (deci sunt implicate mai mult de două variabile) se utilizează procedura CORRELATION din Tools - Data Analysis. Observaţie. Nu sunt disponibile prelucrări specifice pentru asocierea variabilelor nominale sau ordinale, acestea trebuind să fie realizate prin funcţiile şi operaţiile posibile în Excel. CORRELATION Este procedura care calculează coeficienţii de corelaţie liniară, cunoscuţi şi drept coeficienţii de corelaţie Pearson. Variabilele implicate sunt variabile continue (de interval). În cazul când există un număr suficient de mare de valori şi de ranguri posibile, procedura poate fi utilizată şi pentru calculul coeficienţilor de corelaţie a rangurilor (Spearman). Dialogul de iniţiere a procedurii Correlation este prezentat în figura alăturată. Input Input Range se precizează domeniul datelor de intrare. Acesta trebuie să fie o zonă compactă dintr-o foaie de calcul. Grouped By se selectează butonul corespunzător modului de înscriere a valorilor unei variabile: Columns pentru variabile pe coloane, Rows pentru variabile pe linie. Labels in First Row se marchează dacă prima linie (cazul Columns) sau prima coloană (cazul Rows) conţine denumirile variabilelor.

59 Output options Output Range, New Worksheet Ply, New Workbook Precizează zona unde se vor înscrie rezultatele. Zona de rezultate cuprinde un tabel pătratic cu coeficienţii de corelaţie între toate perechile de variabile din domeniul de intrare. Deoarece tabloul este simetric faţă de prima diagonală, se afişează doar partea inferioară (stânga-jos). Din păcate, în Excel nu este raportată semnificatia acestor coeficienţi de corelaţie, cu alte cuvinte nu se raportează informaţiile necesare verificării ipotezei de nulitate a coeficienţilor. Testarea semnificaţiei coeficienţilor se poate efectua prin apelarea, în foaia de calcul Excel, a funcţiilor necesare, după modelul următor, în care se verifică H 0 : coeficientul de corelaţie dintre variabile este egal cu zero H 1 : coeficientul de corelaţie dintre variabile este diferit de zero Se calculează transformata Fisher a coeficientului de corelaţie r calculat prin utilizarea funcţiei fisher() din Excel: într-o celulă neutilizată se tastează =fisher(referinţa la celula unde este coeficientul de corelaţie) Se obţine rezultatul calculului: 1 1+ r z = ln 1 r Cu această valoare se calculează intervalul aproximativ de încredere cu limitele 1 1 z 1 = z z 1 α şi z = z + z 1 α n 3 n 3 Observaţie. Calculul unei limite, de ex, z 1, se efectuează cu formula Excel = referinţa la celula unde este z 1/sqrt(n-3)*normsinv(1-α/) O metodă alternativă, pentru ipoteza nulă a unui coeficient egal cu 0, este utilizarea unui test t bazat pe statistica, dată direct ca o formulă Excel: = r/sqrt(1-r^)*sqrt(n ) unde r semnifică valoarea, sau referinţa la coeficientul de corelaţie testat, iar n este valoarea sau referinţa la volumul eşantionului. Pentru a obţine, în Excel, probabilitatea critică bilaterală se utilizează formula =tdist(abs(t),n-,) în care t poate fi înlocuit direct cu expresia de calcul corespunzătoare: =tdist(abs(r/sqrt(1 r^)*sqrt(n-)),n-,) unde r şi n au semnificaţiile precizate anterior. RANK AND PERCENTILE Această procedură realizează atribuirea de ranguri valorilor unei variabile. Se obţin atât ranguri ordinale descrescătoare cât şi ranguri centilice. Rangurile ordinale sunt atribuie descrescător: valoarea maximă are rangul 1, următoarea mai mică are rangul etc. Cazurile de ex-aequo sunt tratate prin atribuirea primului rang disponibil tuturor cazurilor din aceeaşi categorie. Reamintim că o procedură mai des utilizată este aceea a atribuirii rangului mediu tuturor valorilor egale. Rangul centilic al unei valori este exprimat procentual după formula număr de valori Rang depăşite centilic = 100 %, n-1 unde n este volumul eşantionului. La baza acestei formule este presupunerea că rangurile sunt distribuite uniform (ceea ce nu este adevărat pentru datele ordinale

60 unde rangul este o simplă convenţie), cele n ranguri posibile (= numărul de observaţii) separă (n 1) intervale de lungimi egale şi se calculează atunci cât la sută din aceste intervale (sau din domeniul rangurilor) este sub valoarea pentru care se calculează rangul centilic. De remarcat că sunt utilizate şi alte formule (cu rezultate uşor diferite) pentru calculul rangului centilic, formule bazate pe rangul mediu atribuit valorilor egale. În general, asemenea formule sunt utilizate pentru eşantioane relativ mici, pentru care erorile estimaţiilor sunt mari şi deci utilizarea unei formule sau a alteia nu ne scoate din limitele de siguranţă acceptate. Calculele sunt efectuate pentru toate variabilele prezente în domeniul precizat ca intrare, datele trebuind să fie organizate într-un domeniu dreptunghiular continuu. În figură se prezintă dialogul Rank and Percentile, parametrii care trebuie să fie specificaţi sunt doar de localizare a intrărilor şi ieşirilor şi sunt explicaţi în continuare. Input Input Range, Grouped By, Labels in First Row Se specifică domeniul de intrare, modul de organizare a variabilelor (pe coloane sau pe linii) şi faptul dacă există denumiri în domeniul indicat. Pentru o descriere mai pe larg a câmpurilor se va vedea zona Input de la Descriptive Statistics. Output options Output Range, New Worksheet Ply, New Workbook Fixează zona unde se vor înscrie rezultatele. Dialogul Rank and Percentile Exemplu Rezultatele unui apel la procedura Rank and Percent, situaţia ilustrată este pur didactică, sunt structurate după cum urmează. Primele două coloane conţin datele de sondaj. Aplicarea procedurii pentru variabila

61 Scoruri produce rezultatele din coloanele D G. Prima coloană, Point, prezintă numerele de ordine iniţiale ale valorilor. Coloana a doua, Scoruri, este ordonarea descrescătoare a valorilor. Coloana a treia conţine rangurile ordinale atribuite valorilor. Se observă că valorile egale cu 15, care ar avea rangurile 4 şi 5, primesc ambele rangul 4 iar rangul 5 nu mai este atribuit (următoarea valoare are rangul 6). Coloana a patra conţine rangurile centilice, calculate după formula precizată. Astfel valoarea 18, cu rangul 3, depăşeşte 3 valori. Cum n = 6 se obţine un rang centilic egal cu 3/(6 1), adică de 60%. Aceasta valoare poate fi înţeleasă potrivit figurii următoare: Se vede că valoarea 18 are în dreapta ei, deci valori mai mici ordinea este valori ranguri % descrescătoare, trei segmente din totalul de 5, adică 60% din distribuţie. Analog, valoarea 15 depăşeşte segmente din 5, deci 0% etc. SPSS Pentru a calcula coeficienţii de corelaţie dintre variabile de interval sau ordinale se dă comanda Analyze > Correlate > Bivariate Se afişează dialogul Bivariate Correlations în care se fixează variabilele care sunt analizate şi tipul de coeficient de corelaţie calculat: Pearson, Spearman precum şi testul de semnificaţie dorit. Prin dialogul Options se pot selecta anumite statistici elementare dorite în rezultat ca şi modul de tratare a observaţiilor lipsă.

62 Ca rezultat se obţine, în principal, matricea de corelaţie între variabilele selectate pentru analiză. O celulă a tabelului conţine valoarea coeficientului de corelaţie, probabilitatea critică a testului de semnificaţie şi numărul de valori reţinute pentru calcul (după tratarea cazurilor lipsă). Potrivit procedurii de decizie într-un test statistic, se respinge ipoteza unei corelaţii nule dacă probabilitatea critică este mai mică sau egală cu pragul de semnificaţie ales. Corelaţiile semnificative pot fi marcate automat cu * (α=0,05) sau ** (α=0,01) prin selectarea opţiunii Flag significant correlations din dialogul principal. Pentru cazul variabilelor discrete, se poate consulta tabelul următor care conţine o sistematizare a coeficienţilor de asociere definiţi (ei sunt calculaţi şi de SPSS), tabel adaptat după tabelul similar din Denumirile statisticilor sunt păstrate pentru a fi recunoscute în dialogurile specializate. Coeficient Statistică Coeficienţi bazaţi pe χ Variabila dependentă Variabila independentă CHISQ Chi-square Orice tip Orice tip Observaţii PHI Phi sau Cramer's V Orice tip Orice tip Phi se utilizează de obicei pentru tabele CC Contingency coefficient Orice tip Orice tip Coeficienţi bazaţi pe reducerea proporţională a erorii LAMBDA Lambda Orice tip Orice tip UC Uncertainty coefficient Orice tip Orice tip Statistici pentru variabile ordinal BTAU Kendall tau-b Ordinal Ordinal CTAU Kendall tau-c Ordinal Ordinal Se recomandă BTAU

63 GAMMA Gamma Ordinal Ordinal Se recomandă BTAU D Somer's d Ordinal Ordinal Alţi coeficienţi KAPPA Kappa Nominal Nominal Tabele pătratice de frecvenţe RISK Relative risk Interval Orice tip ETA Eta Interval Orice tip CORR Correlation Interval Interval Cazul variabilelor discrete, nominale în special, este analizat în dialogul afişat de comanda Analyze > Descriptive Statistics > Crosstabs. Din dialogul afişat, care produce calculul frecvenţelor încrucişate pentru două variabile discrete, se acţionează butonul Statistics, afişându-se dialogul din care se selectează indicatorii de asociere doriţi. Rezultatul afişat va include şi testele de semnificaţie adecvate. Pentru explicaţii suplimentare privind coeficienţii de asociere consideraţi în dialog, se poate studia următorul document privind asocierea variabilelor discrete: C. Lucrarea practică 1. Să se genereze în Excel două şiruri de numere dintr-o repartiţie uniformă. a) Să se calculeze coeficientul de corelaţie între cele două variabile astfel construite. Să se interpreteze rezultatul şi să se verifice concordanţa cu reprezentarea grafică adecvată. b) Să se repete generarea de numere şi să se testeze semnificaţia statistică a coeficientului de corelaţie în fiecare caz. c) Pentru o generare de numere, să se calculeze coeficientul de corelaţie a rangurilor (Spearman).. Să se deschidă în SPSS fişierul University of Florida graduate salaries.sav din fişierele de test care însoţesc aplicaţia SPSS.

64 a) Să se studieze asocierea (indicatorii χ, φ, C) dintre variabilele discrete gender şi college. Prin agregare de categorii, sau eliminarea categoriilor cu frecvenţe mici, să se aducă datele în situaţia în care se poate aplica χ. b) Să se studieze asocierea dintre variabilele graduation date şi gender. c) Să se studieze asocierea gender şi salary: prin test t prin discretizare şi χ. 3. Să se deschidă fişierul World95.sav din fişierele de test care însoţesc aplicaţia SPSS. a) Să se calculeze şi să se interpreteze matricea de corelaţie dintre variabilele continue. b) Să se compare corelaţiile semnificative calculate pentru: global (toate datele), pe religii predominante, pe regiuni.

65 Statistică multivariată Lucrarea nr. 7 Regresia liniară simplă - Excel, SPSS - A. Noţiuni teoretice Considerăm că, într-un eşantion de volum n s-au determinat perechile de valori (x i,y i ), i=1,,n, corespunzătoare celor două variabile pentru care dorim să studiem asocierea şi relaţia dintre ele. O primă apreciere asupra distribuţiei comune o vom avea dacă realizăm diagrama de împrăştiere a valorilor, de fapt reprezentarea într-un sistem de axe a punctelor având coordonatele x şi y. Analiza vizuală a organizării şi formei norului de puncte obţinut poate oferi indicii importante asupra relaţiei dintre variabile. Datele de sondaj vor susţine ipoteza asocierii între variabile dacă forma norului de puncte se apropie de o curbă funcţională. Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dacă în norul de puncte nu se poate distinge o tendinţă, se va spune că variabilele nu sunt corelate. În figura următoare sunt ilustrate câteva tendinţe identificabile direct. Cazul (a) ilustrează o asociere pozitivă, (b) o asociere negativă, (c) lipsă de asociere, (d) asociere curbilinie. Relaţiile de interes pentru discuţia din continuare sunt cele ilustrate în cazurile (a) şi (b), unde este identificabilă o tendinţă liniară în norul de puncte. Pentru a sintetiza modul în care schimbările lui Y sunt asociate cu schimbările lui X, metoda matematică utilizată este "metoda celor mai mici pătrate" (Legendre, 1806). Aplicată în cazul nostru, asocierea dintre X şi Y este reprezentată printr-o dreaptă trasată printre punctele diagramei de împrăştiere. y 0 x 0 Linia estimată este "cea mai bună" în sensul că exprimă cel mai central drum printre puncte: linia pentru care suma pătratelor distanţelor (pe verticală) dintre puncte şi dreaptă este minimă. Termenul comun pentru dreapta estimată este acela de dreapta de regresie.

66 Distanţele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizează valoarea minimă a pătratelor erorilor, în sensul că orice altă dreaptă produce o sumă de pătrate mai mare. Este de amintit că o proprietate a mediei aritmetice este aceea că suma pătratelor diferenţelor de la medie are o valoare minimă. Astfel se poate spune că după cum media reprezintă punctul de echilibru pentru o distribuţie univariată de scoruri, la fel dreapta de regresie reprezintă punctul de echilibru într-o distribuţie bivariată. Utilitatea dreptei de regresiei este aceea că serveşte ca bază pentru predicţia valorilor lui Y asociate valorilor lui X. Astfel, dată o valoare x 0, valoarea prognozată pentru Y este y 0, ordonata pe dreapta de regresie corespunzătoare abscisei x 0. Problema estimării erorilor de predicţie va fi tratată o dată cu prezentarea modelului general. Problema prezentată poate fi formulată matematic drept determinarea cantităţilor a şi b din ecuaţia Y e = a + b X, unde Y e este valoarea prezisă (estimată) a variabilei dependente; a este termenul liber al dreptei de regresie (valoarea pentru X=0); b este coeficientul de regresie (cantitatea cu care se modifică Y atunci când X se modifică cu o unitate); X este valoarea variabilei independente. Se demonstrează că, prin metoda celor mai mici pătrate, se obţine: b = ( xi X )( yi Y ) ( x X ) a = Y b X. Valoarea estimată, totuşi, este numai o medie care se poate aştepta. Acurateţea depinde de cât de bine se potriveşte dreapta de regresie cu datele reale. Această potrivire este evaluată prin considerarea unei statistici: eroarea standard a estimaţiei, definită ca abaterea standard a erorilor de estimare (a reziduurilor estimaţiei): s = i ( y i n unde y ei reprezintă valoarea estimată (prin ecuaţia de regresie) pentru x i. O eroare standard mare arată că valorile observate sunt la distanţă de dreapta de regresie şi deci aceasta este mai puţin reprezentativă pentru datele reale. În consecinţă şi valorile prognozate sunt afectate de erori mai mari. Analiza distribuţională a ecuaţiei de regresie simple Deoarece coeficienţii ecuaţiei de regresie sunt calculaţi dintr-un eşantion, rezultă că au caracterul de statistici, se poate deci vorbi de repartiţia lor de sondaj etc. Acest fapt permite analiza distribuţională a coeficienţilor, în sensul inferenţei statistice: ecuaţia determinată prin formulele prezentate este doar o estimaţie a ecuaţiei care are loc la nivel de populaţie. Prin urmare, ecuaţia de regresie calculată Y e = a + b X este estimaţia modelului general Y e = α + β X. O discuţie mai amplă este prezentă la lucrarea cu tema "modelul liniar", aici se prezintă doar câteva elemente. yei ) şi

67 Analiza distribuţională este bazată pe ipoteza: pentru orice valoare fixată X (variabila independentă), Y (variabila dependentă) este distribuită normal, cu aceeaşi dispersie peste tot. Se demonstrează atunci că repartiţia de sondaj a fiecărui coeficient de sondaj are ca medie valorile parametrilor: Exp(a) = α, Exp(b) = β. Teste de semnificaţie. Testul principal este acela al coeficientului lui X, deoarece acesta conţine informaţia privind asocierea dintre Y şi X. Ipotezele testului (un test t) sunt: H 0 : β = 0 H 1 : β 0 Dacă nu se respinge H 0, atunci legătura liniară dintre Y şi X nu este semnificativă, cea mai bună predicţie este dată de media lui Y. Valorile estimate de dreapta de regresie trebuiesc gândite ca medii ale valorilor Y asociate cu un X particular. Altfel spus, dacă am dispune de eşantioane repetate, mediile valorilor Y (corespunzătoare valorii X) vor fi date de dreapta de regresie. Dacă notăm cu y 0 valoarea estimată corespunzătoare lui x o, adică y 0 = a + b x 0, atunci abaterea standard a lui y 0 este 1 ( x0 x) s(y 0 ) = s +, n ( xi x) unde s este abaterea standard a estimaţiei. Se poate construi atunci, pentru un prag de semnificaţie fixat α, intervalul de încredere pentru valoarea estimată: (y 0 -t 1-α/;n- s(y 0 ), y 0 +t 1-α/;n- s(y 0 )) Atunci când valorile x 0 sunt mai depărtate de media lui X, intervalul de încredere se măreşte, prognoza este însoţită de erori mai mari. Predicţiile pentru valorile Y vor fi mai precise în apropiereas mediei lui X. Coeficientul de corelaţie (liniară) Analiza de regresie este, în esenţă, o metodă pentru a permite predicţii, adică să estimăm o valoare a unei variabile Y atunci când dispunem de o valoare a variabilei asociate X. Totuşi, de multe ori în aplicaţii, cercetătorii nu sunt interesaţi sau nu cunosc care variabilă este independentă, care dependentă în sensul cerut de practică. Ei sunt însă interesaţi ssă ştie dacă două variabile sunt asociate şi gradul de asociere. O asemenea măsură o furnizează coeficientul de corelaţie, notat r. Acesta are valori de la 1 la +1, o valoare nulă indică lipsa de asociere, +1 arată o asociere (corelaţie) pozitivă perfectă, o valoare de 1 arată o asociere negativă perfectă. Coeficientul de corelaţie este definit prin r = i ( x X )( y ( ( x X ) )( ( y Y ) ) Y ) existând, evident, şi alte formule echivalente. Între cele două analize, de regresie şi de corelaţie, legătura este dată de rezultatul: Dacă între Y şi X există o relaţie liniară perfectă, adică Y = αx + β, atunci coeficientul de corelaţie este dat de ρ = α α i i i,

68 egalitate ce arată că ρ = 1, dacă α>0 şi ρ = -1 dacă α<0. Rezultatul prezintă o bună concordanţă cu aprecierile intuitive efectuate la începutul secţiunii despre asocieri pozitive, negative etc. B. Instrumente Excel, SPSS Excel Din uneltele Excel se prezintă doar cele care ţin de reprezentările grafice. Componenta Regression (din Tools > Data Analysis) va fi prezentat în lucrarea StatWork_8. Ca rezultat se va obţine o diagramă de tipul următor (formatările sunt orientative). Graficul funcţiei y = 3,33x + 6,9 R = 0, XY (scatter) (Diagrama de împrăştiere, diagrama X-Y, grafic de funcţie) O diagramă de împrăştiere reprezintă, într-un sistem ortogonal de axe de coordonate, punctele determinate de perechile de valori (X i,y ji ), i = 1,,n, j = 1,,k. Cu alte cuvinte, se reprezintă k serii de numere Y j, j = 1,,k, fiecare valoare fiind considerată drept ordonata unui punct. Abscisele punctelor, X i, i = 1,,n, sunt date ca o serie separată, dar sunt aceleaşi pentru toate seriile Y. Pentru a obţine un asemenea grafic, în primul pas al utilitarului Insert > Chart (activat şi din bara de unelte Standard), se alege tipul XY(Scatter). În figura alăturată sunt subtipurile disponibile de diagrame X-Y. Desenele din coloana A diferă de cele din coloana B prin aceea că sunt marcate punctele reprezentate. Desenele de pe linii diferă după modul de unire a punctelor care aparţin aceleeaşi serii de date. Linia a doua de desene uneşte punctele prin linii netezite (curbe), în timp ce desenele de pe ultima linie are punctele unite prin segmente. Observaţie. Punctele sunt unite în ordinea în care Diagrame X-Y. apar în seria numerică. Prin urmare, dacă perechile de puncte nu sunt în ordinea crescătoare a absciselor (X), ceea ce se obţine la unirea punctelor este o linie haotică, fără nimic din graficul de funcţie la care ne aşteptăm. Pentru aceasta se vor sorta mai întâi datele în ordinea crescătoare a valorilor X. A B

69 Diagrama din primul subtip este utilizată pentru studiul asocierii dintre variabila X şi variabilay. Dispunerea ascendentă sau descendentă a norului de puncte obţinut oferă informaţii asupra existenţei şi formei asocierii între variabile. Interpretările reprezentărilor X-Y de forma puncte unite între ele sunt cele uzuale pentru graficele de funcţie: maxime, minime, ritm de creştere, ritm de descreştere, care serie are valori mai mari, cine depăşeşte pe cine etc. Observaţie. Trebuie să se facă distincţie între diagramele de tip linie şi cele de tip X-Y. Se poate însă considera că, pentru valori numerice, diagramele de tip linie au o variabilă X implicită: seria 1,, sau o serie temporală. Add Trendline (meniul Chart) Permite figurarea pe grafic a trendului variabilei selectate. Există mai multe tipuri de modele pentru calcularea tendinţei datelor, dar opţiunea nu este activă decât pentru anumite serii de date numerice. Opţiunea poate fi activată din meniul Chart (existent pe bara de meniuri doar dacă este selectată o diagramă) sau din meniul contextual asociat unei serii numerice. Dialogul iniţiat este organizat pe două fişe, reprezentate în figurile următoare. Fişa Add Trendline Type permite selectarea modelului utilizat pentru determinarea tendinţei generale a seriei numerice. Sunt disponibile principalele modele utilizate în calculele economice sau tehnice. Linear modelul liniar (regresia simplă), y = a + bx. Polynomial modelul polinomial de ordin, 3, 4, 5, sau 6, y = a 0 + a 1 x 1 + a x + + a k x k. Logarithmic modelul logaritmic: y = a + b ln x. Exponential modelul exponenţial: y = a e bx. Power modelul putere: y = a x b. Moving Average modelul de tip MA (medii glisante), în care se calculează o serie nouă cu valori obţinute ca medie aritmetică a valorilor din seria iniţială: y n = (x n + x n x n-k+1 )/k, unde k este ordinul modelului. Este modelul prin care se elimină influenţele pe termen foarte scurt sau scurt. Pentru o alegere corectă se poate utiliza informaţia cunoscută din cercetări anterioare sau cea furnizată vizual de aspectul norului de puncte. Zona Order este activă pentru modelul polinomial (stabileşte ordinul modelului, maxim 6), iar zona Period este activă pentru modelul Moving Average

70 (stabileşte ordinul modelului câte elemente contribuie la calculul mediei aritmetice). În zona Based on series se indică seria (dintre cele reprezentate) pentru care se estimează prin metoda celor mai mici pătrate modelul selectat. Ca efect al procedurii de adăugare a liniei de trend, în grafic se va afişa, ca o linie separată, seria ipotetică obţinută prin calcularea trendului. Această linie poate fi formatată ca orice alt obiect grafic (se selectează, se aplică meniul Format etc.). Fişa Add Trendline Options este prezentată în figura următoare şi permite definirea altor atribute ale liniei de trend. În grupul de opţiuni Trendline name se poate ataşa liniei o denumire proprie (butonul radio Custom şi tastarea numelui în zona rezervată) sau se alege denumirea implicită (butonul radio Automatic). În grupul de opţiuni Forecast se poate indica numărul de perioade (valori) pentru care se efectuează prognoze, atât în viitor (Forward), cât şi în trecut (Backward). Este suficient să se înscrie o valoare diferită de zero în zona contor alocată şi seria de trend se va extinde corespunzător. Set intercept = permite fixarea valorii termenului liber al modelului la o valoare cunoscută (opţiune utilă pentru anumite tipuri de regresii). Se va marca boxa de control şi se va trece valoarea termenului liber. Display equation on chart marcarea boxei de control are efectul trecerii pe grafic a ecuaţiei estimate. Display R-squared value on chart este utilă pentru afişarea coeficientului de determinare R (= pătratul coeficientului de corelaţie multiplă), interpretabil în analiza de regresie. SPSS Scatterplot Diagrama de împrăştiere (scatterplot după denumirea utilizată în SPSS) presupune, uzual, că variabila dependentă este pe axa verticală (Oy) iar variabila independentă este pe axa orizontală. Pentru a obţine o diagramă de împrăştiere se utilizează comanda Graphs > Scatter... Se va afişa dialogul:

71 Pentru diagrama de împrăştiere (relaţia dintre două variabile) se alege varianta Simple. După acţionarea butonului Define se afişează dialogul de fixare a variabilelor şi a opţiunilor asociate. Se va trece variabila dependentă în zona Y Axis şi variabila independentă în zona X Axis. Se pot diferenţia (prin marcaje diferite) observaţiile care aparţin la diverse grupuri dacă se trece variabila care face diferenţa în zona Set Markers by. Titlurile se pot adăuga prin deschiderea dialogului Titles. Acţionarea butonului OK va produce trasarea graficului, obiect în fişierul de ieşire. Abia după obţinerea diagramei se pot fixa alte atribute de formatare prin iniţierea editării diagramei. Prin urmare, dublu click pe diagrama va deschide fereastra de editare:

72 În această fereastră, prin dublu click pe un element se deschid dialoguri specializate de formatare. Comanda Chart > Options conduce la afişarea dialogului: În acest dialog, se pot marca casetele din grupul Fit Line, care vor produce trasarea dreptelor de regresie pe total sau/şi pe grupuri.opţiunile disponibile pentru trasarea dreptelor de regresie se găsesc în dialogul Fit Options: Pentru trasarea dreptelor de regresie se va selecta opţiunea Linear regression şi se poate cere includerea sau nu a constantei în regresie, afişarea coeficientului de determinare etc. Dreapta de regresie Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze Regression Linear. In această lucrare se vor preciza doar acele elemente care sunt necesare pentru estimarea dreptei de regresie (ecuaţia de regresie simplă). Lucrarea următoare va conţine explicaţiile complete ale dialogurilor SPSS implicate în estimarea şi analizarea modelului liniar.

73 În Dependent se va transfera variabila dependentă. Variabila independentă (unică în cazul regresiei simple) se transferă în Independent(s), în zona Method se fixează ca metodă Enter. Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. Unele opţiuni sunt selectate şi în mod implicit. Estimates coeficienţii estimaţi, Confidence intervals intervalele de încredere ale coeficienţilor, Model fit calcularea statisticilor R, R şi a tabelului ANOVA, R squared change modificărea coeficientului de determinare şi testarea semnificaţiei schimbării la adăugarea fiecărui bloc de variabile, Descriptive statisticile esenţiale pentru fiecare variabilă, În zona Residuals se produce o analiza a reziduurilor pentru a putea decide asupra normalităţii acestora şi a diagnostica valorile aberante. Dintre tabelele de rezultate sunt prezentate în continuare doar cele importante în cazul regresiei simple: Tabelul Model Summary conţine informaţiile care privesc coeficientul de corelaţie şi eroarea standard a estimaţiei. De remarcat coeficientul de determinare R care exprimă cât la sută din varianţa variabilei dependente este explicată de ecuaţia de regresie. În tabelul ANOVA, informaţia importantă este statistica F cu ajutorul căreia se testează semnificaţia globală a variabilelor independente (doar una în cazul regresiei simple, procedura capătă substanţă în cazul regresiei multiple). Pe coloana Sig. este afişată probabilitatea crritică a testului, astfel că dacă Sig < α se respinge ipoteza

74 lipsei de semnificaţie a variabilelor independente în favoarea ipotezei că modelul regresional este unul semnificativ. Se mai spune că testul este un test de semnificaţie asupra lui R. Tabelul Coefficients conţine informaţiile privind coeficienţii: coloana B - valoarea coeficientului, Std. Error - eroarea standard a coeficientului (abaterea standard în distribuţia de sondaj a coeficientului), Beta - valoarea coeficientului standardizat (arată cu câte abateri standard se modifică Y dacă X se modifică cu o abatere standard), t - statistica testului de semnificaţie a coeficientului, Sig. - probabilitatea critică a testului. Prin urmare, un coeficient este semnificativ (diferit de zero în ecuaţia de regresie) dacă Sig < α. Pentru exemplul din tabel se poate scrie ecuaţia de regresie simplă Y = X , toţi coeficienţii fiind semnificativi statistic. C. Lucrarea practică 1. Există o anumită evidenţă că prevenirea atacurilor de inimă este ajutată de un consum moderat de vin. În tabelul următor sunt prezentate date statistice din 1994 privind această problemă (consumul de alcool in litri/persoana, decesele sunt anuale/ locuitori). - Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţiei dintre cei doi indicatori. - Există asociere între cei doi indicatori? - Să se calculeze coeficientul de corelaţie dintre cei doi indicatori. Ţara Alcool Decese datorate din vin afectiunilor cardiace Australia.5 11 Austria Belgia Canada Danemarca.9 0 Finlanda Franta Islanda Irlanda Italia Olanda Noua Zeelanda Norvegia Spania Suedia Elvetia Marea Britanie

75 Ţara Alcool Decese datorate din vin afectiunilor cardiace SUA Germania Următorul tabel conţine rezultatele dintr-o statistică oficială privind cheltuielile pentru băuturi alcoolice şi produse de tutun în 11 regiuni ale Marii Britanii. - Să se realizeze o diagramă de împrăştiere şi să se descrie forma relaţei dintre cei doi indicatori. - Există asociere între cei doi indicatori? Să se calculeze coeficientul de corelaţie. - Să se recalculeze coeficientul de corelaţie doar pentru primele 10 regiuni şi să se interpreteze rezultatul. regiunea alcool tutun North Yorkshire Northeast East Midlands West Midlands East Anglia Southeast Southwest Wales Scotland Northern Ireland Un cercetător este interesant să specifice relaţia dintre indicele de inteligenţă (IQ) şi rezultatul la un examen (măsurat pe o scală cu 100 de puncte). Datele obţinute de la un număr de subiecţi sunt: Student IQ Scor Student IQ Scor Să se studieze asocierea celor două variabile, IQ şi scor. - Cât din varianţa scorurilor poate fi atribuită variabilei IQ? - Să se estimeze şi să se valideze dreapta de regresie care aproximează IQ ca o funcţie de scor, IQ = a scor + b. - Să se estimeze şi să se valideze dreapta de regresie care aproximează scorul ca o funcţie de IQ, scor = a IQ + b. - Ce relaţie este între cele două ecuaţii? - Se poate renunţa la examen în sensul că nota se poate obţine din ultima ecuaţie estimată ştiind IQ-ul studentului? 4. Se va deschide în SPSS fişierul Catalog.sav din fişierele de test (SPSS/Tutorial/Sample files/) sau prin descărcare din pagina cursului. Fişierul conţine date privind rezultatele unor campanii publicitare. Se va estima relaţia liniară (sau una care poate fi liniarizată) dintre variabilele men, women şi jewel ca variabile dependente şi variabilele mail, page, phone, print şi service ca variabile independente.

76 Statistică multivariată Lucrarea nr. 8 Regresia liniară multiplă - Excel, SPSS - A. Noţiuni teoretice Regresia liniară, prin metoda celor mai mici pătrate, este metoda de modelare cea mai des utilizată. Este metoda denumită regresie, regresie liniară, regresie multiplă sau cele mai mici pătrate atunci când se construieşte un model. Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenţia relaţia dintre o variabilă dependentă (explicată, endogenă, rezultativă) şi o mulţime de variabile independente (explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se încearcă, adesea, obţinerea răspunsului la una dintre întrebările: care este cea mai bună predicţie pentru?, cine este cel mai bun predictor pentru?. De reţinut că metoda regresiei multiple este generalizată prin teoria modelului liniar general, în care se permit mai multe variabile dependente simultan şi, de asemenea, variabile factoriale care nu sunt independente liniar. Clasa modelelor liniare poate fi exprimată prin y = x α + ε unde y este variabila dependentă (explicată, endogenă, rezultativă), x este vectorul variabilelor independente (explicative, exogene), de dimensiune 1 p, α este vectorul coeficienţilor, de dimensiune p 1, parametrii modelului, ε este o variabilă, interpretată ca eroare (perturbare, eroare de măsurare etc.). Cu alte cuvinte, y = α 1 x 1 +α x + +α p x p +ε care exprimă relaţia liniară dintre y şi x. Observaţii. 1. Liniaritatea relaţiei se referă la coeficienţi şi nu la variabile. Astfel, modelul 1 y = α 1x 1 + α x + α3 + ε x3 este tot un model liniar.. Considerând că x 1 este constant egală cu 1, se obţine un model liniar care include un termen constant (termenul liber al modelului). 3. Pentru p = şi x 1 1 se obţine modelul liniar simplu, dreapta de regresie. 4. Utilitatea principală a unui model liniar este aceea a predicţiei valorii lui y din valorile cunoscute ale variabilelor x. Presupunem că avem un set de n observaţii efectuate asupra variabilelor implicate în model. Prin urmare dispunem de (x i1, x i,...., x ip, y i ), i = 1,,..., n. Notând cu y vectorul de tip n 1 având drept componente valorile măsurate pentru variabila y, cu X matricea (x ij ) n p a valorilor măsurate pentru variabilele x şi cu ε vectorul de tip n 1 având drept componente valorile erorilor, modelul se rescrie în relaţia matriceală: y = Xα + ε

77 Ipoteze iniţiale. În tot ceea ce urmează se presupun îndeplinite ipotezele: 1. Matricea de experienţe, n observaţii pentru p variabile, este fixată: X n p nu este stohastică. În plus, n >> p.. X este de rang p (coloanele sunt liniar independente formează o bază a unui spaţiu vectorial p-dimensional). 3. a. Vectorul de perturbaţii (n-dimensional) ε constă din n variabile aleatoare independente cu media 0 şi aceeaşi dispersie: Exp(ε) = 0 Var(ε) = Exp(εε') = σ I n, unde σ este un parametru necunoscut, sau, b. Vectorul ε este o v.a. n-dimensională normală ε ~ N(0, σ I n ). De remarcat că ultima ipoteză, a normalităţii, este, mai degrabă, o ipoteză simplificatoare decât una restrictivă, cum sunt primele două. Aceasta deoarece erorile se datorează, în general, în procesele studiate, acţiunilor simultane ale unor factori aleatorii, ceea ce prin teorema de limită centrală conduce la concluzia că ε, ca sumă a lor, tinde spre o repartiţie normală. Problemele principale urmărite sunt: estimarea coeficienţilor α, calitatea estimării, verificarea ipotezelor, calitatea predicţiei, alegerea modelului. Estimaţia prin cele mai mici pătrate Numim estimaţie (ajustare) a modelului orice soluţie {a, e} a sistemului y = Xa + e. Este de remarcat că sistemul conţine n ecuaţii şi p + n necunoscute, deci admite o infinitate de soluţii. Numim estimaţie prin cele mai mici pătrate, acea soluţie a care minimizează suma pătratelor erorilor e i, adică = n i= 1 e i = n i= 1 [ y ( a x + a x + K + a x )]. i 1 i1 i Cum e = e e i 1 i este o funcţie de coeficienţii a, o condiţie necesară pentru atingerea maximului este ( e e) = 0. a Se obţine a = (X'X) -1 X'y şi se demonstrează că este îndeplinit criteriul de minim şi că este singura valoare cu această proprietate adică valorile determinate reprezintă estimaţia prin cele mai mici pătrate a coeficienţilor modelului liniar. Ecuaţia y = a 1 x 1 + a x + + a p x p se numeşte ecuaţia de regresie multiplă. Înlocuind în această relaţie valori pentru variabilele independente x i se obţine valoarea prognozată pentru variabila dependentă y. p ip

78 Interpretarea coeficienţilor Un coeficient a i are interpretarea: modificarea cu 1 a valorii variabilei x i produce o modificare a valorii y cu a i unităţi. Deoarece scalele de măsură sunt, în general, diferite, interpretarea în acest sens a coeficienţilor poate deforma imaginea importanţei variabilelor independente în model. Din acest motiv se introduc coeficienţii de regresie standardizaţi definiţi drept coeficienţii de regresie estimaţi ai modelului: ~ y = β ~ x ~ x ~ β + K + β px p în care nu există termen liber, iar variabilele ~ y şi x~ sunt variabilele standardizate, prin standardizare înţelegându-se transformarea de tipul i ~ x x x =. Coeficienţii de regresie standardizaţi au interpretarea: modificarea cu o abatere standard a valorii variabilei x produce o modificare cu β i abateri standard a valorii variabilei dependente. În acest fel, mărimea coeficienţilor standardizaţi reflectă importanţa variabilelor independente în predicţia lui y. Distribuţia estimatorului Exp(a) = α Var(a) = σ (X'X) -1. Estimaţia dispersiei erorilor (σ ) Notând cu ŷ valoarea ajustată, dată de ecuaţia de regresie, pentru o realizare a vectorului x, considerată la estimarea parametrilor, se obţine eroarea de ajustare, notată cu e: e i = y i - ŷ i, i = 1,,n. Erorile de ajustare sunt denumite uzual reziduuri şi analiza lor este o parte importantă studiului calitativ al ecuaţiei de regresie. Este evident că reziduurile constituie estimaţii ale erorilor ε. Se demonstrează că n ( yi yˆ i ) i=1 s = n p este o estimaţie nedeplasată a dispersiei necunoscute σ. Este de notat că numitorul este egal cu numărul gradelor de libertate a sumei de la numărător (n observaţii din care am obţinut p estimaţii). Precizia ajustării Reziduuri mici exprimă o ajustare mai bună a datelor experimentale, dar stabilirea unui criteriu care să indice cât de mici trebuie să fie reziduurile pentru ca regresia să fie acceptată este o problemă dificilă. Pentru a obţine o măsură a preciziei ajustării se pleacă de la identitatea y ˆ ( ) ( ˆ i yi = yi y yi y) care, prin reorganizarea termenilor, produce y ( ˆ ) ( ˆ i y = yi y + yi yi ). Se poate demonstra că are loc identitatea: ( y y) = ( yˆ y) + ( y yˆ ). i i i i i i i s x

79 Această relaţie arată că variaţia valorilor observate în jurul valorii medii se descompune într-un termen ce exprimă variaţia valorilor estimate în jurul mediei şi într-un termen datorat reziduurilor ajustării. Prin urmare, regresia estimată va fi cu atât mai bună cu cât ultimul termen va fi mai mic, sau cu cât variaţia valorilor estimate va fi mai apropiată de variaţia valorilor observate. Se alege drept indicator sintetic de precizie a ajustării raportul ( yˆ i y) i R =. ( y y) i Pentru o bună ajustare a ecuaţiei de regresie la datele experimentale, trebuie ca acest raport să fie apropiat de 1. Cantitatea R se numeşte coeficientul de determinare şi, exprimat procentual, arată cât din varianţa variabilei dependente este explicată de ecuaţia estimată. Este un indicator de asociere având atributul PRE, ( yi y) ( yi yˆ i) i i R = ( y y) i deci poate fi interpretat şi în următorul sens: cu cât se îmbunătăţeşte prognoza valorilor y prin considerarea modelului estimat. Se arată că R creşte prin includerea mai multor variabile în model, astfel încât are loc o supraestimare în cazul modelelor extinse. O soluţie propusă este ajustarea coeficientului de determinare prin 1 p R = R (1 R ). n p Coeficientul de corelaţie multiplă Ca măsură a asocierii dintre y şi ansamblul variabilelor x se introduce coeficientul de corelaţie multiplă, notat cu R. Poate fi definit drept coeficientul maxim de corelaţie simplă (Pearson) dintre y şi o combinaţie liniară de variabile x. Astfel se explică faptul că valoarea calculată a lui R este întotdeauna pozitivă şi tinde să crească o dată cu mărirea numărului de variabile independente. Metoda celor mai mici pătrate poate fi astfel gândită ca o metodă care maximizează corelaţia dintre valorile observate şi valorile estimate (acestea reprezentând o combinaţie liniară de variabile x). O valoare R apropiată de 0 denotă o regresie nesemnificativă, valorile prognozate de regresie nefiind mai bune decât cele obţinute printr-o ghicire aleatorie (sau bazate doar pe distribuţia lui y). Deoarece R tinde să supraestimeze asocierea dintre y şi x, se preferă indicatorul definit anterior, coeficientul de determinare, R, care este pătratul coeficientului de corelaţie multiplă. Testarea ipotezelor Notăm SPg = ( yi y), SPreg = ( yˆ i y), SPrez = ( yi yˆ i) i i i cele trei sume de pătrate care apar în identitatea introdusă la definirea coeficientului de determinare. Sumele sunt referite ca suma pătratelor globală (SP g ), suma pătratelor datorate regresiei (SP reg ) şi suma pătratelor reziduale (SP rez ). Fiecare sumă de pătrate i i

80 are ataşat un număr de grade de libertate: ν g = n-1, ν reg = p-1, ν rez = n-p şi se poate realiza un tabel al analizei dispersionale (ANOVA) sub forma Sursa Suma Grade de Media pătrată F de variaţie de pătrate libertate Regresie SP reg ν reg SP reg / ν reg = s reg F = s reg / s Reziduală SP rez ν rez SP rez / ν rez = s Globală SP g ν g SP g / ν g Testul F de semnificaţie globală Primul test utilizat în analiza regresiei este un test global de semnificaţie a ansamblului coeficienţilor (exceptând termenul liber, dacă acesta apare). Ipotezele testului sunt H 0 : α 1 = α = = α p = 0 H 1 : ( )i, astfel încât α i 0. În condiţiile ipotezei nule, se demonstrează că statistica F, calculată în tabelul ANOVA, este repartizată Fisher-Snedecor F p-1;n-p, încât se poate verifica ipoteza nulă. Nerespingerea ipotezei nule duce la concluzia că datele observate nu permit identificarea unui model liniar valid, deci regresia nu este adecvată în scopul de prognoză, propus iniţial. Teste t În situaţia când este respinsă ipoteza nulă, se acceptă că ecuaţia de regresie este semnificativă la nivel global, cu menţiunea că s-ar putea ca anumiţi coeficienţi să nu fie semnificativi. Pentru testarea fiecărui coeficient se utilizează un test t cu ipotezele: H 0 : α i = 0 H 1 : α i 0. ai În condiţiile ipotezei H 0 se arată că statistica t i = este repartizată Student s( a i ) cu n p grade de libertate, ceea ce permite utilizarea testului t. În expresia care dă statistica testului, s(a i ) este abaterea standard estimată a coeficientului, dată ca rădăcina pătrată din elementul corespunzător de pe diagonala principală a matricei s (X X) -1. Nerespingerea ipotezei nule arată că datele experimentale nu permit stabilirea necesităţii prezenţei variabilei x i în model, variabila este nesemnificativă în model. Intervale de încredere Apar de interes două tipuri de intervale de încredere: pentru parametrii modelului, α i, şi pentru valorile prognozate cu ajutorul modelului estimat. Parametrii modelului O regiune de încredere, la nivelul δ, pentru ansamblul parametrilor este dată de (α a) X X(α a) ps F 1-δ,p,n-p Utilizând repartiţia statisticilor t i, definite la testarea semnificaţiei parametrilor, se demonstrează că intervalul de încredere pentru parametrul α i, i = 1,,, p, este dat la pragul de încredere α, de relaţia a i t 1-α/;n-p s(a i ) α 1 a i + t 1-α/;n-p s(a i ).

81 Valorile prognozate Utilitatea principală a modelului liniar este prognozarea valorilor variabilei dependente. Valoarea prognozată este evident o statistică pentru că se obţine prin modelul estimat (din datele experimentale). Se poate atunci vorbi de repartiţia de sondaj a valorii prognozate, repartiţie care stă la baza determinării intervalelor de încredere pentru valorile prognozate. În estimarea intervalului de încredere pentru o valoare y 0 = x 0 α + ε 0, se distinge între situaţiile în care observaţia x 0 a fost, sau nu, utilizată la estimarea coeficienţilor (cu alte cuvinte, dacă matricea X conţine sau nu linia x 0 ). În primul caz, intervalul de încredere pentru valoarea estimată este ŷ 0 t 1-α/;n-p s 1 x 0 ( X X ) x 0 y 0 ŷ 0 + t 1-α/;n-p s x 1 0 ( X X ) x 0 unde ŷ 0 = x 0 a, este valoarea prognozată de ecuaţia de regresie. În al doilea caz, intervalul de încredere este 1 ŷ 0 t 1-α/;n-p s ( ) 1 x 0 X X x y 0 ŷ 0 + t 1-α/;n-p s x 0 ( X X ) x În cazul regresiei simple (dreapta de regresie), ultimul interval de încredere are forma 1 ( x0 x) 1 ( x0 x) ŷ 0 t 1-α/;n-p s + y 0 ŷ 0 + t 1-α/;n-p s +, n ( xi x) n ( xi x) de unde se obţine concluzia că valorile prognozate au intervale de încredere, la acelaşi prag de încredere, mai mari pe măsură ce valoarea x 0 este mai depărtată de media x. De aici apare recomandarea ca un model liniar să nu fie utilizat pentru prognoză în cazul în care variabilele independente au valori depărtate de centrul datelor considerate la estimarea modelului (de exemplu, estimarea trendului ratei de schimb valutar din datele unei săptămâni nu poate fi utilizată pentru a prognoza rata de schimb de peste un an). În cazul unui sistem dinamic (valorile sunt produse/evaluate în timp), prognoza se va realiza doar pentru câteva momente de timp, după care are loc o nouă estimare a modelului etc. Analiza reziduurilor Analiza statistică a ecuaţiei de regresie este bazată pe ipotezele Gauss-Markov asupra erorilor ε ~ N(0, σ I n ). Valabilitatea acestor ipoteze, în special cea a normalităţii erorilor, poate fi testată prin analiza reziduurilor. Ca şi în cazul testelor statistice, concluziile analizei sunt de genul: ipoteza normalităţii se respinge sau ipoteza normalităţii nu se respinge. Analiza reziduurilor este, în esenţă, de natură grafică. Calculul estimaţiilor erorilor produce e = Y obs -Y est = Y obs Xa = Y obs X(X X) -1 X Y obs = (1 X(X X) -1 X )Y obs Notând Z = X(X X) -1 X = (z ij ), rezultă că, în cazul îndeplinirii ipotezelor Gauss-Markov, dispersia reziduului e i este egală cu (1-z ii ) σ unde z ii sunt elementele de pe diagonala principală a matricei Z, cu estimaţia s (e i ) = (1-z ii )s. Reamintim că media reziduurilor este egală cu zero. Ipotezele de repartiţie a erorilor sunt reflectate în repartiţia reziduurilor (estimaţii ale erorilor). Se analizează histograma reziduurilor sau diagrame ale reziduurilor în raport de valorile estimate, de variabilele independente. Diagramele construite în continuare pun în evidenţă eventualele abateri de la repartiţiile presupuse pentru erori, abateri ce vor exprima deviaţiile de la ipotezele de repartiţie a erorilor.

82 Diagrama reziduurilor Deoarece ei ~ N(0;(1 z ii ) σ ), rezultă că mărimile d i, i = 1,,n, date de ei di = s 1 zii sunt repartizate N(0;1). Din acest motiv, mărimile d i sunt denumite reziduuri normalizate. Observaţie. În practică, se neglijează uneori radicalul de la numitor. Histograma mărimilor d i trebuie să reflecte o repartiţie normală standard. Atunci când n este relativ mic, histograma va prezenta, în general, mari neregularităţi faţă de situaţia care ar permite aproximarea cu o curbă normală. Decizia referitoare la provenienţa, sau neprovenienţa, dintr-o repartiţie normală se poate lua în acest caz, de exemplu, în urma comparaţiei cu histograme obţinute pentru eşantioane de acelaşi volum n generate aleatoriu dintr-o repartiţie normală standard. Diagrama reziduuri valori estimate Considerând punctele de coordonate (ŷ i,d i ), i = 1,,n, reprezentate într-un sistem de axe rectangulare, sunt posibile 4 situaţii caracteristice, sau combinaţii ale lor, de regiuni ocupate de punctele considerate. a) b) c) d) Cazul a) nu arată nici o abatere de la normalitate şi nici o violare a ipotezei că erorile au aceeaşi dispersie constantă. În cazul b), se constată o creştere a dispersiei, deci este invalidată ipoteza constanţei dispersiei erorilor. Practic, în această situaţie se consideră că modelul nu conţine o variabilă esenţială, cum ar fi timpul, sau că metoda de calcul adecvată este metoda celor mai mici pătrate ponderate. În anumite situaţii reale, situaţia poate fi rezolvată şi printr-o transformare prealabilă a datelor (de exemplu, prin logaritmare). Cazul c) arată practic o eroare de calcul, deoarece este ca şi cum nu s-ar fi reuşit explicarea unei componente liniare a variaţiei variabilei dependente. Cazul al patrulea, d), arată că modelul nu este adecvat datelor observate. Se încearcă un nou model care să includă variabile de ordin superior, de genul x, care să preia variaţia curbilinie, sau se transformă în prealabil variabila y. Observaţie. Indiferent de forma regiunilor, punctele foarte depărtate de celelalte oferă informaţii despre observaţiile aberante. Regula uzuală este aceea ca orice observaţie pentru care d i > 3 să fie considerată o observaţie aberantă. Practic, în acest caz, observaţiile aberante se vor exclude din setul de date sau, dacă observaţiile

83 sunt totuşi de interes, se va încerca obţinerea unor determinări suplimentare în regiunea de interes. În ambele situaţii se va reface calculul regresiei. Diagrama reziduuri variabilă independentă Se vor reprezenta grafic punctele de coordonate (x ji,d i ), i = 1,,n, pentru fiecare variabilă independentă x j. Cele patru situaţii grafice possibile se interpretează similar, cu observaţia că situaţia d) impune introducerea în model a variabilei x j ridicată la o putere. Multicoliniaritatea Situaţia descrisă drept multicoliniaritate apare atunci când un grup de variabile independente sunt puternic corelate între ele. În acest caz, prin includerea în model a unei variabile din grup, restul variabilelor din grup nu mai aduc o informaţie semnificativă. Simultan are loc o supraevaluare a coeficientului de determinare, ca şi a dispersiilor coeficienţilor estimaţi, ceea ce poate denatura interpretarea modelului şi, în plus, produce mărirea intervalelor de încredere. Apar astfel două probleme: determinarea multicoliniarităţii şi cum trebuie procedat în cazul existenţei multicoliniarităţii. Detectarea multicoliniarităţii Cea mai simplă metodă de detectare a multicoliniarităţii este bazată pe studiul matricei de corelaţie dintre variabilele x. Se pot determina astfel perechile de variabile independente care sunt puternic corelate între ele. O structură mai complexă a intercorelaţiilor poate fi detectată prin calcularea determinantului acestei matrice de corelaţie. O valoare apropiată de zero a determinantului reflectă o puternică corelaţie între anumite variabile, deci existenţa multicoliniarităţii. O altă abordare a problemei este aceea a stabilirii unui indicator sintetic pentru a decide dacă o variabilă este coliniară cu celelalte (sau cu un grup dintre celelalte). Notând cu R i coeficientul de determinare obţinut la estimarea regresiei multiple având ca variabilă dependentă pe x i şi ca variabile independente restul variabilelor x, adică xi = f ( x1, x, K, xi 1, xi + 1, K, xp) se introduce toleranţa variabilei x i prin τ = R. i 1 i O valoare mică a lui τ i (uzual mai mică decât 0,1) reflectă un coeficient apropiat de 1, deci o legătură liniară puternică între x i şi restul variabilelor independente. Prin urmare x i este coliniară cu celelalte variabile independente. Se defineşte factorul de inflaţie a varianţei, notat VIF, inversul toleranţei: 1 VIF τ i =. Denumirea provine din aceea că un asemenea factor apare multiplicativ în definirea varianţei coeficienţilor estimaţi (se poate spune că se măsoară de câte ori este supraevaluată varianţa coeficienţilor datorită multicoliniarităţii în raport cu situaţia când nu ar exista coliniaritate). Interpretarea este dedusă din cea a toleranţei: o valoare VIF mare (uzual mai mare decât 10), denotă coliniaritate. i R i

84 Eliminarea multicoliniarităţii O rezolvare comună a problemei multicoliniarităţii este aceea ca dintre două variabile independente corelate să se reţină în model doar una. Prin interpretarea toleranţelor sau a factorilor de inflaţie se vor exclude din model acele variabile care au toleranţe mici (sau factori de inflaţie mari). Cea mai bună regresie Procesul de selectare a celei mai bune regresii are loc în contextul în care există o variabilă dependentă y şi o mulţime de variabile independente posibile x. Problema poate fi formulată: Care este acea submulţime minimală de variabile independente care permite estimarea unui model liniar semnificativ şi adecvat valorilor observate y? Etapele selectării celei mai bune regresii 1. Se identifică toate variabilele independente posibile (cu alte cuvinte se specifică modelul maxim).. Se specifică criteriul de selectare a celei mai bune regresii. 3. Se specifică o strategie pentru selectarea variabilelor independente. 4. Se realizează estimarea şi analiza modelului. 5. Se evaluează reliabilitatea modelului ales. Strategii de selectare a celui mai bun model Metoda tuturor regresiilor posibile Se estimează toate regresiile posibile. Se reţin valorile coeficienţilor de determinare; gruparea este după cardinalul mulţimii de predictori. Variabile independente R {x 1 }, {x } {x 1,x }, {x 1,x 3 },, {x n-1,x n } {x 1,x,,x n } Se analizează valorile R şi se reţine acea submulţime de variabile pentru care se realizează compromisul acceptabil între numărul de variabile şi mărimea coeficientului de determinare. Selecţia prospectivă Procedura începe prin includerea în model a variabilei independente având cel mai mare coeficient de corelaţie cu variabila y. La fiecare pas următor, se analizează fiecare dintre variabilele neincluse încă în model printr-un test F secvenţial şi se extinde modelul prin includerea acelei variabile care aduce o contribuţie maximă (probabilitatea critică din testul F este cea mai mică). Procesul se opreşte atunci când modelul nu mai poate fi extins, criteriul uzual fiind acela al fixării un prag de intrare (P IN ) şi acceptând doar variabilele pentru care probabilitatea critică în testul F secvenţial este mai mică sau egală cu acest prag. Procedura are ca limitări faptul că anumite variabile nu vor fi incluse în model niciodată, deci importanţa lor nu va fi determinată. Pe de altă parte, o variabilă inclusă

85 la un anumit pas rămâne permanent în model, chiar dacă, prin includerea ulterioară a altor variabile, importanţa ei poate să scadă. Selecţia retrogradă Se începe cu estimarea modelului complet şi apoi, într-un număr de paşi succesivi, se elimină din model variabilele nesemnificative. La fiecare pas, pe baza unui test F parţial, se elimină acea variabilă care are cea mai mare probabilitate critică. Procesul se opreşte atunci când nici o variabilă nu mai poate fi eliminată. Criteriul uzual este acela de fixare a unui prag de eliminare (P OUT ) şi considerarea doar a variabilelor care au probabilitatea critică mai mare decât acest prag. Selecţia pas cu pas Procedura pas cu pas (stepwise regression) este o combinaţie a celor două metode descrise anterior. La un pas ulterior al regresiei prospective se permite eliminarea unei variabile, ca în regresia retrogradă. O variabilă eliminată din model devine candidată pentru includerea în model, iar o variabilă inclusă în model devine candidată la excludere. Pentru ca procesul să nu intre într-un ciclu infinit, trebuie ca P IN P OUT. B. Instrumente Excel, SPSS Excel REGRESSION Estimarea coeficienţilor unui model liniar prin metoda celor mai mici pătrate şi calculul statisticilor necesare testelor statistice asociate sunt efectuate de procedura Regression, una dintre cele mai complexe din pachetul de prelucrări statistice din Excel. Procedura permite şi construirea graficelor necesare pentru aprecierea vizuală a potrivirii modelului liniar. Deşi acestea, din motive evidente, necesită prelucrări suplimentare de scalare înainte de interpretare, existenţa lor este un real ajutor pentru statistician. Termeni Modelul liniar estimat de procedură este Y = α 0 X 0 + α 1 X 1 + α X + + α p-1 X p-1 + ε, care exprimă faptul că variabila Y se poate obţine ca o combinaţie liniară a variabilelor X 0, X 1,, X p-1 la care se adaugă o "eroare" ε. Pentru estimarea parametrilor modelului se consideră disponibile n observaţii asupra tuturor variabilelor din model. Valorile sunt structurate ca un tablou dreptunghiular, fiecare variabilă ocupând o coloană (deci o linie este referită drept o observaţie). Dialogul procedurii Regression este prezentat în figura următoare.

86 Input Input Y Range se precizează domeniul (coloana) pe care se află valorile variabilei dependente. Input X Range se precizează domeniul pe care se află valorile tuturor variabilelor independente. Acest domeniu trebuie să fie compact, fiecare variabilă X i ocupând o coloană. Labels se marchează boxa de control în cazul în care prima linie din tabloul de date este cu denumirile variabilelor (situaţie recomandată). Constant Is Zero se marchează boxa de control dacă modelul care se estimează este fără termen liber. Confidence Level se precizează, procentual, siguranţa statistică dorită în raportarea intervalelor de încredere deci valoarea (1 α) 100, unde α este pragul de semnificaţie. Intervalele obţinute sunt suplimentare, întotdeauna afişându-se cele pentru α = 0,05. Boxa se va marca doar dacă se doreşte şi un alt prag de semnificaţie. Output options Output Range, New Worksheet Ply, New Workbook Precizează zona unde se vor înscrie rezultatele. Zona de rezultate este foarte complexă, cuprinde tabele care depind de mărimea modelului, de numărul de observaţii, de numărul graficelor dorite etc. Prin urmare se va prefera o foaie de calcul nouă sau o zonă liberă în dreapta şi în jos. Residuals Residuals se marchează boxa de control în cazul când se doreşte calcularea reziduurilor modelului estimat. Residual Plots se marchează boxa de control în cazul când se doreşte obţinerea diagramelor reziduuri variabilă independentă, adică vizualizarea punctelor de coordonate (x ij, r j ), j = 1, n, având ca abscisă o valoare a variabilei independente X i, iar ca ordonată reziduul corespunzător. Standardized Residuals această boxă de control se va marca dacă se doreşte calculul valorilor standardizate ale reziduurilor. Valorile astfel obţinute provin, teoretic, dintr-o distribuţie normală standard, astfel încât o histogramă a acestor valori trebuie să se apropie de curba normală (clopotul lui Gauss). Line Fit Plots se marchează această boxă de control dacă se doreşte afişarea diagramelor Y variabilă independentă, prin care se vizualizează, pe un acelaşi grafic, punctele de coordonate (x ij, y obs,i ), (x ij, y est,i ), j = 1,,n, unde abscisele sunt valorile variabilei independente, iar ordonatele sunt valorile observate şi cele estimate ale variabilei dependente. Este desenat câte un grafic pentru fiecare variabilă independentă. Interpretarea acestor diagrame poate oferi indicaţii asupra adecvanţei modelului, asupra valorilor aberante. Normal Probability Normal Probability Plots se marchează dacă se doreşte vizualizarea repartiţiei de sondaj a variabilei Y într-o reţea de probabilitate. Exemplu Un set de date cuprinde 5 de observaţii asupra a 4 variabile, notate Y (considerată variabila dependentă) şi X 1, X, X 3 (considerate variabile independente). Valorile şi denumirile ocupă în foaia de calcul un domeniu dreptunghiular continuu, B:E7, valorile Y ocupând prima coloană. Pentru a estima modelul liniar Y = α 0 + α 1 X 1 + α X + α 3 X 3 + ε, cu termen constant, se apelează procedura Regression.

87 a) Un prim tabel de rezultate, prezentat în figura alăturată, conţine statisticile generale ale ecuaţiei de regresie. Multiple R coeficientul multiplu de corelaţie. R Square coeficientul de determinare (este egal cu pătratul coeficientului de corelaţie multiplă). Poate fi gândit, exprimat procentual, drept proporţia din variaţia variabilei dependente explicată de variaţia variabilelor independente: 60,7% din variaţia lui Y este explicată de variabilele X. Adjusted R Square valoarea corectată a coeficientului de determinare. Este introdusă pentru a contracara (parţial) efectul creşterii mecanice a lui R o dată cu numărul variabilelor independente. Standard Error eroarea standard a estimaţiei. Se calculează ca abaterea standard a reziduurilor (pentru numărul gradelor de libertate utilizat se va vedea tabloul ANOVA, în continuare) şi este estimaţia abaterii standard a erorilor ε (în ipoteza normalităţii acestora). Observations numărul de observaţii din eşantion. b) Al doilea tabel de rezultate cuprinde tabloul de analiză a varianţei asociat regresiei estimate. Coloanele acestui tablou au semnificaţiile uzuale într-un tablou ANOVA: Sursa de variaţie arată descompunerea variaţiei totale în variaţia explicată de regresie şi cea reziduală (neexplicată). df numărul gradelor de libertate: 3 = p 1, 1 = n p, 4 = n 1, unde p = 4 este numărul parametrilor modelului (trei variabile X plus termenul liber) iar n = 5 este numărul de observaţii. SS sumele de pătrate potrivit descompunerii Suma globală de pătrate = Suma de pătrate datorată regresiei + Suma de pătrate reziduală MS media sumelor de pătrate: SS împărţită la numărul respectiv de grade de libertate. Valoarea de pe linia a doua (Residual) este estimaţia dispersiei pentru repartiţia erorilor şi este pătratul erorii standard a estimaţiei. F valoarea statisticii F pentru testul caracterizat de H 0 : α 1 = α = α 3 = 0 H 1 : există cel puţin un coeficient α i diferit de zero. Acest test se referă la ansamblul variabilelor independente (este de remarcat că H 0 nu se extinde şi asupra termenului liber). Datorită înţelesului ipotezei nule, se consideră că prin acest test se verifică semnificaţia întregii regresii. Significance F este probabilitatea critică unilaterală. Dacă valoarea afişată este mai mică decât pragul de semnificaţie fixat, atunci se respinge ipoteza nulă în favoarea ipotezei alternative. c) Al treilea tablou de rezultate conţine valorile estimate pentru coeficienţii modelului, precum şi statisticile necesare verificării ipotezelor uzuale asupra coeficienţilor. De remarcat că, spre deosebire de testul F, testele asupra coeficienţilor sunt individuale.

88 Liniile tabelului se referă la variabilele din model, incluzând şi termenul liber. Coloanele tabelului sunt următoarele: (prima coloană) sunt afişate denumirile existente în tabloul de date sau create automat pentru variabilele independente implicate. Intercept este denumirea pentru termenul liber (constant) al modelului. Coefficients conţine valorile estimate ale coeficienţilor. Din valorile afişate rezultă că modelul estimat în exemplu este Y = 11,718 1,443*X 1 + 3,135*X 0,34*X 3. În ipotezele distribuţionale ale modelului liniar, valorile calculate ale coeficienţilor provin din repartiţii normale, fiind astfel posibile verificări statistice ale coeficienţilor. Standard Error eroarea standard a coeficientului (abaterea standard a repartiţiei coeficientului). t Stat statistica t pentru verificarea ipotezei H 0 : α i = 0 contra ipotezei alternative H 1 : α i 0. În condiţiile ipotezei nule se demonstrează că raportul dintre coeficient şi eroarea standard a coeficientului urmează o repartiţie Student cu (n p) grade de libertate. Acest raport este tocmai valoarea raportată drept t Stat. Adică,161 = 11,718/5,41 etc. Utilizarea statisticii este cea uzuală. P-value probabilitatea critică bilaterală a testului t cu ipotezele precizate la t Stat. Pentru pragul de semnificaţie α = 0,05 se poate respinge ipoteza de nulitate a termenului liber (0,04 < 0,05) şi a coeficienţilor α 1 şi α (0,00 şi 0,000 sunt mai mici decât 0,05). Nu se poate respinge ipoteza nulă privind coeficientul α 3 (0,069 > 0,05). Lower 95%, Upper 95% limitele inferioară şi superioară ale intervalului de încredere pentru parametrul respectiv. Limitele la pragul 0,05 sunt calculate automat, indiferent de iniţializarea procedurii Regression. Se poate deci interpreta că, în populaţie, parametrii modelului liniar sunt cuprinşi în intervalele următoare: 0,444 < α 0 <,99,71 < α 1 < 0, Se poate observa că ultimul interval cuprinde şi valoarea zero, prin urmare se regăseşte concluzia privind nerespingerea ipotezei nule H 0 : α 3 = 0. d) Studiul reziduurilor se poate face pe baza datelor raportate în tabelul alocat reziduurilor, tabel având structura următoare: Pentru fiecare observaţie (linie din tabelul de date iniţial) se afişează: Observation numărul de ordine al observaţiei.

89 Predicted y valoarea y prognozată pentru observaţia respectivă; se obţine înlocuind valorile X ale observaţiei în modelul estimat. Residuals valoarea erorii de predicţie (diferenţa dintre valoarea observată şi valoarea prognozată). Standard Reziduals valoarea standardizată a erorii. Este obţinută prin împărţirea reziduului la abaterea standard a reziduurilor (rezultatul nu este susţinut absolut riguros de teorie). e) Analiza calităţii modelului este facilitată şi de graficele construite automat de procedura Regression. Sunt produse două tipuri de diagrame: diagrame reziduuri vs. variabile independente şi diagrame variabila dependentă vs. variabile independente. Graficele necesită, de obicei, prelucrări suplimentare pentru a fi interpretate sau raportate. Regiunea reziduurilor Diagrama reziduuri variabilă În figură se dă un exemplu de diagramă reziduuri variabilă independentă X. Punctele din figură se pot considera într-o regiune de tip bandă orizontală ceea ce nu contrazice ipotezele de normalitate a erorilor. Forma de bandă uniformă reflectă constanţa dispersiei reziduurilor pentru tot domeniul variabilei independente X 1. Alte forme de distribuire a reziduurilor duc la concluzii importante pentru adecvanţa modelului în privinţa variabilei independente implicate: Forma regiunii Interpretare Situaţia "bună". Nu se contrazic ipotezele de normalitate făcute asupra erorilor. Dispersia erorilor nu este constantă (se modifică după valorile X). Se poate ca din model să fie omisă o variabilă de gen "Timp". Modelul liniar nu este adecvat în privinţa variabilei independente respective. Se poate încerca un introducerea unui termen pătratic. Situaţia poate să apară în urma unei erori de calcul. Practic ar însemna că nu s-a considerat componenta liniară, adică scopul modelului nu a fost atins. În mod asemănător se pot interpreta diagramele Y X.

90 SPSS Dreapta de regresie Principalul dialog pentru estimarea unui model liniar se obţine prin Analyze Regression Linear. În Dependent se va transfera variabila dependentă. Variabilele independente, Independent(s), pot fi grupate pe blocuri: 1. se transferă variabilele dorite,. se precizează în Method modul de introducere a acestor variabile în regresie (Enter toate simultan, Forward, Backward, Stepwise metodele discutate la alegerea celei mai bune regresii), 3. se defineşte un nou bloc prin Next. Se pot selecta observaţiile precizând în Selection Variable variabila şi, prin Rule, regula de selectare a cazurilor în funcţie de valorile variabilei de selecţie. În Case Labels se poate preciza variabila care identifică cazurile, etichetele fiind considerate la reprezentările grafice. Prin WLS Weight se poate preciza variabila de ponderare pentru metoda celor mai mici pătrate ponderate (nediscutată în curs). Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. Unele opţiuni sunt selectate şi în mod implicit. Estimates coeficienţii estimaţi, Confidence intervals intervalele de încredere ale coeficienţilor, Model fit calcularea statisticilor R, R şi a tabelului ANOVA, R squared change modificărea coeficientului de determinare şi testarea semnificaţiei schimbării la adăugarea fiecărui bloc de variabile, Descriptive statisticile esenţiale pentru fiecare variabilă, Collinearity diagnostics calcularea toleranţelor, a statisticilor VIF şi studiul multicoliniarităţii prin analiza în componente principale (a se vedea capitolul următor al cursului). În zona Residuals se produce o analiza a reziduurilor pentru a putea decide asupra normalităţii acestora şi a diagnostica valorile aberante. Prin Plots se afişează dialogul sinonim în care se pot indica reprezentările grafice dorite. În lista variabilelor disponibile pentru diagrame se află DEPENDNT variabila dependentă şi variabile derivate din regresie cum ar fi valorile prognozate standardizate (*ZPRED), reziduurile standardizate (*ZRESID). Diagramele indicate în Standardized Residual Plots sunt utile pentru verificarea normalităţii reziduurilor.

91 Dialogul Save permite calcularea şi salvarea ca variabile noi a valorilor prognozate şi a reziduurilor sub diferite forme, precum şi salvarea altor statistici de interes. Predicted Values valorile prognozate prin model pentru fiecare caz: Unstandardized, Standardized pentru valorile nestandardizate şi standardizate, Adjusted valoarea prognozată pentru un caz din ecuaţia de regresie estimată fără a considera acel caz, S.E. of mean predictions abaterile standard ale valorilor prognozate, utile pentru calcularea intervalelor de încredere ale acestor valori. Distances distanţele cazurilor de la punctul mediu, pentru identificarea valorilor aberante: Mahalanobis este distanţa explicată în capitolul privind clasificarea, Cook's este măsura a cât de mult se modifică reziduurile dacă se elimină cazul respectiv din estimarea modelului (o valoare mare arată o influenţă considerabilă a cazului în estimarea coeficienţilor), Leverage values măsoară influenţa cazurilor în estimare. Prediction Intervals sunt intervalele de incredere pentru valorile estimate, la nivelul de încredere precizat în Confidence Interval. Sunt generate două variabile. Residuals reziduurile estimării în diferite forme: standardizate, nestandardizate, studentizate (reziduul este împărţit la estimaţia abaterii sale standard, proprie fiecărui caz). Deleted, Studentized deleted se referă la reziduurile obţinute din modelul la estimarea căruia cazul respectiv a fost exclus. Influence Statistics sunt modificările în coeficienţi (inclusiv cei standardizaţi), DfBeta(s) şi Standardized DfBeta, şi în valorile prognozate, DfFit şi Standardized DfFit, rezultate după excluderea cazului din estimare. În sfârşit, prin butonul Options se deschide dialogul sinonim în care se pot fixa parametri ai estimării: pragurile de intrare şi excludere la metodele pas cu pas precum şi modul de tratare a valorilor lipsă dintr-o variabilă implicată. C. Lucrarea practică 1. Legea lui Ohm, I = V/R, afirmă că intensitatea curentului, I, este proporţională cu tensiunea, V, şi invers proporţională cu rezistenţa, R. Elevii dintr-un laborator de fizică efectuează experimente bazate pe legea lui Ohm: variază tensiunea, măsoară intensitatea curentului şi determină în final rezistenţa firului. Se obţin rezultatele: V 0,50 1,00 1,50 1,80,00 I 0,5 1,19 1,6,00,40 Deoarece legea lui Ohm poate fi rescrisă sub forma unei regresii liniare, I = α+βv, unde α= 0 şi β=1/r, să se estimeze, pe baza datelor experimentale, coeficienţii α şi β.

92 Să se obţină intervalul de încredere, la pragul de semnificaţie de 5%, pentru coeficientul β. Să se deducă intervalul de încredere pentru rezistenţa firului. Să se verifice ipoteza α = 0.. O familie înregistrează consumul de gaz necesar încălzirii locuinţei. Consumul (în mc) este raportat în tabelul următor, împreună cu diferenţa medie de temperatură faţă de cea externă (în grade Fahrenheit). Luna oct nov dec ian feb mar apr mai iun temperatura Gaz Să se studieze forma relatiei dintre cei doi indicatori. Exista asociere între cei doi indicatori? Să se estimeze dreapta de regresie care modelează relaţia dintre cei doi parametri. În timpul verii, proprietarul locuinţei îmbunătăţeşte izolaţia termică a casei sale. Drept care în luna februarie următoare, la o diferenţă medie de 40, se consuma 895 mc de gaz. Se poate spune că lucrarea efectuată reduce consumul de gaz? 3. Datele necesare acestul exerciţiu sunt la adresa web şi sunt doar o oglindire a unor date din surse internaţionale. Analiza datelor doreşte să prognozeze preţul de vânzare a unei case din regiunea Boston în funcţie de caracteristici diverse ale locuinţei şi ale localizării ei. Prelucrarea se va efectua, de preferinţă, în SPSS Variabilele sunt în ordine: CRIM rata criminalităţii, ZN proporţia teritoriului zonat în loturi de peste 5,000 sq.ft., INDUS proporţia terirorială a zonei industriale, CHAS indicator de învecinare cu râul din zonă (= 1 da, 0 nu), NOX concentraţia de oxizi nitrici, RM numărul mediu de camere, AGE proporţia de locuinţe construite înainte de 1940 şi ocupate de proprietar, DIS distanţa ponderată la cinci centre din Boston, RAD indicele de accesibilitate la reţeaua de autostrăzi, TAX rata de impozit (procent la 10000$), PTRATIO raportul copii-profesori în zonă, B 1000(Bk 0.63) unde Bk este procentajul populaţiei de culoare în zonă, LSTAT procentajul populaţiei sărace, MEDV valoarea medie a caselor (în mii de dolari). Se se efectueze următoarele operaţii: Completaţi în SPSS denumirile de variabile şi informaţiile necesare. Verificaţi condiţiile necesare aplicării analizei regresionale. Estimaţi ecuaţia de regresie prin diferite metode. Analizaţi dacă obţineţi un răspuns care pare consistent, independent de metodă. Validaţi şi interpretaţi rezultatele regresiei.

93 Statistică multivariată Lucrarea nr. 9 Multicoliniaritate, valori aberante, regresia polinomială - SPSS A. Noţiuni teoretice Reamintim că un model liniar poate fi exprimată prin y = x α + ε unde y este variabila dependentă (explicată, endogenă, rezultativă), x este vectorul variabilelor independente (explicative, exogene), de dimensiune 1 p, α este vectorul coeficienţilor, de dimensiune p 1, parametrii modelului, ε este o variabilă, interpretată ca eroare (perturbare, eroare de măsurare etc.). Cu alte cuvinte, y = α 1 x 1 +α x + +α p x p +ε care exprimă relaţia liniară dintre y şi x. Multicoliniaritatea Situaţia descrisă drept multicoliniaritate apare atunci când un grup de variabile independente sunt puternic corelate între ele. În acest caz, prin includerea în model a unei variabile din grup, restul variabilelor din grup nu mai aduc o informaţie semnificativă. Simultan are loc o supraevaluare a coeficientului de determinare, ca şi a dispersiilor coeficienţilor estimaţi, ceea ce poate denatura interpretarea modelului şi, în plus, produce mărirea intervalelor de încredere. Apar astfel două probleme: determinarea multicoliniarităţii şi cum trebuie procedat în cazul existenţei multicoliniarităţii. Detectarea multicoliniarităţii Cea mai simplă metodă de detectare a multicoliniarităţii este bazată pe studiul matricei de corelaţie dintre variabilele x. Se pot determina astfel perechile de variabile independente care sunt puternic corelate între ele. O structură mai complexă a intercorelaţiilor poate fi detectată prin calcularea determinantului acestei matrice de corelaţie. O valoare apropiată de zero a determinantului reflectă o puternică corelaţie între anumite variabile, deci existenţa multicoliniarităţii. O altă abordare a problemei este aceea a stabilirii unui indicator sintetic pentru a decide dacă o variabilă este coliniară cu celelalte (sau cu un grup dintre celelalte). Notând cu R i coeficientul de determinare obţinut la estimarea regresiei multiple având ca variabilă dependentă pe x i şi ca variabile independente restul variabilelor x, adică xi = f ( x1, x, K, xi 1, xi + 1, K, xp) se introduce toleranţa variabilei x i prin τ = R. i 1 i

94 O valoare mică a lui τ i (uzual mai mică decât 0,1) reflectă un coeficient R i apropiat de 1, deci o legătură liniară puternică între x i şi restul variabilelor independente. Prin urmare x i este coliniară cu celelalte variabile independente. Se defineşte factorul de inflaţie a varianţei, notat VIF, inversul toleranţei: 1 VIF =. τ Denumirea provine din aceea că un asemenea factor apare multiplicativ în definirea varianţei coeficienţilor estimaţi (se poate spune că se măsoară de câte ori este supraevaluată varianţa coeficienţilor datorită multicoliniarităţii în raport cu situaţia când nu ar exista coliniaritate). Interpretarea este dedusă din cea a toleranţei: o valoare VIF mare (uzual mai mare decât 10), denotă coliniaritate. Eliminarea multicoliniarităţii O rezolvare comună a problemei multicoliniarităţii este aceea ca dintre două variabile independente corelate să se reţină în model doar una. Prin interpretarea toleranţelor sau a factorilor de inflaţie se vor exclude din model acele variabile care au toleranţe mici (sau factori de inflaţie mari). Valori aberante Printr-o valoare aberantă (outlier) se înţelege o observaţie extremă, adică o observaţie care nu se "încadrează" în paternul general al celorlalte valori. Atunci când este studiată o singură variabilă, există teste specifice eliminării valorilor aberante, de exemplu testul Dixon. Regula empirică (bazată pe distribuţia normală) este aceea de considera ca valoare aberantă orice valoare care este depărtată de medie cu mai mult de trei abateri standard. În situaţia specială a regresiei liniare, problematica valorilor aberante este mai complexă deoarece anumite valori extreme (nu toate) pot influenţa major coeficienţii regresiei. Se pot astfel identifica valori aberante între valorile y (în spaţiul răspunsurilor) între valorile x (în spaţiul x, al variabilelor independente) în ambele spaţii. În problematica valorilor aberante se disting astfel două aspecte: identificarea valorilor aberante şi modul de tratare a valorilor identificate. Identificarea valorile aberante se realizează prin analiza reziduurilor standardizate, caz în care se identifică valorile extreme în spaţiul y. Din păcate, anumite valori din acest spaţiu nu pot fi identificate din cauză că, prin procesul de estimare, curba de regresie a fost "trasă" spre valoarea extremă. Acest fapt se întâmplă atunci când valori extreme y sunt asociate valorilor extreme din spaţiul x (aşa-zisele puncte pârghie leverage points; punctele extreme y asociate valorii medii x nu modifică în mod exagerat curba). Au fost atunci dezvoltate şi măsuri specifice pentru identificarea acelor puncte care influenţează semnificativ regresia. Una este distanţa Cook (sau D), explicată în continuare. Cook's D. Considerând s eroarea standard a estimaţiei, i i ŷ j valoarea estimată (pentru a j-a observaţie) şi yˆ j ( i) valoarea estimată din regresia calculată după omiterea celei de a i-a observaţii, distanţa Cook pentru observaţia (punctul) i se defineşte prin

95 ( yˆ yˆ ( i) ) n j= 1 j j Di =, i = 1, K, n ( k + 1) s adică o măsură a influenţei celei de a i-a observaţii asupra tuturor valorilor prognozate. Regula detectării unei valori aberante este, pentru distanţa Cook, 4 D i n ( k + 1) Deoarece n este uzual mult mai mare decât k, unii autori propun devizarea doar la n. Prin această regulă are loc o supraidentificare, mai multe valori aberante decât ar fi natural, şi se recomandă tratarea acestor distanţe ca o nouă variabilă pentru care se determină valorile sale aberante (de exemplu regula celor 3 abateri standard). De remarcat că procedura care utilizează distanţa Cook identifică acele observaţii care au o influenţă majoră asupra coeficienţilor de regresie (asupra modelului estimat). Tratarea valorilor aberante presupune, ca abordare directă, eliminarea acestora (a observaţiilor care le conţin) şi refacerea regresiei. Se poate totuşi ca în acest mod de abordare să se piardă informaţii valoroase, poate singurele cu adevărat importante în procesul studiat. Prin urmare, se va studia în prealabil: dacă valorile au apărut în urma unor erori de măsurare, dacă reprezintă cazuri neimportante pentru procesul studiat, dacă există influenţe majore asupra modelului (a coeficienţilor). In cazul neîndeplinirii unei asemenea condiţii, atunci valoarea nu este eliminată şi se va încerca, pentru o adecvanţă mai mare a modelului, să se obo adecvanţă mai mare a modelului, să se obţină determinări suplimentare în acea regiune a spaţiului variabilelor. Transformări de variabile În cazul în care relaţia dintre y şi x nu pare a fi liniară, situaţie detectabilă într-o diagramă de împrăştiere, sau dispersia valorilor y nu pare a fi constantă după valorile lui x, se poate încerca o transformare prealabilă a lui x şi/sau y. Mosteller şi Tukey (1977) propun un ghid (bulging rule) pentru selectarea unei transformări care să pconducă la o "liniarizare" a relaţiei. Se observă, în figura alăturată, că pe fiecare axă, x sau y, se propune o creştere (x, x 3...) sau o scădere (log x, x, 1/x...) a gradului variabilei respective. Prin urmare, se va identifica forma relaţiei în diagrama de împrăştiere şi se vor utiliza transformările din cadranul corespunzător. Un alt set de propuneri de transformări de variabile pornesc de la histograma valorilor variabilei (şi nu de la diagrama de împrăştiere):

96 Histograma variabilei x Transformarea propusă 1. x. 3. lg x 1 x 4. max( x) +1 x 5. lg (max(x) +1 x) 1 max( x) +1 x 6. De notat că situaţiile 4-6 sunt reduse la 1-3 prin simetrizare. Regresia polinomială Un caz particular des utilizat de model liniar este regresia polinomială. Modelul polinomial este y = α 0 + α 1 x + α x + + α p x p + ε Se observă că există o singură variabilă independentă, x. Acest model se impune atunci când forma relaţiei dintre y şi x este curbilinie, fapt sugerat de diagrama de împrăştiere sau de considerente teoretice. Pentru a estima un model polinomial este necesar, dacă produsul informatic utilizat nu dispune de o procedură specializată, să se genereze variabilele independente ca puteri ale variabilei iniţiale. y x x x p p y 1 x 1 x 1 x 1 p y x x x Estimarea are loc prin procedura uzuală a regresiei multiple, considerând puterile calculate drept noi variabile, cu aceleaşi interpretări şi teste ca la modelul liniar.

97 B. Instrumente SPSS SPSS Dreapta de regresie Reamintim principalul dialog pentru estimarea unui model liniar se obţine prin Analyze Regression Linear. În Dependent se va transfera variabila dependentă. Variabilele independente, Independent(s), pot fi grupate pe blocuri: 1. se transferă variabilele dorite,. se precizează în Method modul de introducere a acestor variabile în regresie (Enter toate simultan, Forward, Backward, Stepwise metodele discutate la alegerea celei mai bune regresii), 3. se defineşte un nou bloc prin Next. Se pot selecta observaţiile precizând în Selection Variable variabila şi, prin Rule, regula de selectare a cazurilor în funcţie de valorile variabilei de selecţie. Butonul Statistics deschide dialogul sinonim în care se pot preciza statisticile calculate. Unele opţiuni sunt selectate şi în mod implicit. Estimates coeficienţii estimaţi, Confidence intervals intervalele de încredere ale coeficienţilor, Model fit calcularea statisticilor R, R şi a tabelului ANOVA, R squared change modificărea coeficientului de determinare şi testarea semnificaţiei schimbării la adăugarea fiecărui bloc de variabile, Descriptive statisticile esenţiale pentru fiecare variabilă Pentru tema curentă este importantă alegerea Collinearity diagnostics calcularea toleranţelor, a statisticilor VIF şi studiul multicoliniarităţii prin analiza în componente principale (a se vedea capitolul următor al cursului). În acest caz, tabelul privind coeficienţii modelului estimat va conţine încă două coloane cu statisticile privind diagnosticul coliniarităţii. Apare totodată în fişierul de ieşire un tabel intitulat Collinearity Diagnostics care conţine informaţii privind analiza factorială (a se vedea capitolul următor din curs) a variabilelor independente. Se poate deocamdată interpreta (mecanic) faptul că existenţa mai multor valori proprii situate în imediata vecinătate a lui 0 denotă o posibilă coliniaritate în variabilele independente. In ceea ce priveşte valorile aberante reamintim dialogul Plots (prezentat în lucrarea trecută) prin intermediul căruia se pot solicita diagramele asociate reziduurilor. Din dialogul Save, care permite calcularea şi salvarea unor variabile noi (valorile prognozate, reziduuri sub diferite forme etc.) accentuăm elementele:

98 Distances distanţele cazurilor de la punctul mediu, pentru identificarea valorilor aberante: Mahalanobis este distanţa explicată în capitolul privind clasificarea, Cook's este distanţa Cook explicată mai sus (o valoare mare arată o influenţă considerabilă a cazului în estimarea coeficienţilor), Leverage values măsoară influenţa cazurilor în estimare. Influence Statistics sunt modificările în coeficienţi (inclusiv cei standardizaţi), DfBeta(s) şi Standardized DfBeta, şi în valorile prognozate, DfFit şi Standardized DfFit, rezultate după excluderea cazului din estimare. In ieşirea SPSS, valorile aberante pot fi deci identificate prin 1) Std residual sau Stud Residual mai mari decât 3 în valoare absolută. ) Standardized DfBeta mai mari de 1 (sau, după alţi autori, chiar mai mari de /Sqrt(N)). 3) Cook s D mai mare decât 4/N pot indica observaţii cu probleme.. C. Lucrarea practică 1) Se va salva şi deschide fişierul Datele se referă la cheltuielile publice (1960) pe cap de locuitor în statele americane. Variabilele sunt EX: cheltuieli publice pe locuitor ECAB: indice de dezvoltare economică MET: procentajul populaţiei din zone metropolitane GROW: modificarea procentuală a populaţiei YOUNG: procentajul populaţiei tinere 5-19 ani OLD: procentajul populaţiei peste 65 ani WEST: 1 pentru statele din vest, 0 pentru celelalte i) să se studieze relaţia dintre EX (nivelul cheltuielilor) şi indicatorii demografici şi economici (ECAB, MET, GROW, YOUNG, OLD) ii) se va estima o regresie polinomială în cazul în care asocierea pare a fi curbilinie iii) se vor identifica valorile aberante şi se va reface estimarea prin excluderea acestora iv) se va estima şi analiza regresia multiplă EX = f(ecab, MET, GROW, YOUNG, OLD) atât pe ansamblu, cât şi pentru fiecare categorie de state (estice, vestice). Se vor identifica diferenţele. ) Se va deschide fişierul Employee Data.sav dintre fişierele de test SPSS. i) se va modela salariul curent funcţie de celelalte variabile continue.

99 (1) se va studia influenţa variabilelor independente. () se vor analiza şi trata valorile aberante. ii) se va reface analiza pentru fiecare categorie de job

100 Statistică multivariată Lucrarea nr. 10 Regresia logistică - SPSS A. Noţiuni teoretice Regresia logistică Regresia logistică modelează relaţia dintre o mulţime de variabile independente x i (categoriale, continue) şi o variabilă dependentă dihotomică (nominală, binară) Y. O astfel de variabilă dependentă apare, de regulă, atunci când reprezintă apartenenţa la două clase, categorii prezenţă/absenţă, da/nu etc. Ecuaţia de regresie obţinută, de un tip diferit de celelalte regresii discutate, oferă informaţii despre: importanţa variabilelor în diferenţierea claselor, clasificarea unei observaţii într-o clasă. De remarcat că diagrama de împrăştiere a valorilor nu oferă nici un indiciu în privinta dependenţelor. În asemenea cazuri, regresia liniară clasică nu oferă un model adecvat. Presupunem că valorile y (variabilă binară) sunt codificate 0/1, valoarea 1 exprimând în general apariţia unui anumit eveniment, astfel încât ceea ce se caută este o estimare a probabilităţii de producere a respectivului eveniment în funcţie de valorile variabilelor independente. Cazul unei singure variabile independente Modelul este α + βx e P( y = 1 x) = α + βx 1+ e sau P( y = 1 x) ln = α + β x 1 P( y = 1 x) Cantitatea din partea stângă este numită (transformarea) logit a probabilităţii P(y=1 x). Semnificaţia expresiei P(y=1 x) este evidentă: probabilitatea de realizare a valorii y=1 condiţionată de valoarea x. Cu alte cuvinte, probabilitatea de clasare a observaţiei x în clasa y=1, sau probabilitatea ca valoarea x să fie asociată cu producerea evenimentului y=1. In continuare se notează P(y=1 x) cu p, conform notaţiei de la modelul probabilist binomial (probabilitatea de succes ). Transformarea logit este necesară pentru a proiecta probabilitatea p din intervalul (0,1) în intervalul (-, + ), fapt necesar în procesul de estimare a parametrilor. Modelul este legat direct de noţiunea de odds (raport de şanse), notat OR (odds report): p OR = 1 p care reprezintă raportul dintre probabilitatea de «succes» şi probabilitatea de «insucces». Modelul se mai poate scrie

101 p p = e α +β x 1 de unde interpretarea coeficientului β: creşterea cantităţii logit atunci când x creşte cu o unitate sau OR creşte de e β ori atunci când x creşte cu o unitate. Testarea ipotezei β = 0 se realizează prin testul Wald, corespunzător testului t de la regresia liniară, statistica testului fiind b χ = Var ( b) care este repartizată χ cu un singur grad de libertate. Intervalul de încredere pentru β este, potrivit rezultatelor de la analiza ecuaţiei de regresie, b z α SE( b) b+ z α SE( b) 1 1 e, e, unde b este estimaţia lui β (din ecuaţia de regresie estimată) iar SE(b) este abaterea standard a repartiţiei de sondaj a lui b. Se observă imediat că, pentru o observaţie, dacă p > 0,5, atunci este mai probabil ca observaţia să aparţină grupului caracterizat de y=1. Această condiţie este echivalentă cu OR > 1, adică logit > 0. Cazul mai multor variabile independente Modelul general este p ln = β 0 + β 1 x 1 + β x +... β k x k, 1-p unde p este P(y = 1 x 1,x,,x k ). Se poate obţine imediat şi forma exponenţială echivalentă. Interpretarea coeficienţilor β i este evidentă: creşterea cantităţii logit (logaritm din OR) atunci când x i creşte cu o unitate (celelalte variabile x rămânând constante). Pentru interpretări mai sofisticate rescriem modelul sub forma: exp( β0 + β1x1 + βx +... βk xk ) P( y = 1 x1, x, K, xk ) = 1+ exp( β0 + β1x1 + βx +... βk xk ) Se obţine atunci, după calcule imediate, P( y = 1 x1 = x = K = xk = 0) exp( β0) = = 1 P( y = 1 x1 = x = K = xk = 0) P( y = 1 x1 = x = K = xk = 0) = P( y = 0 x1 = x = K = xk = 0) adică OR în situaţia de bază x 1 = x = = x k = 0. Pentru coeficientul β i se obţine :

102 P( y = 1 xi = 1, x j = 0 pentru j i) exp( βi ) = 1 P( y = 1 x = 1, x = 0 pentru j i) i 1 OR OR xi = 1, x j = 0 pentru j i =. OR baza Se ajunge astfel, din caracterul multiplicativ al modelului logistic, OR x,, exp( 0) exp( 1 1) exp( ) 1 x, K x = β β x K βk x k k, la interpretarea utilă că fiecare β i exprimă contribuţia factorului x i la explicarea probabilităţii (sub forma OR) de producere a evenimentului y = 1. Astfel, fixând x i = 1, exp(β i ) va reprezenta factorul multiplicativ constant indiferent de valorile celorlalte variabile independente. Dacă β i = 0, factorul corespunzător nu are nici un efect, (înmulţirea cu 1). Dacă β i < 0 prezenţa factorului reduce probabilitatea evenimentului y = 1, β i > 0 mărind această probabilitate. Construirea modelului se poate realiza şi prin metode forward sau backward, testarea semnificaţiei coeficienţilor realizându-se prin testul Wald sau prin testul raportului de verosimilitate (LR, likelihood-ratio). Testul Wald este prezentat la modelul logistic cu un singur factor. Testul LR se bazează pe statistica obţinută ca raport între maximul funcţiei de verosimilitate sub ipoteza nulă şi maximul funcţiei de verosimilitate în condiţii mai largi. Lema Neyman-Pearson arată că acesta este cel mai puternic test la un prag α fixat. Pentru cazul regresiei logistice, se calculează raportul între valoarea maximă a funcţiei de verosimilitate pentru modelul complet (L 1 ) şi cea pentru modelul mai simplu (L 0 ). Statistica LR este -log(l 0 /L 1 ), repartizată χ. Testul LR este recomandat în cazul construirii modelului pas cu pas, verificând dacă variabila eliminată din model este semnificativă, deci dacă modelul poate fi simplificat. Observaţie. O mai bună imagine intuitivă asupra raportului de verosimilitate este dată în continuare. presupunem că se doreşte distingerea între două ipoteze H 0 şi H 1 (o contrară a lui H 0 ). Fie p 0 probabilitatea ca datele observate să apară în ipoteza H 0 adevărată şi p 1 probabilitatea ca datele observate să apară în ipoteza H 1 adevărată. Raportul p 1 / p 0 este raportul de verosimilitate (LR) şi măsoară OR (odds report) ca H 1 să fie adevărat ca opusă lui H 0 adevărată. Deoarece unele simulări arată că datorită datelor "rare" (sparse) statistica prin care se compară două modele nu este repartizată χ şi, din acest motiv, s-a dezvoltat testul Hosmer-Lemeshow. De notat că testul este recomandat pentru variabile independente continue şi mai m ult de 400 de observaţii. Testul constă în clasificarea în decile a probabilităţilor prognozate (10 grupuri bazate pe rangul percentilic) şi calcularea statisticii χ care compară frecvenţele observate cu cele prognozate (în tabelul 10). Valori mici ale statisticii (deci acceptarea nediferenţierii dintre cele două şiruri de frecvenţe) arată o bună potrivire a datelor prognozate, deci o adecvanţa modelului. În regresia logistică nu există un indicator absolut similar coeficientului R din regresia liniară. S-au dezvoltat însă indicatori similari. Astfel în SPSS există Cox & Snell Pseudo-R definit prin / n LL null R = 1 LLk j baza =

103 unde LL null este logaritm din maximul funcţiei de verosimilitate pentru modelul constant, iar LL k este logaritm din maximul funcţiei de verosimilitate pentru modelul cu variabile independente incluse. Se poate astfel observa că se merge pe varianta de comparare a cantităţilor -LL prin intermediul raportului lor şi nu a împărţirii lor (ca la LR). Acest R nu atinge 1 şi a fost introdusă de Nagelkerke o modificare prin care se atinge 1. Formula pentru Nagelkerke Pseudo-R este / n LL null 1 LL k R = / n 1 ( LLnull ) Alţi indicatori sunt: AIC (Akaike s Information Criterion) definit ca -LL k +k, unde k este numărul de parametri estimaţi. BIC (Bayesian Information Criterion) definit ca -LL k + k*log(n) unde k este numărul de parametri estimaţi iar n este numărul de observaţii. BIC mai este referit şi drept criteriul Schwartz (care l-a argumentat). Vor fi preferate modelele pentru care criteriile (AIC sau BIC) au valori mai mici. Se observă că ambele criterii "recompensează" buna potrivire a modelului dar şi "penalizează" numărul de parametri estimaţi, astfel încât să se obţină un model bun dar cu un număr minim de parametri. În BIC, penalizarea lui k este mai puternică decât în AIC. Ambii indicatori necesită condiţia ca erorile (reziduurile) să fie normal distribuite. Regresia logistică multinomială Modelul regresional logistic multinomial (cunoscut şi ca regresia logistică politomică polytomous logistic regression sau ca model de alegere discretă discrete choice model în econometrie) este o generalizare a modelului logistic acceptând ca variabila dependentă Y să aibă mai mult de două valori. Să presupunem că variabila Y are ca valori posibile elementele mulţimii neordonate {1,..., g}. Modelul logistic multinomial presupune că probabilitatea ca Y să fie egal cu s în observaţia i depinde de valorile variabilelor x i1,..., x ip prin η e is P( Yi = s) = g ηit e t = 1 p unde η is = x k = 1 ik βks este o funcţie liniară. În această formulare a modelului, este de remarcat că există coeficienţi de regresie β ks diferiţi pentru fiecare k şi, mai ales, s. Prin urmare, fiecare valoare posibilă Y are un model asociat. Modelul astfel definit este supraparametrizat, ceea ce impune o reducere prin fixarea unei valori Y, de exemplu Y = 1, drept categorie de referinţă (adică β 11,..., β p1 sunt egali cu zero). Alegerea categoriei de referinţă poate facilita interpretarea.

104 B. Instrumente SPSS Comanda este Analyse - Regression - Binary Logistic. Se afişează dialogul de fixare a variabilelor şi statisticilor. Se mută variabila dependentă (binară) în Dependent. Variabila independentă sau variabilele independente (în cazul multivariat) sunt mutate în lista Covariates. Pentru a indica variabilele independente care este categoriale (discrete), se va acţiona butonul Categorical, afişâdu-se dialogul Fiecare variabilă trecută în lista Categorical Covariates poate fi caracterizată prin selecţii corespunzătoare în grupul Change Contrast

105 Acţionând butonul Options din dialogul principal, se deschide dialogul sinonim în care se precizează statisticile şi diagramele dorite în ieşire. În dialogul principal Logistic Regression, se poate alege metoda utilizată pentru introducerea variabilelor la estimarea regresiei. De reţinut metoda Enter în care variabilele sunt introduse în bloc (se estimează o singură ecuaţie) sau metode de selectare pas cu pas (ca la regresia liniară multiplă), cum ar fi Forward: LR. Aceasta înseamnă că modelul este construit ascendent, criteriul de introducere a unei noi variabile fiind testul LR (a raportului de verosimilitate). Prin acţionarea butonului Save în dialogul principal se pot preciza noile variabile care pot fi create din ieşirea procedurii, ca şi la regresia multiplă. Informaţiile care apar în fişierul de ieşire SPSS sunt explicate în continuare. Un prim tabel cu informaţiile generale (număr de observaţii valide etc.). Un tabel în care se precizează codificările variabilelor categoriale (inclusiv cea dependentă). Pentru variabilele categoriale independente are loc o recodificare cu considerarea categoriei de referinţă: aceasta este recodificată 0.

106 Ieşirea diferă ca structură după metoda de selectare a variabilelor, dar conţine un prim bloc de informaţii care se referă la modelul simplu (doar cu termenul constant). De remarcat structura: clasificare, variabile în ecuaţie, variabile candidate. Tabelul de clasificare este construit prin considerarea probabilităţii de clasificare prognozate de modelul curent pentru fiecare observaţie. după principiul că OR>1 clasează observaţia în grupul codificat 1. Un model bun trebuie să numere cele mai multe observaţii pe diagonala principală a tabelului. Tabelul care urmează, referitor la model, este explicat şi se interpretează potrivit celor spuse la tabelul similar dintr-un pas intermediar afişat ceva mai departe în lucrare. Informaţiile oferite pentru faza finală sunt după structura Se observă că în fiecare pas al estimării modelului se testează dacă trecerea de la precedent este semnificativă (se respinge ipoteza nulităţii variabilei sau variabilelor adăugate). Indicatorii similari coeficientului de determinare din regresia multiplă sunt în tabelul care urmează.

107 Testul Hosmer & Lemeshow este explicitat pentru fiecare pas prin raportarea celor 10 frecvenţe observate/aşteptate (statistica şi semnificaţia sunt raportate în tabelul precedent). Se raportează de asemenea tabelul de clasificare pentru fiecare pas al procedurii. În tabelul referitor la variabilele din model se raportează: coeficienţii B Exp (B) cu interpretarea, dată în partea teoretică, că reprezintă modificare OR a variabilei dependente la modificarea cu o unitate a variabilei independente, deci Exp (B) 1 pentru variabilele nesemnificative. informaţii asociate testul Wald de semnificaţie a fiecărui coeficient.

108 În tabelul următor (apare doar pentru anumite metode de selectare a variabilelor) se prezintă informaţiile necesare pentru a testa ce s-ar întâmpla daca o variabilă din model este exclusă. Pentru un model care se construieşte ascendent, acestea pot sugera prezenţa unor variabile care au devenit nesemnificative prin includerea altor variabile. Pentru variabilele care nu sunt în model, se prezintă testele care decid necesitatea prezenţei lor. La pasul următor, va fi introdusă în model variabila cu scorul cel mai mare (scor calculat potrivit metodei selectate). Diagrama de clasificare (afişată în continuare) este alcătuită: Axa X este probabilitatea prognozată (de la 0 la 1) de a fi clasificat în grupul codat "1". Sub axă sunt diferenţiate zonele de clasificare prin simbolurile care codifică grupul 1 (Yes) şi grupul (No). Se observă pragul de 0.5 care schimbă clasificarea. Axa Y este frecvenţă (număr de cazuri). Coloanele care apar în diagramă sunt alcătuite din marcaje (fiecare reprezintă un număr de cazuri pentru simplificare) care reprezintă clasificarea observată a cazurilor. Examinarea diagramei constă în analiza faptului dacă marcajele corespund la acelaşi semn (Yes/No) situat sub axa X. Prin urmare o semnele Y care corespund la valori Y de pe axa OX (şi semnele N care corespund la valori N de pe axa OX) reprezintă clasificări prognozate corect de model. o celelalte marcaje (semnele Y care corespund la valori N de pe axa OX, precum şi semnele N care corespund la valori Y de pe

109 axa OX) reprezintă cazuri clasate eronat, deci observaţii pentru care modelul estimat nu funcţionează. C. Lucrarea practică 1. Un studiu care urmăreşte de cine depinde gustul brânzeturilor de tip cheddar a prelevat probe şi a determinat concentraţia unor compuşi chimici. Fiecare probă a fost supusă unui proces de degustare şi a primit o notă. Unele valori au fost transformate în prealabil (Acetic şi HS sunt obţinute prin logaritmarea valorilor măsurate). Fişierul de date este Variabilele sunt i. Taste: nota obţinută în urma combinării notelor acordate de mai mulţi degustători ii. Acetic: logaritm natural din concentraţia de acid acetic iii. HS: logaritm natural din concentraţia de H S. iv. Lactic: concentraţia de acid lactic Să se modeleze variabila Taste cu ajutorul celorlalte trei variabile. Să se analizeze modelul obţinut.. Date privind un număr de companii au fost selectate din lista Forbes 500 pentru anul 1986 (printr-un sondaj sistematic 1/10 din lista alfabetică a companiilor). Studiul urmăreşte volumul de vânzări al companiei. Fişierul de date este Variabilele sunt: i. Company: numele companiei ii. Assets: bunurile companiei (milioane $) iii. Sales: volumul de vânzări (milioane $) iv. Market_Value: valoarea de piaţă a companiei (milioane $) v. Profits: profitul (milioane $) vi. Cash_Flow: volumul tranzacţiilor (milioane $) vii. Employees: numărul de angajaţi (mii persoane) viii. Sector: domeniul de activitate a companiei.

110 Să se modeleze volumul de vânzări în funcţie de celelalte variabile. Să se analizeze modelul obţinut. Să se determine transformările prealabile necesare pentru unele variabile şi să se refacă modelarea. 3. Se va deschide fişierul Employee Data.sav din setul de fişiere test oferite de SPSS. Să se decidă dacă faptul că un angajat aparţine minorităţii (minority = 1) este reflectat de variabilele educ, prevexp, jobcat şi gender. Pentru aceasta se va estima şi se va analiza o regresie logistică în care variabila dependentă este minority, restul variabilelor fiind considerate independente.

111 Statistică multivariată Lucrarea nr. 11 Analiza în componente principale - SPSS A. Noţiuni teoretice Analiza factorială (analiza în componente principale este o metodă factorială) a apărut pentru a rezolva probleme din categoria următoare: reducerea complexităţii datelor (data reduction) poate fi înlocuit un masiv de date de mari dimensiuni prin masive de dimensiuni mai mici? evidenţierea şi fixarea patternului asocierilor (corelaţiilor) dintre variabile. determinarea variabilelor latente (mai puţine) care se află în spatele variabilelor măsurate (mai multe) problemă similară descoperirii celor care mănuiesc păpuşile într-un teatru de păpuşi; comportarea, varianţa variabilelor măsurate poate fi regăsită din varianţa unor variabile ascunse, care le determină prin asociere. Variabilele ascunse, latente, sunt denumite factori şi de aici denumirea metodelor analizei factoriale. Metoda a apărut la început în studii psihologice în care s-a încercat să se determine, evalueze, variabile precum inteligenţa. Cum se pot evalua atribute precum puterea de asimilare, de reacţie, de înţelegere etc., s-a presupus că multe dintre acestea sunt determinate de o variabilă latentă care poate fi inteligenţa. Formalizând cele spuse se consideră că există o mulţime de variabile X 1, X,...,X p şi se doreşte determinarea unor variabile noi C 1, C,...,C m, unde C i = w i1 X 1 + w i X w ip X p, cu dorinţa ca m << p. Aceste variabile noi se numesc uzual factori sau componente. Este evidentă şi cerinţa inversării, deci posibilitatea de a regăsi variabilele X cu ajutorul componentelor, X i = a i1 C 1 + a i C a im C m. Se observă astfel că prin intermediul componentelor se încearcă reducerea numărului de variabile (şi, după cum se va vedea, fără a pierde varianţa variabilelor iniţiale). Dacă se propune ca în noile componente, notate cu F de la factor, să se reţină doar ceea ce este comun variabilelor X, adică X i = a i1 F 1 + a i F a im F m + E i, unde F 1, F,..., F m sunt factorii comuni variabilelor X, iar E i reprezintă partea specifică a lui X i, analiza este cea propusă iniţial în psihologie (analiza în factori comuni şi specifici). Analiza factorială metoda generală Metoda generală este prezentată pornind de la următoarea problemă matematică (deci adoptând limbajul din data reduction): Este posibil să reconstituim cele np valori x ij ale unui tablou X n p pornind de la un număr mai mic de date? Răspunsul poate fi afirmativ: dacă X = u 1 v 1, unde u n 1 şi v 1p, atunci se poate reconstitui X din cele n+p valori ale lui u 1 şi v 1. Se spune că X este de rang 1. În practică este foarte improbabilă o asemenea descompunere şi se va căuta o ajustare de rang q, de forma ' ' X = u v + u v + L + u v + E ' 1 1 q q

112 unde E este o matrice reziduală, cu termeni suficient de mici astfel încât cele np valori din X să fie reconstituite suficient de bine din cele q(n+p) valori ale vectorilor u α şi v α, α=1,,q. Problema se va rezolva cu ajutorul reprezentărilor geometrice. Tabloul X poate fi privit drept mulţimea coordonatelor pentru n puncte în spaţiul cu p dimensiuni, R p (fiecare linie a tabloului este un punct în acest spaţiu), sau p puncte în spaţiul cu n dimensiuni, R n (fiecare coloană a tabloului este un punct în acest spaţiu). Ambele spaţii, R p şi R n, se consideră dotate cu metrica euclidiană uzuală. Ajustarea printr-un subspaţiu vectorial din R p Ideea este aceea de a determina un subspaţiu vectorial de dimensiune q < p în care să fie conţinută X (matricea X este gândită ca mulţimea a n vectori coloanele matricei). În acest caz, cele n puncte din X pot fi reconstituite plecând de la coordonatele pe noile q axe, adică nq valori, componentele noilor axe în spaţiul iniţial, adică pq valori. Se utilizează astfel nq + pq valori. Să începem prin a căuta dreapta F 1, trecând prin origine, care ajustează cel mai bine, în sensul celor mai mici pătrate, norul de puncte. Fie un vector unitar u de pe această dreaptă, deci u u=1. Rezultă că fiecare linie din Xu este produsul scalar al punctului respectiv cu u şi deci lungimea proiecţiei punctului pe F 1. Prin urmare, minimizarea sumei distanţelor la F 1 (criteriul celor mai mici pătrate) revine la maximizarea sumei proiecţiilor. Deci determinarea lui F 1 conduce la maximizarea sumei pătratelor acestor proiecţii, adică se caută u care maximizează forma pătratică (Xu) (Xu)=u X Xu, cu restricţia u u=1.

113 Prin metoda multiplicatorului lui Lagrange, se consideră L = u X Xu - λ( u u-1) şi anularea derivatelor parţiale în raport cu u conduce la X Xu-λu=0, de unde X Xu = λu ceea ce arată că u este un vector propriu al matricei X X. Atunci, u X Xu = λ u u şi, din restricţia impusă, rezultă u X Xu = λ, adică maximul căutat este egal cu o valoare proprie λ a matricei simetrice X X. Prin urmare, u este acel vector propriu u 1 care corespunde celei mai mari valori proprii λ 1. În general, se arată că o bază ortonormată a subspaţiului vectorial cu q dimensiuni, care ajustează norul de puncte în sensul celor mai mici pătrate, este constituită din cei q vectori proprii care corespund celor mai mari q valori proprii ale matricei simetrice X X. Notăm cu u 1, u,, u q vectorii proprii şi λ 1, λ,, λ q valorile proprii corespunzătoare. De remarcat că matricea X X este simetrică şi semipozitiv definită, deci toate valorile proprii sunt reale nenegative, iar vectorii proprii sunt ortogonali. Ajustarea printr-un subspaţiu vectorial din R n În R n, coloanele matricei X n p definesc un nor de p puncte. Raţionând analog (pe matricea X ) se ajunge la: cel mai bun subspaţiu cu q dimensiuni este generat de vectorii proprii v 1, v,, v q care corespund la valorile proprii (descrescătoare) µ 1, µ,, µ q ale matricei XX. Relaţia dintre cele două subspaţii din R p şi R n Din definiţia vectorului propriu v α, avem XX v α =µ α v α de unde, prin înmulţire la stânga cu X, X XX v α = µ α X v α adică (X X)(X v α ) = µ α (X v α ) Deci fiecărui vector propriu v α a lui XX îi corespunde un vector propriu egal cu X v α a matricei X X iar µ α este valoare proprie pentru X X. Adică {µ α ) {λ α } Analog se demonstrează şi incluziunea inversă şi se arată astfel identitatea celor două mulţimi de valori proprii, µ α = λ α, α = 1,,r, unde r este rang(x), r min(p,n). Intre vectorii proprii există relaţiile (cu observaţia că egalitatea are loc până la un factor) u α = k α X v α v α = k α X u α unde k α şi k α sunt constante necunoscute. Din u α u α = v α v α = 1 rezultă

114 uα uα k Dar v α XX v α = λ α = µ α de unde ' k ' ' = α vα XX vα α = k ' α Intre vectorii proprii din cele două spaţii există astfel relaţiile (*) u α = 1 X v, α λ v 1 α = α α λ Xu α Axa F α, care poartă vectorul unitar u α, este numită a α-a axă factorială din R p. Analog pentru G α în R n. Coordonatele punctelor pe axa α din R p (şi respectiv din R n ) sunt, prin construcţie, componentele lui Xu α (respectiv X v α ). Relaţiile precedente arată proporţionalitatea care există între coordonatele punctelor pe o axă α dintr-un spaţiu şi componentele unitare (cosinuşii directori) ai axei α din celălalt spaţiu. = 1 λ α = 1 Reconstituirea tabloului X Din relaţia (*) se obţine Xu α = λα vα, de unde Xu αu α = λα vα u α şi sumând X p p u u = v u α λ α α α. α α = 1 α = 1 p Cum u u α α este produsul matricei ortogonale a vectorilor proprii cu α = 1 transpusa sa, adică este matricea unitate, se obţine reconstituirea tabloului iniţial prin X = p α = 1 ' λ v u α α α cu menţiunea că anumite valori proprii pot fi 0 (dar există vectorii proprii corespunzători). O reconstituire aproximativă X * este obţinută prin limitarea la primele q axe factoriale (reamintim că valorile proprii au fost luate în ordine descrescătoare, deci λ q+1,, λ p sunt valorile cele mai mici): X X * = q α = 1 ' λ v u. α α α Fiecare valoare proprie măsoară suma pătratelor distanţelor la origine ale proiecţiilor pe axa factorială respectivă. Prin urmare, reconstituirea va fi cu atât mai bună cu cât suma valorilor proprii reţinute va constitui o parte notabilă a sumei tuturor valorilor proprii. Calitatea globală a reconstituirii poate fi măsurată prin cantitatea τ = q q p λ α λ α α = 1 α = 1 numită rata de inerţie (măsoară partea din varianţa norului explicată de subspaţiul cu q dimensiuni). Se poate verifica şi * τ q = x ij xij. i, j i, j care oferă un suport intuitiv faptului că τ reflectă calitatea globală a reconstituirii.

115 Analize particulare Atunci când nu este vorba strict de o aproximare numerică şi ne încadrăm în analiza statistică, dispunem de informaţii suplimentare asupra naturii datelor. Considerarea acestor informaţii conduce la transformări prealabile ale datelor iniţiale, astfel încât aplicarea metodei generale la datele transformate permite interpretări mai adecvate structurii datelor. Se obţin astfel analize factoriale particulare, cele mai importante sunt enumerate în continuare: Analiza în componente principale, Analiza în componente principale normate, Analiza rangurilor, Analiza corespondenţelor. Ideea de bază care stă la baza tuturor acestor analize este aceea că un tabel de valori poate produce (prin liniile, respectiv coloanele sale) reprezentări sub forma norilor de puncte în două spaţii, ajustările punctelor din cele două spaţii sunt legate prin relaţii simple, interpretabile. Analiza în componente principale Iniţiată de Pearson (1901) şi dezvoltată de Hotelling (1933). Tabloul de plecare R este oarecare: r ij semnifică, în mod uzual, a i-a observaţie a unei variabile j. Variabilele pot fi eterogene în privinţa mediilor lor (de ex. unităţi de măsură diferite, ordine de mărime diferite etc.). Pentru a anula efectul eterogenităţii se efectuează transformarea rij r n * j 1 xij =, unde r* j = r ij este media variabilei a j-a. n n i= 1 Analiza generală se va aplica tabloului X astfel obţinut, matricea X X este matricea de covarianţă a variabilelor iniţiale. Analiza în componente principale normate Dacă variabilele sunt eterogene şi în dispersie, se vor norma valorile prin rij r* j xij =, unde s j este abaterea standard pentru a j-a variabilă. s j n Analiza generală se va aplica tabloului X, cu observaţia că că matricea X X implicată în calcule este tocmai matricea de corelaţie a variabilelor iniţiale. Analiza în componente principale (normate) ACP/ACPN Numele metodei provine din aceea că factorii (obţinuţi prin analiza generală) sunt numiţi şi componente principale. Deşi pentru identificarea factorilor se aplică metoda generală asupra matricei de covarianţă (corelaţie) a variabilelor implicate, în continuare se prezintă şi o metodă alternativă, care poate oferi o viziune mai intuitivă asupra calculelor efectuate. Se doreşte reducerea numărului de variabile dar cu păstrarea a cât mai mult (în limita posibilităţilor) din varianţa datelor iniţiale. Pentru aceasta se introduce o nouă variabilă, Z, ca o combinaţie liniară a variabilelor iniţiale: Z = a1 x1 + ax + K+ a p x p

116 unde a 1,,a p sunt ponderi asociate variabilelor iniţiale. Observaţie. Ecuaţia precedentă este doar aparent similară unei ecuaţii de regresie, deoarece nu se cunosc valori observate pentru variabila Z, nu există termen liber şi nici erori (reziduuri). Analiza în componente principale determină acele ponderi a i care maximizează varianţa variabilei Z. Cum varianţa poate tinde la infinit pentru valori ale ponderilor convenabil alese, metoda determină doar ponderile supuse restricţiei că p vectorul a este normalizat, adică a i = 1. O dată calculate ponderile a, variabila Z i= 1 este numită prima componentă principală. Notând cu C matricea de covarianţă (corelaţie) a variabilelor X, de fapt prin transformarea datelor din analiza în componente principale C = X X, rezultă că dispersia lui Z este a Ca. Se doreşte maximizarea varianţei lui Z cu restricţia a a = 1.Se ajunge astfel la problema generală: max a X Xa cu restricţia a a = 1 Prin metoda multiplicatorilor lui Lagrange se va căuta maximul funcţiei F(a) = a Ca - λ(a a 1) de unde rezultă, ca în metoda generală, că a este vector propriu al matricei C corespunzător valorii proprii λ şi a Ca = λ. Deoarece Var(Z) = a Ca rezultă Var(Z) = λ, adică a este vectorul propriu care corespunde celei mai mari valori proprii λ. A doua componentă principală este definită drept combinaţia liniară a variabilelor X cu următoarea cea mai mare varianţă: Z = a 1 x 1 + a x + + a p x p Se ajunge astfel la a doua valoare proprie ca mărime etc. De remarcat că a ij reprezintă ponderea variabilei i în componenta principală cu numărul j. O consecinţă a faptului că varianţele componentelor principale sunt valorile proprii iar ponderile (coeficienţii combinaţiilor liniare) sunt vectorii proprii este aceea că factorii obţinuţi (componentele principale) sunt necorelate între ele. Astfel, din exprimarea matriceală z = Ax a componentelor principale şi din faptul că matricea vectorilor proprii este ortogonală, A A = I, rezultă A z = A Ax = Ix = x, adică şi variabilele iniţiale pot fi exprimate drept combinaţii liniare între componentele principale. Notând cu C zz matricea de covarianţe a componentelor principale, relaţia anterioară produce C = A C zz A. de unde, utilizând rezultatul cunoscut C = A ΛA, unde Λ este matricea diagonală a valorilor proprii, rezultă că C zz este o matrice diagonală, adică toate componentele principale sunt necorelate între ele. Se observă astfel că prin trecerea la componentele principale se elimină redundanţa din date. Analiza în R p Cele n puncte ale acestui spaţiu sunt indivizi (observaţii) şi se doreşte o reprezentare a apropierilor dintre aceste puncte într-un spaţiu de dimensiune mai mică. Prin transformările prealabile are loc o translaţie a norului de puncte într-un reper având ca origine centrul de greutate al norului. In ACPN se modifică şi scala pe fiecare axă.

117 Analiza în R n Cele p puncte sunt aici variabilele, transformările prealabile au însă o interpretare diferită: transformarea din ACP este o proiecţie paralelă cu prima bisectoare Astfel, în cazul n= (neimportant din punct de vedere statistic, dar permite o vizualizare corectă), un punct variabilă este supus transformării: transformarea din ACPN este o deformare a norului de puncte care aduce fiecare punct variabilă la distanţa 1 de origine (pe sfera unitate). rij r* j Într-adevăr, din transformarea xij =, rezultă că distanţa unui punct s j n variabilă la origine este n 1 d ( j,0) = ( rij rj ) / s j = 1. n i= 1 Distanţa dintre două puncte este dată de d ( j, k) = cor( j, k) adică proximităţile dintre puncte se pot interpreta în termenii corelaţiilor dintre variabile. Coordonatele punctelor variabile pe o axă sunt coeficienţii de corelaţie dintre variabile şi factorul respectiv (considerat ca o nouă variabilă). Prin urmare se poate interpreta un factor (axă) drept o combinaţie a variabilelor cele mai corelate cu el. Componente principale o altă definiţie Definiţia componentelor principale prezentată aici oferă un punct de vedere diferit (apropiat de sensul istoric iniţial). Notăm cu X n p matricea de date (n observaţii asupra a p variabile), cu A j matricea (transpusă) (de tip j p) a ponderilor primelor j componente principale (coloanele din A j fiind primii j vectori proprii), cu Z n j matricea scorurilor componentelor principale. z ik = a 1i x 1k + a i x k + + a pi x pk Rezultă atunci X = Z A j + U unde U n p este matricea reziduurilor. Se poate arăta atunci că primele j componente principale sunt acele variabile necorelate care constituie cele mai bune variabile predictor (printr-un model liniar) ale variabilelor observate. Criteriul este tot al celor mai mici pătrate min i j uij

118 Se poate astfel spune că, dacă s-ar determina mulţimea de variabile necorelate care prognozează cel mai bine (printr-un model liniar) variabilele observate, atunci aceste noi variabile ar fi componentele principale. Prin urmare, relaţia matriceală X = Z A j + U se interpretează ca evidenţiind variabilele ascunse (latente), z, care determină variabilele observate x. Numărul de componente principale Din toată discuţia de până acum apare ca un punct important acela al fixării numărului j de componente principale care se reţin în modelul final. Această întrebare nu are un răspuns precis. Există o serie de proceduri acceptate, discutate în continuare şi care se aplică şi altor metode factoriale. O proprietate importantă a metodei este aceea a menţinerii varianţei totale a datelor. Cu alte cuvinte var( X 1) + var( X ) var( X p) = var( Z1) + var( Z) var( Z p) = λ 1 + λ λ p În cazul ACPN, variabilele sunt standardizate şi, prin urmare, * * * var( X1 ) + var( X ) var( X p ) = = p de unde rezultă că suma varianţelor componentelor principale este p: λ 1 + λ λp = p În general, primele q componente principale oferă un rezumat q-dimensional al variabilelor iniţiale, acela care are varianţa maximă dintre toate rezumatele q-dimensionale. Pentru q = p nu are loc o reducere a dimensiunii, obţinând o simplă transformare a variabilelor iniţiale. Prin reţinerea doar a primelor q valori proprii, proporţia explicată din varianţa totală este λ λq λ λp Acesta nu poate constitui un criteriu pentru numărul de factori reţinuţi, întrucât raportul creşte o dată cu numărul factorilor (ajungând la 1). Un prim criteriu poate fi acela al reţinerii acelor valori proprii care depăşesc media, adică 1 λ i > ( λ λp) p criteriul implicit în SPSS, cu observaţia că în ACPN criteriul devine identic cu criteriul Kaizer. Criteriul Kaiser Se reţin doar componentele principale corespunzând valorilor proprii mai mari decât 1. Se aplică de regulă în ACPN. Criteriul Cattell (scree test) Varianta grafică: se detectează pe diagrama valorilor proprii un cot. Se reţin doar valorile proprii de până în acel loc, inclusiv.

119 Varianta analitică: se calculează ε 1 =λ 1 -λ 1, ε =λ -λ 3, δ 1 =ε 1 -ε, δ =ε -ε 3, şi se reţin λ 1,, λ k+1 astfel încât δ 1, δ,, δ k să fie toate pozitive. Analog, se încearcă trasarea unei drepte (dreapta de regresie) prin ultimele j valori proprii şi se reţin doar valorile proprii situate deasupra acesteia. Reprezentări grafice In ACP/ACPN datele iniţiale se referă la n observaţii asupra a p variabile, care pot fi interpretate ca n puncte-indivizi (observaţii) în R p, p puncte-variabile în R n. Reţinerea unui număr de axe factoriale echivalează cu determinarea unui subspaţiu în care datele iniţiale pot fi regăsite cu suficientă acurateţe. Examinarea structurii norilor de puncte din subspaţiile respective se realizează prin metode grafice, reprezentând punctele prin proiecţii pe un număr suficient de plane factoriale. Astfel, pentru a putea înţelege structura unui nor de puncte în R 3 este nevoie de proiecţia lor pe două plane (xoy şi xoz, de exemplu). Interpretările diferă totuşi după cum este vorba de variabile sau de observaţii. Variabile Prin metoda numerică utilizată, coordonatele punctelor variabile sunt mai mici de 1, punctele fiind pe sfera unitate. Cum distanţele dintre puncte sunt invers proporţionale cu corelaţiile dintre variabilele corespunzătoare, grupările de puncte indică grupuri de variabile corelate. Pentru eliminarea erorilor de perspectivă, aprecierea corectă apare doar după analiza proiecţii-lor pe mai multe planuri factoriale (= nr.de factori 1). Variabilele apropiate de o axă sunt corelate cu acea componentă principală, se poate considera că axa respectivă este o combinaţie a variabilelor apropiate de ea.

120 Observaţii Reprezentarea punctelor-observaţii prezintă de asemenea grupările de observaţii, fără a mai fi pe sfera unitate. Prima axă factorială este, uzual, factorul de talie, separând de-a lungul ei observaţiile mici de cel mari. A doua axă factorială este factorul de formă. care nuanţează diferen-ţele efectuate de primul factor. Dacă observaţiile aparţin la grupuri de interes, evidenţierea claselor (ca în figură) poate oferi informaţii utile prin configuraţiile vizibile. Concluziile sunt justificate doar după utilizarea unui număr suficient de proiecţii. Coordonatele punctelor observaţii sunt, de regulă, scalate astfel încât să permită suprapunerea celor două grafice (variabile, observaţii). Deşi trebuie o oarecare grijă în emiterea concluziilor (vezi, de exemplu, efectul de perspectivă în configuraţiile multidimensionale), asemenea vizualizări pot oferi explicaţii ale apropierilor dintre observaţii prin variabilele apropiate acelui grup etc. B. Instrumente SPSS Dialogul Factor Analysis Pentru a aplica analiza factorială, prin natura metodei, trebuie ca între variabile să existe corelaţii suficient de mari pentru a avea sens problema reducerii

121 dimensiunii. Prin urmare, dacă o variabilă nu este corelată cu celelalte va trebui exclusă din analiză. În acelaşi timp, nici corelaţiile foarte mari (multicoliniaritatea) nu conduc la rezultate uşor de interpretat, situaţia extremă fiind cea de singularitate, a existenţei variabilelor perfect corelate. În asemenea cazuri este imposibil să se determine contribuţia individuală la un factor a variabilelor. Prin urmare este necesar să se calculeze şi să se analizeze matricea de corelaţii a variabilelor prin Analyse Correlate Bivariate, inclusiv determinantul acestei matrice pentru determinarea multicoliniarităţii. Este de asemenea necesar să se testeze că variabilele au o distribuţie apropiată de distribuţia normală (prin analizarea histogramelor sau a testelor de normalitate). Dialogul principal este Analyse Data Reduction Factor. Se afişează dialogul Factor Analysis. Variabilele procesate se trec în lista Variables iar în Selection Variable se poate indica o variabilă care selectează prin Value observaţiile/cazurile considerate în analiză. Parametrii analizei se fixează în dialogurile afişate de acţionarea butoanelor Descriptives, Extraction, Rotation, Scores, Options, dialoguri descrise în continuare. Descriptives În grupul Statistics se poate cere afişarea statisticilor elementare (media, abaterea standard etc.). Selectarea Initial solution afişează comunalităţile iniţiale, valorile proprii etc. Grupul Correlation Matrix conţine informaţiile despre coeficienţii de corelaţie şi cele utile în studiul multicoliniarităţii. Dintre acestea, Bartlett's Test of Sphericity testează dacă matricea de corelaţie este aproximativ unitară (ca ipoteză nulă), ceea ce denotă o multicoliniaritate accentuată, dar nu precizează care variabilă nu este corelată cu celelalte. Acest studiu ar trebui realizat separat prin estimarea coeficientului de determinare R în fiecare model liniar X i = f (restul variabilelor X). KMO (Kaiser-Meyer-Olkin) testează corelaţiile parţiale dintre variabile doar global, ceea ce nu este util în identificarea variabilelor necorelate. Acceptarea ipotezei nule din testul Bartlett conduce la ideea că variabilele nu sunt corelate între ele, deci o încercare de reducere a dimensiunii nu este sortită

122 succesului, fiecare variabilă are o contribuţie proprie importantă şi care nu poate fi suplinită de celelalte variabile. Este de remarcat că dacă o variabilă nu este bine corelată cu celelalte (deci nu contribuie la multicoliniaritate), această variabilă poate fi omisă din analiză. Opţiunea Reproduced afişează matricea de corelaţie estimată din soluţia factorială şi se afişează şi reziduurile. Extraction Din lista Method se poate fixa metoda de analiză factorială. Pentru analiza în componente principale sau componente principale normate se va selecta Principal components. În acest caz, tipul analizei este dat de selecţia din grupul Analyze: correlation matrix pentru ACPN sau covariance matrix pentru ACP. În grupul de opţiuni Extract se poate indica exact numărul de factori sau preciza pragul pentru valorile proprii (deci factorii) reţinute. Prin selectarea opţiunii Scree plot se obţine diagrama valorilor proprii care oferă ajutor în stabilirea numărului de factori. Unrotated Factor Solution produce afişarea pentru soluţie a încărcărilor, comunalităţilor şi valorilor proprii. Deoarece soluţia se obţine în urma unui proces iterativ, se poate fixa numărul maxim de iteraţii în Maximum Iterations for Convergence. Reamintim că din p variabile se pot extrage p componente, fiecare valoare proprie reprezentând partea de varianţă care este explicată de componenta respectivă. Rotation Rotaţia reperului axelor factoriale pentru a prinde un unghi de vedere mai bun se poate selecta în dialogul Rotation. Ca metode sunt disponibile: varimax (se minimizează numărul de variabile cu încărcări mari pe fiecare factor, ceea ce simplifică interpretarea factorilor), direct oblimin (rotaţie oblică), quartimax (minimizează numărul de factori necesari explicării fiecărei variabile), equamax (combinaţie între metodele varimax şi quartimax) şi promax (rotaţie oblică în care se admit factori corelaţi). Pentru soluţia obţinută în urma rotaţiei se poate cere soluţia sau diagramele încărcărilor pentru primii doi (dacă nu s-au extras cel puţin trei factori) sau trei factori. Şi pentru procesul de rotaţie se poate preciza numărul maxim de iteraţii în Maximum Iterations for Convergence.

123 Scores Se poate cere salvarea ca noi variabile a scorurilor factoriale finale, fiecare factor producând o variabilă. Cu alte cuvinte coordonatele cazurilor în reperul factorial sau transformări ale acestora. Se poate preciza metoda de calcul a scorurilor: regression (scorurile produse au media zero şi o dispersie egală cu pătratul corelaţiei multiple între scorurile factoriale estimate şi coordonatele factoriale adevărate), Bartlett (scorurile produse au media zero şi este minimizată suma pătratelor factorilor reţinuţi) sau Anderson-Rubin (scorurile au media zero, abatere standard unitară şi sunt necorelate). Prin Display factor score coefficient matrix se afişează matricea de corelaţie dintre scoruri şi coeficienţii cu care se înmulţesc variabilele pentru a obţine scorurile factoriale. Options Se precizează modul de tratare a valorilor lipsă ca şi modul de afişare a matricelor, de exemplu se pot omite coeficienţii care sunt în valoare absolută sub un anumit prag. Structura fişierului de ieşire Matricea de corelaţie, dacă este solicitată, se interpretează în mod uzual, dupăcum s-a explicat în lucrarea dedicată asocierii variabilelor. Se recomandă analizarea corelaţiilor pentru a identifica variabilele care nu sunt corelate cu celelalte (şi care pot fi eventual omise din analiză, dacă nu se doreşte mai degrabă reducerea numărului de variabile decât analiza corelaţiilor). Se afişează şi tabelul cu testele amintite mai sus, asociate existenţei multicoliniarităţii: Tabelul valorilor proprii (eigenvalues) conţine, pe lângă valoarea efectivă, calculul necesar identificării varianţelor explicate de componentele respective. Suma celor p valori proprii este egală cu p (numărul de variabile). Proporţia de varianţă explicată de o componentă este prin urmare raportul dintre valoarea proprie respectivă

124 şi p (reamintind că fiecare valoare proprie reprezintă partea de varianţă explicată, captată de componenta respectivă): Component Initial Eigenvalues % of Cumulative Total Variance % E E Extraction Method: Principal Component Analysis. Se observă că din ultima coloană se citeşte direct cât din varianţa totală se explică prin reţinerea unui număr de componente. Pentru ajutor în stabilirea numărul de componente se poate cere afişarea diagramei valorilor (diagrama dată de exemplu conduce la reţinerea a două sau trei componente, decizia finală fiind influenţată şi de proporţia cumulată a varianţei explicate): 3.5 Scree Plot Eigenvalue Component Number Tabloul Component Matrix, esenţial în analiză, conţine încărcările factorilor, factor loadings. Matricea este referită şi prin loading matrix sau factor pattern matrix. Elementele matricei, încărcările, sunt corelaţiile dintre componente (coloane) şi variabilele iniţiale (linii). Datorită proprietăţilor componentelor (sunt ortogonale), încărcările au şi interpretarea de coeficienţi standardizaţi din regresia multiplă, cu alte cuvinte arată cu câte abateri standard s X se modifică X dacă factorul respectiv se modifică cu o abatere standard s F. COLOR AROMA REPUTAT TASTE COST ALCOHOL SIZE Component Matrix a Component Extraction Method: Principal Component Analysis. a. components extracted. Structura mai utilă pentru interpretare este, totuşi, cea obţinută după rotirea factorilor, care oferă o "viziune" mai bună. Matricea de încărcare este afişată şi după ce s-au rotit factorii, interpretarea fiind cea dată mai sus.

125 Rotated Component Matrix a TASTE AROMA COLOR SIZE ALCOHOL COST REPUTAT Component E E-0 7.E E Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations. Se observă că sunt evidenţiate mai bine diferenţele de încărcare ale factorilor. Observaţie. Încărcările factorilor constituie baza denumirii factorilor, problemă importantă în analiza factorială. Un factor, ca variabilă latentă, ar trebui să poarte un nume pentru a fi înţeles, utilizat, referit etc. Structura de încărcare a unui factor poate oferi sugestii în acest sens, încărcările mai mari ca 0,6 sunt considerate ca importante, cele sub 0,4 sunt scăzute. Variabilele cu încărcări mari constituie combinaţia de variabile iniţiale care determină factorul, deci şi denumirea lui (creată evident de specialiştii din domeniu, nu de statistician). Dacă s-a cerut o rotaţie a factorilor, SPSS afişează şi varianţa explicată de fiecare componentă după rotaţie. Varianţa explicată este egală cu suma încărcărilor la pătrat. Acest tabel ajută să se decidă câte componente ar trebui reţinute, suma pătratelor încărcărilor (SSL, sum of squared loadings) după rotaţie este oarecum similară unei valori proprii. Se pot, drept urmare, păstra acele componente cu SSL post-rotaţie mai mari ca 1. Încărcările post-rotaţie arată cum sunt definite componentele. Dacă o singură variabilă are o încărcare mare la o componentă, componenta nu este bine definită. Dacă doar două variabile au încărcări puternice cu o componentă, componenta este corectă dacă variabilele sunt corelate între ele dar nu sunt corelate cu celelalte variabile. Se numeşte comunalitate (communality) proporţia explicată de factori din varianţa unei variabilei. Deoarece încărcările sunt corelaţiile dintre variabile şi componente şi cum componentele sunt ortogonale, comunalitatea unei variabile reprezintă coeficientul de determinare, R, dacă variabila este prognozată de componente. Se poate calcula comunalitatea unei variabile ca suma pătratelor încărcărilor după factori. Comunalităţile iniţiale sunt 1 fiind calculate înainte de reducerea dimensiunii.

126 C. Lucrarea practică 1) Un studiu din 1979 a urmărit în diferite ţări europene modul de încadrare a forţei de muncă în diferite ramuri industriale. Datele sunt sub formă de procentaje şi se găsesc în fişierul Variabilele sunt Country numele ţării, Agr procentajul de muncitori din agrucultură, Min procentajul de muncitori din minerit, Man procentajul de muncitori din industria prelucrătoare, PS procentajul de muncitori din industria energetică, Con procentajul de muncitori din construcţii, SI procentajul de muncitori din servicii, Fin procentajul de muncitori din finanţe, SPS procentajul de muncitori din servicii sociale, TC procentajul de muncitori din transporturi şi comunicaţii. a) Să se realizeze o analiză în componente principale. b) Să se deducă grupurile principale de state omogene ca structură a muncii. ) Datele necesare acestul exerciţiu sunt la adresa web Datele au fost utilizate şi în lucrarea 8 în scopul prognozei preţului de vânzare a unei case din regiunea Boston în funcţie de caracteristici diverse ale locuinţei şi ale localizării ei. Reamintim că variabilele sunt, în ordine, CRIM rata criminalităţii, ZN proporţia teritoriului zonat în loturi de peste 5,000 sq.ft., INDUS proporţia terirorială a zonei industriale, CHAS indicator de învecinare cu râul din zonă (= 1 da, 0 nu), NOX concentraţia de oxizi nitrici, RM numărul mediu de camere, AGE proporţia de locuinţe construite înainte de 1940 şi ocupate de proprietar, DIS distanţa ponderată la cinci centre productive din Boston, RAD indicele de accesibilitate la reţeaua de autostrăzi, TAX rata de impozit (procent la 10000$), PTRATIO raportul copii-profesori în zonă, B 1000(Bk 0.63) unde Bk este procentajul populaţiei de culoare în zonă, LSTAT procentajul populaţiei sărace, MEDV valoarea medie a caselor (în mii de dolari). a) Să se realizeze o analiză în componente principale a variabilelor dintre care s-au exclus CHAS şi MEDV. b) Să se analizeze dacă apar diferenţe în rezultate atunci când se consideră separat grupurile definite de CHAS.

127 Statistică multivariată Lucrarea nr. 1 Clasificare - SPSS A. Noţiuni teoretice Clasificare Prin clasificare se înţelege gruparea unor entităţi (observaţii, obiecte etc.) în clase (grupuri) de entităţi similare. Atunci când gruparea este efectuată manual, cel care o efectuează operează cu judecăţi de similaritate, asemănare, apropiere. Acest tip de raţionament este formalizat şi în metodele automate. Există, în esenţă, două tipuri de clasificare automată: 1. predictivă, de exemplu analiza discriminantă; se asignează o observaţie la un grup pornind de la reguli de clasificare derivate din observaţii clasificate în prealabil. Se poate ca schema de clasificare existentă să fie subiectivă, neutilizabilă efectiv, astfel încât metoda descoperă aspectele esenţiale ale schemei şi le transformă în reguli practice.. descriptivă, de exemplu analiza cluster; se grupează obiectele pe baza similarităţii lor, nu este cunoscută o grupare prealabilă. Clasificare predictivă Considerăm cazul a două populaţii multivariate, Π 1 şi Π, fiecare caracterizată de repartiţiile diferitelor variabile măsurate. Problema clasificării revine la a stabili populaţia la care aparţine o observaţie u (caracterizată de valorile variabilelor considerate). Notând cu S spaţiul de eşantionare (care cuprinde observaţii din Π 1 şi din Π ), o regulă de clasificare revine la a partiţiona S în A 1 şi A, astfel încât pentru o observaţie u se poate dezvolta o procedură care decide dacă u A 1, atunci u Π 1 dacă u A, atunci u Π Clasificare predictivă - Fisher Regula de clasificare a lui Fisher este bazată pe maximizarea separaţiei dintre cele două populaţii, în spiritul analizei varianţei. Presupunem că populaţiile univariate au, respectiv, mediile µ 1, µ şi dispersia comună σ. Este evident (intuitiv) că o observaţie u va fi clasată în Π 1 dacă u este mai apropiată de µ 1 şi în Π daca este mai apropiată de µ. In cazul a două populaţii m-dimensionale, ideea lui Fisher a fost să transforme observaţia multidimensională u într-o observaţie univariată y = a'u. Problema devine atunci aceea de a determina combinaţia liniară, definită de vectorul a, astfel încât cele două populaţii să fie separate (diferenţiate) cât mai mult posibil. Se ajunge astfel, în cazul general, la problema studiată în analiza discriminantă. Această analiză oferă ca rezultat şi funcţiile de clasificare: Fiecare subpopulaţie, Π i, are asociată o funcţie de clasificare f i astfel încât observaţia u este clasată în populaţia Π j determinată prin f ( u) = max f ( u) j i i

128 Definim centrul unei clase (sau centroidul clasei) în mod uzual, ca punctul având drept componente mediile aritmetice ale componentelor corespunzătoare din punctele clasei. Funcţiile de clasificare sunt estimate pe baza distanţelor dintre o observaţie (valorile celor m variabile determină un punct în spaţiul R m ) şi punctele centrale, centroizii claselor. Distanţele se pot calcula ca distanţe euclidiene, dar, din păcate distanţa euclidiană nu reflectă proprietăţile distribuţionale ale variabilelor: variabile măsurate pe scale diferite, de ordine de mărime diferite, pot afecta foarte mult distanţele euclidiene. Componentele cu variabilitate mare ar trebui să contribuie cu ponderi mai mici decât cele cu variabilitate mică. Pentru a considera şi distribuţiile variabilelor au fost definite distanţe noi, cea mai utilizată fiind distanţa Mahalanobis: dacă Σ este matricea de covarianţă a celor m variabile, adică Σ = cov(x)=exp[(x-exp(x))(x-exp(x)) ] atunci distanţa Mahalanobis între punctele x = (x 1,, x m ) şi y = (y 1,, y m ), este definită prin d Σ( x,y) = (x y) Σ (x y) şi, corespunzător, se defineşte norma unui vector prin x Σ 1 1 = d ( x,0) = x'σ x. Σ Clasificare predictivă k vecini Considerăm situaţia clasificării propriu-zise, adică sunt cunoscute n obiecte prin atributele lor, inclusiv apartenenţa la clasele π 1, π,, π k, şi se doreşte clasarea unei noi observaţii. Un algoritm suficient de des utilizat este acela denumit al celor k vecini (k - nearest neighbours). 1. Se determină k obiecte cele mai apropiate de noua observaţie.. Aceste k obiecte stabilesc clasa noului obiect prin Vot majoritar noul obiect este clasat în clasa la care aparţin cei mai mulţi dintre cei k vecini (care dispun fiecare de un vot întreg). Vot invers proporţional distanţei similar votului majoritar, dar fiecare dintre cei k vecini apropiaţi dispune de o fracţiune de vot, egală cu inversul distanţei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie). Clasificare descriptivă In analiza multivariată, clasificarea descriptivă (cluster analysis) se referă la metodele utilizate pentru a identifica într-o mulţime de obiecte grupurile de obiecte similare. Cazurile de aplicare ale acestor metode sunt similare celor în care se utilizează analiza factorială. Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaţii, obiecte, coloanele sunt variabile, atribute). In plus, datele sunt omogene în sensul că are sens calculul distanţelor dintre elemente există suficient de multe date încât simpla inspecţie vizuală sau prelucrările statistice elementare nu oferă o imagine satisfăcătoare a structurii datelor tabloul de date este amorf: nu există o structurare a priori (dependenţe funcţionale, relaţii, clasificări cunoscute).

129 De remarcat că ultima caracteristică este cea care ne depărtează de descrierea predictivă (unde se presupunea existenţa unei structurări necesare în etapa de training). Drept rezultat al clasificării descriptive se obţin grupurile de elemente, clasele identificate. Deoarece se pot aplica pe aceleaşi structuri de date, metodele clasificării descriptive sunt complementare metodelor analizei factoriale. De regulă, atunci când se utilizează împreună, analiza factorială este efectuată mai întâi, clasele evidenţiate de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptivă. Metodele de clasificare sunt de natură mai degrabă algoritmică: clasele apar ca urmare a unei suite de operaţii efectuate recursiv sau repetitiv; matematica implicată este relativ elementară. Numim clasă (grup, cluster) o mulţime de obiecte (elemente) similare între ele şi nesimilare obiectelor din alte clase. Un cluster poate fi gândit (reprezentările grafice reflectă aceste interpretări) Ca o mulţime de puncte care sunt apropiate (la distanţe mici) între ele şi depărtate de punctele din alte clase, sau Ca o regiune conexă dintr-un spaţiu multidimensional care are o densitate mare (relativ) de puncte, clusterele fiind separate între ele de regiuni cu o densitate scăzută (relativ) de puncte. Rezultă că problema esenţială în determinarea (identificarea) clusterelor este cea a specificării proximităţii (apropierii, similarităţii) şi cum se determină aceasta. Este evident că proximitatea este o noţiune dependentă de problema reală cercetată. Structurile uzuale de date privind obiectele supuse analizei cluster sunt: Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin atributele lor n obiecte şi p atribute vor furniza o matrice de tip n p. Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile). Matricea de proximitate. Elementele d(i,j) reprezintă proximităţile dintre obiectele i şi j. Proximitatea poate fi o similaritate (asemănare), cum ar fi coeficientul de corelaţie, sau o disociere (depărtare, diferenţiere), cum ar fi distanţa euclidiană. Atunci când atributele sunt de tipuri diferite (atât discrete, cât şi continue), se poate calcula proximitatea dintre obiectele i şi j prin ( f ) unde δ este ponderea variabilei f ij d( i, j) = p ( f ) ( f ) δij dij f = 1 f ( f ) δij i= 1 [0,1] 0 pentru xif sau x jf lipsa ( f ) δ ij = 0 xif = x jf = 0 si f este asimetrica, binara 1 in rest ( f ) Menţionăm că d este contribuţia variabilei f la d(i,j) şi anume: ij - dacă f este binară sau nominală, atunci f ) 0 pentru xif = x d ij = 1 altfel (Hamming) - dacă f este continuă, atunci (normalizare prin amplitudine) x f if x ( ) jf dij = max x min x h hf h hf ( jf

130 - dacă f este ordinală, se atribuie rangul r if, se calculează rif 1 z = şi se if maxrhf 1 h consideră că f este continuă, având valorile z if. Există mai multe tipuri de algoritmi de clasificare: - Algoritmi ascendenţi (de agregare, de sinteză) clasele sunt construite prin agregarea succesivă a elementelor, se obţine astfel o ierarhie de partiţii, de clase. - Algoritmi descendenţi (de divizare) mulţimea obiectelor este divizată succesiv în submulţimi de obiecte din ce în ce mai omogene; se poate obţine şi aici o ierarhie a partiţiilor. - Algoritmi de partiţionare se pleacă de la o partiţie (structură de clase) care se modifică pentru a maximiza omogenitatea fiecărei clase. Primele două categorii pot fi reunite în clasificarea ierarhică (hierarchical cluster analysis). Clasificare descriptivă - agregare Algoritmul fundamental de clasificare ascendentă ierarhică este: 1. Etapa 0 există cele n elemente care se clasifică;. Etapa 1 se determină perechea de elemente cele mai apropiate între ele şi se produce, prin agregarea lor, un nou element; 3. Etapa există acum n-1 elemente care se clasifică; 4. Se repetă Etapa 1 şi Etapa până când mulţimea elementelor care se clasifică are un singur element. Clasificare descriptivă - divizare Metoda ierarhică descendentă constă în construirea ierarhiei în ordine inversă: 1. Se pleacă de la mulţimea totală a elementelor. La fiecare pas următor, cea mai mare (cea mai eterogenă) grupare este divizată în două subgrupări. 3. Algoritmul se opreşte atunci când toate grupurile constituite au câte un singur element. Pentru definirea grupului cel mai eterogen se utilizează diametrul grupului, definit ca distanţa maximă dintre două elemente din grup. Evident că se pot utiliza şi alte metode în acest scop. Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis): 1. Se determină obiectul cu cea mai mare distanţă medie faţă de celelalte obiecte (cea mai mare disociere). Este obiectul care iniţiază un nou cluster, S (splinter group).. Pentru fiecare obiect i din afara grupului S a. se calculează D = media d( i, j) media d( i, j) i j S j S b. Se determină un obiect h cu D h = max D i. c. Dacă D h este pozitiv, atunci obiectul h se adaugă grupului splinter (este mai apropiat, în medie, de elementele din S). d. Se repetă a) c) până ce D h este negativ. Mulţimea iniţială este acum divizată în două clustere.

131 3. Se selectează clusterul cu cel mai mare diametru. Acesta este divizat prin paşii Se repetă 3) până când toate grupurile constituite au un singur element. Există o diagramă sugestivă (diagramă steag) pentru un algoritm descendent, în care pe axa verticală sunt obiectele, pe axa orizontală se trec diametrele clusterelor. Clasificare descriptivă - partiţionare Metodele de partiţionare din analiza cluster au ca ideea esenţială aceea că se poate porni de la o partiţie oarecare a mulţimii de obiecte şi se poate ajunge, prin migrarea obiectelor între clase, la o partiţie care îndeplineşte un criteriu de optim. Partiţia finală constituie structura de clustere căutată. De reţinut, totuşi, faptul că nu există un criteriu de optim care să funcţioneze oricând şi pentru orice obiecte. Metodele de partiţionare sunt utile atunci când există un mare număr de obiecte, caz în care dendrogramele nu mai pot fi interpretate (câteva sute de obiecte produc o dendrogramă de neînţeles). Majoritatea metodelor au drept criteriu de optim obţinerea partiţiei care minimizează suma pătratelor erorilor (apare la distanţa Ward). Eroarea este distanţa de la un obiect la centrul clusterului său. Un algoritm general de partiţionare este: 1. Se selectează o partiţie iniţială cu k grupuri şi se calculează centrele clusterelor.. Se generează o nouă partiţie atribuind fiecare obiect la clusterul cu centrul cel mai apropiat. 3. Se calculează noile centre ale clusterelor. 4. Se repetă paşii -3 până se stabilizează clusterele sau nu se îmbunătăţeşte criteriul ales. 5. Se ajustează numărul de clustere prin reunirea sau divizarea unor clustere sau prin eliminarea clusterelor aberante (cu un număr mic de elemente). 6. Se repetă paşii -5 până se stabilizează clusterele sau nu se îmbunătăţeşte funcţia criteriu. Elementele importante ale algoritmului sunt comentate în continuare. Partiţia iniţială O partiţie iniţială se poate obţine selectând k obiecte, considerându-le centre şi grupând în jurul fiecăruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). Nu se recalculează centrele după fiecare clasificare a unui element. Centroizii fiecărui cluster astfel format constituie centrele pentru pasul următor.

132 Cele k obiecte iniţiale se pot alege aleatoriu sau după criterii oferite de o analiză prealabilă (clasificare ascendentă, analiză în componente principale etc.). Clusterele iniţiale pot fi date de o clasificare ascendentă, de exemplu. De reţinut, totuşi, că partiţii iniţiale diferite conduc la clustere finale diferite. Algoritmii care se bazează pe criteriul minimizării sumei de pătrate a erorilor conduc la atingerea unui optim local, cel puţin dacă grupurile nu sunt bine diferenţiate. Se poate depăşi acest neajuns repetând clasificarea cu partiţii iniţiale diferite. Dacă se ajunge la o aceeaşi partiţie, atunci se măreşte încrederea că s-a atins un optim global. In caz că nu, se pot analiza subgrupurile stabile (elemente care sunt mereu împreună), care pot oferi informaţii despre numărul de clustere. Actualizarea partiţiei Există mai multe moduri de abordare a pasului din metoda generală: Atribuirea fiecărui obiect la clusterul cu centrul cel mai apropiat. o Centrele se recalculează după fiecare atribuire, sau o Centrele se recalculează după ce au fost procesate toate obiectele. Atribuirea fiecărui obiect în fiecare cluster şi evaluarea funcţiei criteriu. Se reţine partiţia care reduce cel mai mult valoarea funcţiei criteriu. Se încearcă astfel evitarea unui optim local. Ajustarea partiţiei Se pot defini condiţii pentru reducerea, sau extinderea numărului de clustere. Se încearcă astfel atingerea unui număr natural de clustere, apropiat de gruparea reală, neinfluenţat de perturbaţii introduse în procesul de determinare a observaţiilor sau din alte cauze exterioare. Algoritmul cel mai cunoscut este, în acest sens, ISODATA (Ball & Hall, Jensen): Clusterele sunt comasate dacă au puţine elemente (sub un prag fixat) sau dacă distanţa dintre centrele lor este mică (sub un prag fixat). Un cluster este divizat dacă dispersia elementelor (după atributul cel mai dispersat) depăşeşte un prag fixat şi dacă există un număr suficient de elemente (de exemplu, de două ori mai multe decât numărul minim). Este de remarcat că existenţa valorilor aberante poate denatura procesul de clusterizare. Din acest motiv, anumiţi autori recomandă excluderea obiectelor aberante (şi chiar a celor din clusterele cu puţine elemente). Convergenţa Deşi nu se garantează atingerea unui optim global, algoritmul se opreşte atunci când funcţia criteriu nu mai poate fi îmbunătăţită, sau în anumite variante când partiţia nu se modifică în două iteraţii succesive. Demonstraţii matematice ale convergenţei au fost bazate fie pe formularea problemei ca o problemă de programare matematică, fie pe arătarea faptului că de la o iteraţie la alta se măreşte varianţa interclase şi se micşorează varianţa intraclase, ceea ce dată fiind finitudinea mulţimii de obiecte produce oprirea procesului. Clasificare descriptivă metode fuzzy In afară de metodele deterministe, au fost dezvoltate şi metode de clasificare fuzzy. Intr-o metodă fuzzy se obţin, pentru fiecare obiect, probabilităţile ca obiectul să aparţină la fiecare dintre clustere.

133 De exemplu, o metodă fuzzy, similară metodei de partiţionare, este metoda celor c medii (fuzzy c-means), bazată pe minimizarea funcţiei obiectiv J m = n c i= 1 j= 1 u m ij d ( x, c ) unde n - numărul de obiecte, c numărul de clustere, m R, m > 1 este parametru (uzual este ), c j, j = 1 c sunt centrele clusterelor, d este o distanţă de similaritate, u ij este gradul de apartenenţă al lui i la clusterul j. Rezultatul este conţinut în matricea de apartenenţă (u ij ) care oferă probabilităţile apartenenţei elementelor la clase. Partiţionarea fuzzy se realizează iterativ (optimizând implicit funcţia obiectiv) prin actualizarea la fiecare pas a matricei de apartenenţă (u ij ) şi a centrelor clusterelor (c j ) 1 uij = 1 c d ( x m i, c j ) 1 l= 1 d ( xi, cl ) c n i= 1 j = n u i= 1 m ij u x m ij i Procesul se opreşte atunci când matricea de apartenenţă se stabilizează: ( k + 1) ( k) max u u < ε unde ε (0, 1) are semnificaţia uzuală în procese iterative similare. i, j ij Distanţe între obiecte În continuare sunt prezentate metodele uzuale de calculare a distanţelor dintre obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distanţe modifică grupările care se constituie. Metoda celui mai apropiat vecin (nearest neighbor method) Distanţa dintre două grupuri este distanţa minimă dintre două elemente ale grupurilor (distanţa dintre cele mai apropiate elemente din clase diferite) d ( π, π ) = min d( x, ) 1 y x π y π În imaginea următoare se exemplifică, prin numerotarea 1 6 ordinea de atribuire a elementelor respective la grupurile figurate în extremităţi. Astfel, un lanţ de obiecte apropiate două câte două este atribuit, de regulă, la un singur grup, ceea ce nu produce o grupare acceptabilă. 1, ij i j

134 Metoda celui mai depărtat vecin (farthest neighbor method) Această metodă utilizează calcularea distanţei dintre două grupuri drept distanţa maximă dintre două elemente ale grupurilor (distanţa dintre cele mai depărtate elemente din clase diferite) d ( π, π ) = max d( x, ) 1 y x π y π Metoda are avantajul că nu aglomerează grupuri legate printr-un lanţ. În imaginea alăturată se poate vedea ordinea de atribuire 1 6 a elementelor corespunzătoare la cele două grupuri extreme. Gruparea obţinută corespunde mai bine şi grupării intuitive (efectuată de un operator uman). 1, Metoda legăturii medii Distanţa dintre două grupuri este distanţa medie dintre perechile de elemente ale grupurilor 1 d ( π1, π ) = d( x, y) n n 1 x π y π 1 Metoda distanţei centrelor (average group linkage) Se consideră, ca distanţă dintre două grupuri π 1 şi π, distanţa dintre centrele grupurilor d ( π1, π ) = d( Gπ, G ) 1 π unde centrele G π1 şi G π au drept componente mediile aritmetice ale componentelor elementelor din cele două grupuri, respectiv. De remarcat că centrul unui grup este dinamic, fiecare nou element putând produce deplasarea lui. Centrul unui grup format dintr-un singur element este chiar acel element. Metoda distanţei Ward (Ward's linkage) Distanţa Ward este bazată pe creşterea suma de pătrate a erorilor după contopirea grupurilor într-unul singur. Metoda Ward selectează grupările care minimizează creşterea sumei de pătrate a erorilor. SP( π ) = x xπ d ( π, π ) = SP( π π ) ( SP( π ) + SP( π )) 1 x π 1 1

135 Dendrograma Ca rezultat al algoritmului se obţine arborele de clasificare (dendrograma). Prin secţionarea orizontală a dendrogramei se obţine o partiţie a mulţimii elementelor clasificate. Componentele partiţiei sunt clasele căutate. În figura alăturată este prezentată o dendogramă. Pe axa orizontală sunt elementele iniţiale (ordinea este cea care permite desenarea arborelui). Pe axa verticală sunt distanţele dintre obiecte, de exemplu, între obiectele 4 şi 6 este o distanţă egală cu 4. Calitatea clasificării Deoarece într-o problemă de clusterizare nu se cunoaşte nimic a priori (numărul de clase în special), evaluarea calităţii partiţiei obţinute este o etapă foarte importantă. Evaluarea trebuie să ia în considerare atât faptul că, poate, mulţimea iniţială nu are o structură bine determinată de clase, cât şi faptul că diferite metode conduc la clase diferite. Procedurile uzuale de evaluare: Vizualizarea partiţiei (dendrograme, profiluri, proiecţii). Indicatori de calitate o Coeficienţii de divizare (divisive coefficient DC) şi de aglomerare (agglomerative coefficient AC) care oferă indicatori (medii) globali. o Indici de siluetă (Silhouette) care se pot defini atât global, cât şi local pentru fiecare cluster. Divisive Coefficient (DC): Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre diametrul ultimului cluster (în ordinea dată de algoritmul de divizare) la care a aparţinut obiectul înainte de a fi separat ca un singleton şi diametrul mulţimii totale de obiecte (clusterul iniţial). Atunci 1 DC = d( i) n Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendentă: Pentru fiecare obiect i, se calculează d(i) ca fiind raportul dintre disocierea primului cluster (în ordinea dată de algoritm) la care se ataşează obiectul şi diametrul mulţimii totale de obiecte (clusterul final). 1 AC = ) n [ 1 d( i ]

136 AC tinde să crească o dată cu numărul de obiecte. Silueta se calculează (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a unui cluster, silueta medie globală. Acest indice vrea să reprezinte cât de bine este separat un cluster de vecinii săi (deci cât de apropiate sunt elementele dintr-un cluster distanţa intra-cluster şi cât de depărtate sunt de celelalte clustere distanţa interclustere). Prin calculul siluetei se poate decide asupra validităţii unui cluster, ca şi asupra numărului corect de clustere. Notând cu S (i) silueta obiectului i, formula de calcul este bi ai S( i) = max{ ai, bi } unde a i disocierea medie a obiectului i faţă de restul obiectelor din acelaşi cluster; b i disocierea medie a obiectului i faţă de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i). Dacă obiectul i este singurul element al unui cluster, atunci S (i) = 0. Rezultă că -1 S (i) 1 şi S (i) poate fi considerat ca un indice adimensional, cu putere de comparare. Interpretarea este Dacă S (i) este apropiat de 1, atunci obiectul este bine clasificat (este asociat cu clusterul adecvat). Dacă S (i) este aproape nul, atunci obiectul poate fi clasificat şi în următorul cluster apropiat (obiectul este situat similar în raport cu ambele clustere) Dacă S (i) este apropiat de 1, atunci obiectul este clasificat eronat (el este separat faţă de celelalte clustere). Fiecare cluster este caracterizat de silueta medie, obţinută ca media siluetelor elementelor din cluster. Intreaga structură de clustere este caracterizată de silueta medie globală, obţinută ca media siluetelor S(i) după toate obiectele i. Dacă structura conţine un număr k de clustere, se notează silueta medie globală cu S k. Silueta medie globală se poate utiliza pentru a decide asupra celui mai bun număr de clustere: se va alege acel k pentru care S k este maxim. Se introduce coeficientul siluetă prin SC = max S Este propusă (Rousseeuw ) următoarea interpretare a coeficientului siluetă după valoarea sa: s-a determinat o structură puternică (bine definită) de clustere; s-a determinat o structură acceptabilă structura determinată este slabă, poate fi artificială 0.5 structura determinată este artificială. k k B. Instrumente SPSS Procedurile care rezolvă probleme de clasificare sunt grupate în Analyze Classify. Dintre ele se prezintă în continuare K-Means Cluster care urmăreşte metoda generală prezentată în curs şi Hierarchical Cluster pentru clasificarea ierarhică. De menţionat că deşi algoritmul K-Means este cel mai direct şi mai eficient ca volum de

137 calcule, el utilizează distanţa euclidiană iar standardizarea prealabilă a variabilelor este importantă. Pentru considerarea altor distanţe se va apela procedura Hierarchical Cluster. K-Means Cluster Algoritmul constă în fixarea iniţială aleatorie a centrelor claselor (numărul de clase este cunoscut) şi apoi se repetă etapele: atribuirea fiecărui caz la centrul cel mai apropiat, actualizarea centrelor ca valori medii ale elementelor aparţinând clasei respective. Ca interpretare se poate considera că centrul unei clase finale reflectă caracteristicile unui element tipic al clasei prin valorile variabilelor în acel centru. Prin Analize Classify K-Means Cluster se deschide dialogul În lista Variables se vor trece variabilele în funcţie de care se face clasificarea. Se poate utiliza o variabilă pentru etichetarea cazurilor prin specificarea ei în Label Cases by. Numărul de clustere se poate fixa în Number of Clusters. O ghicire a numărului de clustere poate fi obţinută aplicând în prealabil ACP şi studiind diagramele proiecţiilor pe planele factoriale. Ca metodă se poate alege Iterate and classify pentru a realiza o adaptare iterativă a clasificării cazurilor prin recalcularea centrelor după fiecare iteraţie. Dacă se doreşte utilizarea rezultatelor şi pentru clasificarea altor cazurii, informaţiile se vor salva într-un fişier prin selectarea opţiunii Write final as din grupul Cluster Centers. Classify only pentru realizarea clasificării cazurilor atunci când se citesc dintr-un fişier centrele claselor, calculate în prealabil şi salvate. În acest caz se va selecta, din zona Cluster Centers, Read initial from şi se va preciza File, fişierul salvat într-o prelucrare anterioară. Prin acţionarea butonului Iterate din dialogul principal, buton permis doar pentru metoda Iterate and classify, se deschide dialogul sinonim. În Maximum Iterations se fixează limita numărului de iteraţii, cel mult 999. Valoarea dată în Convergence Criterion reprezintă o proporţie p din distanţa minimă dintre centrele iniţiale, deci poate fi între 0 şi 1. Procesul iterativ se opreşte dacă niciun centru recalculat nu este deplasat cu mai mult de 100p% din distanţa minimă dintre centrele iniţiale iteraţiei. Prin selectarea opţiunii Use running means se cere recalcularea centrelor la fiecare clasare a unui caz şi nu după clasarea tuturor cazurilor. Acţionarea butonului Save din dialogul principal deschide dialogul prin care se poate cere salvarea unor

138 informaţii ca noi variabile. Cluster membership se salvează ca valori 1 k apartenenţa la clusterele finale. Distance from cluster center salvează distanţa euclidiană dintre caz şi centrul clasei la care aparţine. Prin dialogul Options, afişat la acţionarea butonului Options din dialogul principal, se pot preciza statisticile calculate şi modul de tratare a datelor lipsă. În grupul Statistics: Initial cluster centers prima estimare a centrelor, obţinută prin alegerea unui număr de cazuri egal cu numărul de clustere. ANOVA table se afişează tabelul ANOVA pentru fiecare variabilă, considerând clusterele drept factor. Valorile F mari vor arăta variabilele care contribuie cel mai mult la structura clusterelor. Cluster information for each case afişează asignările finale la clase, distanţa la centrul clasei ca şi distanţele euclidiene dintre centrele finale. Rezultatele SPSS în cazul K-Means Cluster Ieşirea depinde de opţiunile selectate în dialogurile procedurii, tabelele listate în cazul (aproape) complet sunt prezentate în continuare. S-a realizat o clasificare ilustrativă utilizând fişierul SPSS de test Employee Data. Centrele iniţiale ale claselor sunt alese aleatoriu, atâtea câte clustere sunt indicate în dialogul principal. Se prezintă coordonatele centrelor în spaţiul variabilelor. Modificările survenite în timpul procesului iterativ sunt sistematizate în tabloul următor, prezentându-se modificările apărute în coordonatele centrelor. Centrele claselor finale sunt afişate într-un tabel similar celui care arată centrele iniţiale: O verificare mai mult orientativă asupra separării clusterelor după fiecare variabilă considerată este conţinută în tabelul ANOVA: Cum însăşi procesul de clasificare urmăreşte o cât mai bună diferenţiere a clusterelor, toate testele F duc la respingerea ipotezei de egalitate a mediilor

139 clusterelor. Se poate însă interpreta comparativ valoarea statisticii F în sensul că variabilele care au asociate valori mai mari asigură o diferenţiere mai pronunţată. Un tabel final arată câte elemente sunt clasificate în fiecare cluster. Apartenenţa observaţiilor (cazurilor) la clustere şi distanţa până la centrul clasei sunt create ca noi variabile cu denumiri implicite, după modelul Informaţiile salvate pot fi utilizate, în afara scopului propus de a cunoaşte unde aparţine fiecare observaţie, şi pentru ilustrarea clasificării prin diagrama de forma următoare, în care se poate observa modul de diferenţiere a claselor după diverse variabile (comanda a fost Graph - Scatter - Simple Scatter şi s-a precizat noua variabilă Cluster Number în Set Markers by). Hierarchical Cluster Algoritmul pleacă de la clustere conţinând un singur element (cazurile) şi reuneşte clustere până când se obţine un singur cluster. Se pot selecta mai multe distanţe, se afişează statistici la fiecare pas pentru a ajuta la selectarea numărului optim de clustere. Comanda este Analyze Classify Hierarchical Cluster care produce afişarea dialogului principal.

140 Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opţiunii selectate în grupul Cluster. Variabilele reprezentând caracteristicile după care are loc clasificarea sau care se clasifică se trec în lista Variables şi se poate alege o variabilă de etichetare a cazurilor (la clasificarea cazurilor) utilă în reprezentările grafice. Grupul Display controlează ce se afişează, deci accesibilitatea la butoanele Statistics, Plots. Dialogurile secundare sunt explicate în continuare. Statistics Agglomeration schedule se afişează combinaţiile din fiecare iteraţie, distanţe etc. Proximity matrix se afişează distanţele sau similarităţile dintre elemente. Cluster Membership produce afişarea apartenenţei la clustere în una sau mai multe iteraţii. Plots Diagramele de aglomerare sunt disponibile în formatul Dendrogram (dendrograma explicată in curs, orientată spre vizualizarea clusterelor) sau Icicle (similară diagramei steag, orientată spre vizualizarea cazurilor). Orientarea diagramei poate fi verticală sau orizontală. În reprezentarea dendrogramei, distanţele dintre elementele care se unesc sunt transformate pe o scală 0 5, cu păstrarea raportului distanţelor. Method În lista Cluster Method se poate alege una dintre metodele explicate în curs ca metode de agregare, de calculare a distanţelor dintre clustere: cel mai apropiat vecin (nearest neighbor), cel mai depărtat vecin (furthest neighbor), distanţa faţă de centru (centroid clustering), Ward etc. În grupul Measure se poate specifica distanţa sau similaritatea utilizată în grupare potrivit tipului de date: Interval pentru datele continue sunt disponibile distanţele: euclidiană, cosinus (cosinusul unghiului dintre vectorii punctelor), corelaţia Pearson, Chebychev (diferenţa absolută maximă dintre valorile elementelor), block (suma diferenţelor absolute dintre componente, distanţa Manhattan), Minkowski (rădăcina de ordin p din suma diferenţelor absolute la puterea p), Customized (similară cu distanţa Minkowski, dar rădăcina poate fi de ordin r diferit de puterea p a diferenţelor de coordonate) Count pentru frecvenţe (de date discrete) sunt disponibile măsurile de disociere χ şi φ (a se vedea secţiunea privind asocierea datelor nominale).

141 Binary pentru datele dihotomice există o mulţime de distanţe propuse, bazate pe tabelul de frecvenţe încrucişate a celor două variabile. Se pot preciza valorile interpretate ca 0 sau 1. În grupurile Transform Values şi Transform Measures se pot selecta metode de transformare prealabilă a valorilor astfel încât variabilele să fie cât mai omogen măsurate. Save Se poate salva, sau nu, ca variabile noi, apartenenţa la clustere. Selectarea opţiunii Single solution şi precizarea numărului de clustere considerat ca soluţie finală va salva apartenenţa la acel stadiu. Dacă se selectează Range of solutions, se va salva apartenenţa la fiecare stadiu dintre cele menţionate. C. Lucrarea practică 1) Setul de date aflat la adresa conţine consumul de proteine în 5 de ţări europene. Datele se referă la anul Sunt măsurate următoarele variabile: Country - numele ţării, RdMeat - carne roşie, WhMeat - carne albă, Eggs - ouă, Milk - lapte, Fish - peşte, Cereal - cereale, Starch - grăsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale. a) să se realizeze o analiză factorială pentru a stabili numărul de clase în care pot fi grupate cele 5 de ţări b) să se realizeze o clasificare a celor 5 de ţări; să se studieze concordanţa cu situaţia observată la punctul a). ) Datele acestei probleme sunt cele prelucrate şi în lucrarea numărul 11, Reamintim variabilele: Country numele ţării, Agr procentajul de muncitori din agrucultură, Min procentajul de muncitori din minerit, Man procentajul de muncitori din industria prelucrătoare, PS procentajul de muncitori din industria energetică, Con procentajul de muncitori din construcţii, SI procentajul de muncitori din servicii, Fin procentajul de muncitori din finanţe, SPS procentajul de muncitori din servicii sociale, TC procentajul de muncitori din transporturi şi comunicaţii. a) să se aplice un algoritm de clasificare ierarhică b) să se aplice algoritmul k-means pentru k = 4; să se compare cu rezultatul clasificării realizate la a).

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice "Îmbunătăţirea proceselor şi activităţilor educaţionale în cadrul programelor de licenţă şi masterat în domeniul

More information

Modalitǎţi de clasificare a datelor cantitative

Modalitǎţi de clasificare a datelor cantitative Modalitǎţi de clasificare a datelor cantitative Modul de stabilire a claselor determinarea pragurilor minime şi maxime ale fiecǎrei clase - determinǎ modul în care sunt atribuite valorile fiecǎrei clase

More information

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin Structura și Organizarea Calculatoarelor Titular: BĂRBULESCU Lucian-Florentin Chapter 3 ADUNAREA ȘI SCĂDEREA NUMERELOR BINARE CU SEMN CONȚINUT Adunarea FXP în cod direct Sumator FXP în cod direct Scăderea

More information

Subiecte Clasa a VI-a

Subiecte Clasa a VI-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul numarului intrebarii

More information

Procesarea Imaginilor

Procesarea Imaginilor Procesarea Imaginilor Curs 11 Extragerea informańiei 3D prin stereoviziune Principiile Stereoviziunii Pentru observarea lumii reale avem nevoie de informańie 3D Într-o imagine avem doar două dimensiuni

More information

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban Reflexia şi refracţia luminii. Aplicaţii. Sumar 1. Indicele de refracţie al unui mediu 2. Reflexia şi refracţia luminii. Legi. 3. Reflexia totală 4. Oglinda plană 5. Reflexia şi refracţia luminii în natură

More information

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC)

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) Semnale şi sisteme Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) http://shannon.etc.upt.ro/teaching/ssist/ 1 OBIECTIVELE CURSULUI Disciplina îşi propune să familiarizeze

More information

Metrici LPR interfatare cu Barix Barionet 50 -

Metrici LPR interfatare cu Barix Barionet 50 - Metrici LPR interfatare cu Barix Barionet 50 - Barionet 50 este un lan controller produs de Barix, care poate fi folosit in combinatie cu Metrici LPR, pentru a deschide bariera atunci cand un numar de

More information

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962)

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962) ARBORI AVL (denumiti dupa Adelson-Velskii si Landis, 1962) Georgy Maximovich Adelson-Velsky (Russian: Гео ргий Макси мович Адельсо н- Ве льский; name is sometimes transliterated as Georgii Adelson-Velskii)

More information

GHID DE TERMENI MEDIA

GHID DE TERMENI MEDIA GHID DE TERMENI MEDIA Definitii si explicatii 1. Target Group si Universe Target Group - grupul demografic care a fost identificat ca fiind grupul cheie de consumatori ai unui brand. Toate activitatile

More information

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND Textul si imaginile din acest document sunt licentiate Attribution-NonCommercial-NoDerivs CC BY-NC-ND Codul sursa din acest document este licentiat Public-Domain Esti liber sa distribui acest document

More information

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm Preparatory Problems 1Se dau punctele coliniare A, B, C, D în această ordine aî AB 4 cm, AC cm, BD 15cm a) calculați lungimile segmentelor BC, CD, AD b) determinați distanța dintre mijloacele segmentelor

More information

Testul t pentru eşantioane independente. M. Popa

Testul t pentru eşantioane independente. M. Popa Testul t pentru eşantioane independente M. Popa Model de cercetare inter-subiecți testarea diferenței dintre două eşantioane de subiecți diferența asuării riscului între bărbați şi feei diferența dintre

More information

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N Pentru a putea vizualiza imaginile unei camere web IP conectată într-un router ZTE H218N sau H298N, este necesară activarea serviciului Dinamic DNS oferit de RCS&RDS, precum și efectuarea unor setări pe

More information

ISBN-13:

ISBN-13: Regresii liniare 2.Liniarizarea expresiilor neliniare (Steven C. Chapra, Applied Numerical Methods with MATLAB for Engineers and Scientists, 3rd ed, ISBN-13:978-0-07-340110-2 ) Există cazuri în care aproximarea

More information

Auditul financiar la IMM-uri: de la limitare la oportunitate

Auditul financiar la IMM-uri: de la limitare la oportunitate Auditul financiar la IMM-uri: de la limitare la oportunitate 3 noiembrie 2017 Clemente Kiss KPMG in Romania Agenda Ce este un audit la un IMM? Comparatie: audit/revizuire/compilare Diferente: audit/revizuire/compilare

More information

Reţele Neuronale Artificiale în MATLAB

Reţele Neuronale Artificiale în MATLAB Reţele Neuronale Artificiale în MATLAB Programul MATLAB dispune de o colecţie de funcţii şi interfeţe grafice, destinate lucrului cu Reţele Neuronale Artificiale, grupate sub numele de Neural Network Toolbox.

More information

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila MS POWER POINT s.l.dr.ing.ciprian-bogdan Chirila chirila@cs.upt.ro http://www.cs.upt.ro/~chirila Pornire PowerPoint Pentru accesarea programului PowerPoint se parcurg următorii paşi: Clic pe butonul de

More information

Versionare - GIT ALIN ZAMFIROIU

Versionare - GIT ALIN ZAMFIROIU Versionare - GIT ALIN ZAMFIROIU Controlul versiunilor - necesitate Caracterul colaborativ al proiectelor; Backup pentru codul scris Istoricul modificarilor Terminologie și concepte VCS Version Control

More information

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC Anul II Nr. 7 aprilie 2013 ISSN 2285 6560 Referent ştiinţific Lector univ. dr. Claudiu Ionuţ Popîrlan Facultatea de Ştiinţe Exacte Universitatea din

More information

Laborator 2 - Statistică descriptivă

Laborator 2 - Statistică descriptivă Laborator 2 - Statistică descriptivă Statistica descriptivă are rolul de a descrie trăsăturile principale ale unor eşantioane şi constă în determinarea unor măsuri simple şi analize grafice ale datelor

More information

Biostatistica. Statistica aplicata in domeniul medicinei si biologiei

Biostatistica. Statistica aplicata in domeniul medicinei si biologiei Biostatistica Statistica aplicata in domeniul medicinei si biologiei Date contact &... Email: cniculae@gmail.com WWW: www.cnic.ro/biostat/ Glosar statistica R Programming for Bioinformatics Carte: Bernard

More information

CONSISTENŢA INTERNĂ A UNUI INSTRUMENT. O DECIZIE DIFICILĂ.

CONSISTENŢA INTERNĂ A UNUI INSTRUMENT. O DECIZIE DIFICILĂ. CONSISTENŢA INTERNĂ A UNUI INSTRUMENT. O DECIZIE DIFICILĂ. George Marian URSACHI Universitatea Alexandru Ioan Cuza din Iaşi Iaşi, România ursachi83@yahoo.com Ioana Alexandra URSACHI căs. HORODNIC Universitatea

More information

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive.

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive. . egimul de curent continuu de funcţionare al sistemelor electronice În acest regim de funcţionare, valorile mărimilor electrice ale sistemului electronic sunt constante în timp. Aşadar, funcţionarea sistemului

More information

Metoda BACKTRACKING. prof. Jiduc Gabriel

Metoda BACKTRACKING. prof. Jiduc Gabriel Metoda BACKTRACKING prof. Jiduc Gabriel Un algoritm backtracking este un algoritm de căutare sistematică și exhausivă a tuturor soluțiilor posibile, dintre care se poate alege apoi soluția optimă. Problemele

More information

Statistică descriptivă Calculul parametrilor. Călinici Tudor 2015

Statistică descriptivă Calculul parametrilor. Călinici Tudor 2015 Statistică descriptivă Calculul parametrilor Călinici Tudor 2015 Obiective educaționale Definirea și calculul valorii prevalenței, sensibilității, specificității, valorii predictive pozitive, valorii predictive

More information

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M )

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M ) FLEXIMARK FCC din oțel inoxidabil este un sistem de marcare personalizată în relief pentru cabluri și componente, pentru medii dure, fiind rezistent la acizi și la coroziune. Informații Included in FLEXIMARK

More information

Propuneri pentru teme de licență

Propuneri pentru teme de licență Propuneri pentru teme de licență Departament Automatizări Eaton România Instalație de pompare cu rotire în funcție de timpul de funcționare Tablou electric cu 1 pompă pilot + 3 pompe mari, cu rotirea lor

More information

Utilizarea metodelor statistice în evaluarea riscului financiar

Utilizarea metodelor statistice în evaluarea riscului financiar Utilizarea metodelor statistice în evaluarea riscului financiar Conf. univ. dr. Emanuela IONESCU Asistent univ. dr. Amelia DIACONU Asistent univ. dr. Alina GHEORGHE Universitatea Artifex din Bucureşti

More information

Lucrarea de laborator nr. 4

Lucrarea de laborator nr. 4 Metode merice - Lucrarea de laborator 4 Lucrarea de laborator nr. 4 I. Scopul lucrării Elemente de programare în MAPLE II. III. Conţinutul lucrării 1. Atribuirea. Decizia. Structuri repetitive. 2. Proceduri

More information

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii www.pwc.com/ro Aspecte controversate în Procedura Insolvenţei şi posibile soluţii 1 Perioada de observaţie - Vânzarea de stocuri aduse în garanţie, în cursul normal al activității - Tratamentul leasingului

More information

Nume şi Apelativ prenume Adresa Număr telefon Tip cont Dobânda Monetar iniţial final

Nume şi Apelativ prenume Adresa Număr telefon  Tip cont Dobânda Monetar iniţial final Enunt si descriere aplicatie. Se presupune ca o organizatie (firma, banca, etc.) trebuie sa trimita scrisori prin posta unui numar (n=500, 900,...) foarte mare de clienti pe care sa -i informeze cu diverse

More information

Olimpiad«Estonia, 2003

Olimpiad«Estonia, 2003 Problema s«pt«m nii 128 a) Dintr-o tabl«p«trat«(2n + 1) (2n + 1) se ndep«rteaz«p«tr«telul din centru. Pentru ce valori ale lui n se poate pava suprafata r«mas«cu dale L precum cele din figura de mai jos?

More information

Laborator 2. Definirea tablourilor şi a funcţiilor (în linia de comandă) în Matlab 7.0

Laborator 2. Definirea tablourilor şi a funcţiilor (în linia de comandă) în Matlab 7.0 Laborator Definirea tablourilor şi a funcţiilor (în linia de comandă) în Matlab 70 Bibliografie 1 NH Bingham, John M Fry, Regression Linear Models in Statistics, Springer, New York, 010 M Ghinea, V Fireţeanu,

More information

F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5.

F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5. Capitolul 8 Data mining date corelate Reprezentarea datelor Vom continua să considerăm modelul de date coşuri de produse şi vom vizualiza datele ca o matrice booleană unde: linii=coşuri şi coloane=articole.

More information

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET CAIETUL DE SARCINI Organizare evenimente VS/2014/0442 Euro network supporting innovation for green jobs GREENET Str. Dem. I. Dobrescu, nr. 2-4, Sector 1, CAIET DE SARCINI Obiectul licitaţiei: Kick off,

More information

R O M Â N I A CURTEA CONSTITUŢIONALĂ

R O M Â N I A CURTEA CONSTITUŢIONALĂ R O M Â N I A CURTEA CONSTITUŢIONALĂ Palatul Parlamentului Calea 13 Septembrie nr. 2, Intrarea B1, Sectorul 5, 050725 Bucureşti, România Telefon: (+40-21) 312 34 84; 335 62 09 Fax: (+40-21) 312 43 59;

More information

TEMĂ SPD 2017 MODEL 1

TEMĂ SPD 2017 MODEL 1 MODEL 1 Pe parcursul realizarii unui model de simulare a functionarii unui sistem de productie, se urmareste determinarea functiei de repartitie a numarului de piese prelucrate de catre o masina pe parcursul

More information

CERERI SELECT PE O TABELA

CERERI SELECT PE O TABELA SQL - 1 CERERI SELECT PE O TABELA 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890 11 1325

More information

Metoda de programare BACKTRACKING

Metoda de programare BACKTRACKING Metoda de programare BACKTRACKING Sumar 1. Competenţe............................................ 3 2. Descrierea generală a metodei............................. 4 3......................... 7 4. Probleme..............................................

More information

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A.

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A. Excel Advanced Curriculum Școala Informală de IT Tel: +4.0744.679.530 Web: www.scoalainformala.ro / www.informalschool.com E-mail: info@scoalainformala.ro Cuprins 1. Funcții Excel pentru avansați 2. Alte

More information

Procedee de eşantionare aplicate în cercetarea pieţei şi administrarea eficientă a afacerilor

Procedee de eşantionare aplicate în cercetarea pieţei şi administrarea eficientă a afacerilor 3 Procedee de eşantionare aplicate în cercetarea pieţei şi administrarea eficientă a afacerilor 3.1 Eşantionare aleatoare Eşantionul este un segment al populaţiei studiate, ales să o reprezinte în ansamblu.

More information

Mecanismul de decontare a cererilor de plata

Mecanismul de decontare a cererilor de plata Mecanismul de decontare a cererilor de plata Autoritatea de Management pentru Programul Operaţional Sectorial Creşterea Competitivităţii Economice (POS CCE) Ministerul Fondurilor Europene - Iunie - iulie

More information

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows Ghid identificare versiune AWP, instalare AWP 4.5.4 şi verificare importare certificat în Store-ul de Windows Data: 28.11.14 Versiune: V1.1 Nume fişiser: Ghid identificare versiune AWP, instalare AWP 4-5-4

More information

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales MANAGEMENTUL CALITĂȚII - MC Proiect 5 Procedura documentată pentru procesul ales CUPRINS Procedura documentată Generalități Exemple de proceduri documentate Alegerea procesului pentru realizarea procedurii

More information

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB Grafuri bipartite Lecție de probă, informatică clasa a XI-a Mihai Bărbulescu b12mihai@gmail.com Facultatea de Automatică și Calculatoare, UPB Colegiul Național de Informatică Tudor Vianu București 27 februarie

More information

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; }

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; } Arbori Arborii, ca şi listele, sunt structuri dinamice. Elementele structurale ale unui arbore sunt noduri şi arce orientate care unesc nodurile. Deci, în fond, un arbore este un graf orientat degenerat.

More information

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog Laborator 1 Programare declarativă O paradigmă de programare în care controlul fluxului de execuție este lăsat la latitudinea implementării limbajului, spre deosebire de programarea imperativă în care

More information

Candlesticks. 14 Martie Lector : Alexandru Preda, CFTe

Candlesticks. 14 Martie Lector : Alexandru Preda, CFTe Candlesticks 14 Martie 2013 Lector : Alexandru Preda, CFTe Istorie Munehisa Homma - (1724-1803) Ojima Rice Market in Osaka 1710 devine si piata futures Parintele candlesticks Samurai In 1755 a scris The

More information

În continuare vom prezenta unele dintre problemele de calcul ale numerelor Fibonacci.

În continuare vom prezenta unele dintre problemele de calcul ale numerelor Fibonacci. O condiţie necesară şi suficientă ca un număr să fie număr Fibonacci Autor: prof. Staicu Ovidiu Ninel Colegiul Economic Petre S. Aurelian Slatina, jud. Olt 1. Introducere Propuse de Leonardo Pisa în 1202,

More information

INTEROGĂRI ÎN SQL SERVER

INTEROGĂRI ÎN SQL SERVER INTEROGĂRI ÎN SQL SERVER Principala operaţie efectuată într-o bază de date este operaţia de extragere a datelor, care se realizează cu ajutorul unei clauze SELECT. SELECT Clauza SELECT are o sintaxă foarte

More information

Decizia manageriala în conditii de risc. Profilul riscului.

Decizia manageriala în conditii de risc. Profilul riscului. Revista Informatica Economica nr.2 (4)/2000 97 Decizia manageriala în conditii de risc. Profilul riscului. Conf.dr. Florica LUBAN Catedra de Eficienta Economica, A.S.E. Bucuresti În lucrare se arata cum

More information

Tehnici nealeatoare de esantionare utilizate în practica statistica

Tehnici nealeatoare de esantionare utilizate în practica statistica 82 Revista Informatica Economica, nr. 2 (8)/200 Tehnici nealeatoare de esantionare utilizate în practica statistica Conf.dr. Tudorel ANDREI Catedra de Statistica si Previziune Economica, A.S.E. Bucuresti

More information

MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII

MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII Adrian Mugur SIMIONESCU MODEL OF A STATIC SWITCH FOR ELECTRICAL SOURCES WITHOUT INTERRUPTIONS IN LOAD

More information

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Proiect nr. 154/323 cod SMIS 4428 cofinanțat de prin Fondul European de Dezvoltare Regională Investiții pentru viitorul

More information

(1) (2) (3) Figura Histograma cu bare verticale a distribuţiilor absolute

(1) (2) (3) Figura Histograma cu bare verticale a distribuţiilor absolute PRELEGEREA III STATISTICĂ MATEMATICĂ I. Descrierea scalelor de măsură 3.1. Scale de măsură discrete a) Scala nominală (sau scala calitativă, categorială, de clasificare) precizează diferenţele calitative

More information

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: "9",

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: 9, La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - (ex: "9", "125", 1573" - se va scrie fara ghilimele) Parola: -

More information

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs Acta Technica Napocensis: Civil Engineering & Architecture Vol. 57, No. 1 (2014) Journal homepage: http://constructii.utcluj.ro/actacivileng Updating the Nomographical Diagrams for Dimensioning the Concrete

More information

Frecvenţa absolută. Nici un sistem Macintosh Windows Total 500 1

Frecvenţa absolută. Nici un sistem Macintosh Windows Total 500 1 Nici un sistem Macintosh Windows Frecventa absoluta LUCRAREA NR. PREZENTAREA GRAFICĂ A ANALIZELOR STATISTICE. Prezentarea lucrării. Prezentarea caracteristicilor calitative Caracteristicile calitative

More information

Generarea şi validarea numerelor prime mari

Generarea şi validarea numerelor prime mari Generarea şi validarea numerelor prime mari 1 Modalităţi de generare a numerelor prime mari Metoda cea mai naturală este de a genera aleator un număr n de mărime adecvată şi de a verifica dacă acesta este

More information

Lucrarea nr. 10 Regresia logistică - SPSS

Lucrarea nr. 10 Regresia logistică - SPSS Statistică multivariată Lucrarea nr. 10 Regresia logistică - SPSS A. Noţiuni teoretice Regresia logistică Regresia logistică modelează relaţia dintre o mulţime de variabile independente x i (categoriale,

More information

2. Setări configurare acces la o cameră web conectată într-un echipament HG8121H cu funcție activă de router

2. Setări configurare acces la o cameră web conectată într-un echipament HG8121H cu funcție activă de router Pentru a putea vizualiza imaginile unei camere web IP conectată într-un echipament Huawei HG8121H, este necesară activarea serviciului Dinamic DNS oferit de RCS&RDS, precum și efectuarea unor setări pe

More information

ACTA TECHNICA NAPOCENSIS

ACTA TECHNICA NAPOCENSIS 273 TECHNICAL UNIVERSITY OF CLUJ-NAPOCA ACTA TECHNICA NAPOCENSIS Series: Applied Mathematics, Mechanics, and Engineering Vol. 58, Issue II, June, 2015 SOUND POLLUTION EVALUATION IN INDUSTRAL ACTIVITY Lavinia

More information

Metode de ierarhizare utilizate în analiza statistică a întreprinderilor mici şi mijlocii în profil regional

Metode de ierarhizare utilizate în analiza statistică a întreprinderilor mici şi mijlocii în profil regional Metode de ierarhizare utilizate în analiza statistică a întreprinderilor mici şi mijlocii în profil regional Lect.univ.dr. Florin Paul Costel LILEA florin.lilea@gmail.com Conf.univ.dr. Elena BUGUDUI Lect.univ.dr.

More information

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip Mods euro truck simulator 2 harta romaniei by elyxir Mods euro truck simulator 2 harta romaniei by elyxir.zip 26/07/2015 Download mods euro truck simulator 2 harta Harta Romaniei pentru Euro Truck Simulator

More information

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date.

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. 9. Memoria Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. Primul nivel conține memorie de program cache (L1P) și memorie de date cache (L1D). Al doilea

More information

Update firmware aparat foto

Update firmware aparat foto Update firmware aparat foto Mulţumim că aţi ales un produs Nikon. Acest ghid descrie cum să efectuaţi acest update de firmware. Dacă nu aveţi încredere că puteţi realiza acest update cu succes, acesta

More information

The First TST for the JBMO Satu Mare, April 6, 2018

The First TST for the JBMO Satu Mare, April 6, 2018 The First TST for the JBMO Satu Mare, April 6, 08 Problem. Prove that the equation x +y +z = x+y +z + has no rational solutions. Solution. The equation can be written equivalently (x ) + (y ) + (z ) =

More information

Lucrare clarificatoare nr. 10 ELABORAREA ANALIZEI DE RISC ÎN CADRUL ANALIZEI COST-BENEFICIU A PROIECTELOR FINANŢATE DIN FEDR ŞI FC

Lucrare clarificatoare nr. 10 ELABORAREA ANALIZEI DE RISC ÎN CADRUL ANALIZEI COST-BENEFICIU A PROIECTELOR FINANŢATE DIN FEDR ŞI FC Lucrare clarificatoare nr. 10 ELABORAREA ANALIZEI DE RISC ÎN CADRUL ANALIZEI COST-BENEFICIU A PROIECTELOR FINANŢATE DIN FEDR ŞI FC Ianuarie 2012 Documentul a fost realizat de experţi care au participat

More information

CHAMPIONS LEAGUE 2017 SPONSOR:

CHAMPIONS LEAGUE 2017 SPONSOR: NOUA STRUCTURĂ a Ch League Pe viitor numai fosta divizie A va purta numele Champions League. Fosta divizie B va purta numele Challenger League iar fosta divizie C se va numi Promotional League. CHAMPIONS

More information

X-Fit S Manual de utilizare

X-Fit S Manual de utilizare X-Fit S Manual de utilizare Compatibilitate Acest produs este compatibil doar cu dispozitivele ce au următoarele specificații: ios: Versiune 7.0 sau mai nouă, Bluetooth 4.0 Android: Versiune 4.3 sau mai

More information

RISCURI ŞI CATASTROFE

RISCURI ŞI CATASTROFE ANALIZA DE FRECVENŢĂ ŞI EVALUAREA CANTITATIVĂ A RISCURILOR I. HAIDU ABSTRACT. -The Frequency Analysis and the Quantitative Assessment of the Risks. The article wish to proof that the notion of risk is

More information

Prelucrarea numerică a semnalelor

Prelucrarea numerică a semnalelor Prelucrarea numerică a semnalelor Assoc.Prof. Lăcrimioara GRAMA, Ph.D. http://sp.utcluj.ro/teaching_iiiea.html 27 februarie 2017 Lăcrimioara GRAMA (sp.utcluj.ro) Prelucrarea numerică a semnalelor 27 februarie

More information

CUANTIZARE BIBLIOGRAFIE OBIECTIVE

CUANTIZARE BIBLIOGRAFIE OBIECTIVE CUANTIZARE OBIECTIVE In aceasta lucrare se va acorda o atentie deosebita: studierii caracteristicilor de cuantizare uniforma si neuniforma; observarii efectelor diferitelor tipuri de distorsiune de cuantizare;

More information

ANTICOLLISION ALGORITHM FOR V2V AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP V2V (VEHICLE-TO-VEHICLE)

ANTICOLLISION ALGORITHM FOR V2V AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP V2V (VEHICLE-TO-VEHICLE) ANTICOLLISION ALGORITHM FOR VV AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP VV (VEHICLE-TO-VEHICLE) 457 Florin MARIAŞIU*, T. EAC* *The Technical University

More information

INPUT MODELLING USING STATISTICAL DISTRIBUTIONS AND ARENA SOFTWARE

INPUT MODELLING USING STATISTICAL DISTRIBUTIONS AND ARENA SOFTWARE Annals of the Academy of Romanian Scientists Online Edition Series on Engineering Sciences ISSN 2066 8570 Volume 7, Number 1/2015 63 INPUT MODELLING USING STATISTICAL DISTRIBUTIONS AND ARENA SOFTWARE Elena

More information

Managementul referinţelor cu

Managementul referinţelor cu TUTORIALE DE CULTURA INFORMAŢIEI Citarea surselor de informare cu instrumente software Managementul referinţelor cu Bibliotecar Lenuţa Ursachi PE SCURT Este gratuit Poţi adăuga fişiere PDF Poţi organiza,

More information

Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare şi automatizări

Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare şi automatizări Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare şi automatizări Dezvoltarea unei ontologii de domeniu (Support Vector Machine versus Bayes Naive) Referat

More information

SINGULAR PERTURBATION DETECTION USING WAVELET FUNCTION REPRESENTATION

SINGULAR PERTURBATION DETECTION USING WAVELET FUNCTION REPRESENTATION U.P.B. Sci. Bull., Series C, Vol. 7, No., 8 ISSN 454-34x SINGULAR PERTURBATION DETECTION USING WAVELET FUNCTION REPRESENTATION Dan OLARU, Mihai Octavian POPESCU Calitatea distribuţiei energiei electrice

More information

Proiectarea bazelor de date. PL/SQL Înregistrări și Colecții # 13. Adrian Runceanu

Proiectarea bazelor de date. PL/SQL Înregistrări și Colecții # 13. Adrian Runceanu Proiectarea bazelor de date # 13 PL/SQL Înregistrări și Colecții 2016 Adrian Runceanu www.runceanu.ro/adrian Curs 13 Înregistrări și Colecții Proiectarea bazelor de date 2 Înregistrări și Colecții în PL/SQL

More information

Lucrarea practică 9. Softul ce va fi utilizat în lucrarea practică: Epi Info

Lucrarea practică 9. Softul ce va fi utilizat în lucrarea practică: Epi Info Lucrarea practică 9 Indicaţii generale: Testarea de semnificaţie statistică este o metodă, veche de circa 75 de ani, pentru confirmarea adevărurilor pe baza datelor obţinute din eşantioane. Ea constă,

More information

EPIDEMIOLOGIE GENERALĂ. Dr. Cristian Băicuş Medicală Colentina, 2005

EPIDEMIOLOGIE GENERALĂ. Dr. Cristian Băicuş Medicală Colentina, 2005 EPIDEMIOLOGIE GENERALĂ Dr. Cristian Băicuş Medicală Colentina, 2005 metodologia cercetării (validitate) = EPIDEMIOLOGIA CLINICĂ cercetare clinică ŞI BIOSTATISTICA articol, prezentare evaluarea critică

More information

earning every day-ahead your trust stepping forward to the future opcom operatorul pie?ei de energie electricã și de gaze naturale din România Opcom

earning every day-ahead your trust stepping forward to the future opcom operatorul pie?ei de energie electricã și de gaze naturale din România Opcom earning every day-ahead your trust stepping forward to the future opcom operatorul pie?ei de energie electricã și de gaze naturale din România Opcom RAPORT DE PIA?Ã LUNAR MARTIE 218 Piaţa pentru Ziua Următoare

More information

Proceduri de analizã a datelor

Proceduri de analizã a datelor Proceduri de analizã a datelor Liste Prin listã se întelege o serie de linii succesive într-o foaie de calcul, fiecare coloanã din listã continând date cu aceeasi semnificatie logicã. De exemplu, o listã

More information

ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR

ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR Prof. univ. dr. ing. Florin CHICHERNEA Universitatea Transilvania

More information

PROCEDURA PRIVIND DECONTURILE. 2. Domeniu de aplicare Procedura se aplică în cadrul Universităţii Tehnice Cluj-Napoca

PROCEDURA PRIVIND DECONTURILE. 2. Domeniu de aplicare Procedura se aplică în cadrul Universităţii Tehnice Cluj-Napoca PROCEDURA PRIVIND DECONTURILE 1. Scpul: Descrie structura si mdul de elabrare si prezentare a prcedurii privind dcumentele care trebuie intcmite si cursul acestra, atunci cind persana efectueaza un decnt.

More information

NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE

NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE Eugen DOBÂNDĂ NOTES ON THE MATHEMATICAL MODELING IN QUASI-DYNAMIC REGIME OF A CLASSES OF MICROHYDROTURBINE

More information

Evaluarea legaturilor dintre indicatorii proprietăţii utilizând metoda regresiei multiple

Evaluarea legaturilor dintre indicatorii proprietăţii utilizând metoda regresiei multiple Evaluarea legaturilor dintre indicatorii proprietăţii utilizând metoda regresiei multiple Prof.univ.dr. Constantin ANGHELACHE Conf.univ.dr. Elena BUGUDUI Lect.univ.dr. Florin Paul Costel LILEA Universitatea

More information

CERERI SELECT PE MAI MULTE TABELE

CERERI SELECT PE MAI MULTE TABELE SQL - 2 CERERI SELECT PE MAI MULTE TABELE 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890

More information

INSTRUMENTE DE MARKETING ÎN PRACTICĂ:

INSTRUMENTE DE MARKETING ÎN PRACTICĂ: INSTRUMENTE DE MARKETING ÎN PRACTICĂ: Marketing prin Google CUM VĂ AJUTĂ ACEST CURS? Este un curs util tuturor celor implicați în coordonarea sau dezvoltarea de campanii de marketingși comunicare online.

More information

Capitolul 4 SUBCERERI. F. Radulescu. Curs: Baze de date - Limbajul SQL

Capitolul 4 SUBCERERI. F. Radulescu. Curs: Baze de date - Limbajul SQL Capitolul 4 SUBCERERI 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890 11 1325 VASILE 2

More information

Kurt Gödel Argumentul ontologic

Kurt Gödel Argumentul ontologic Kurt Gödel Argumentul ontologic Gheorghe Ştefanov În acest text îmi propun să prezint argumentul ontologic formulat de Kurt Gödel în anul 1970 1 şi să îl evaluez critic, având în principal în vedere conceptul

More information

XII. Cât de precisă este estimarea efectului tratamentului?

XII. Cât de precisă este estimarea efectului tratamentului? XII. Cât de precisă este estimarea efectului tratamentului? În timp ce în capitolele IX şi X am vorbit despre semnificaţia clinică a rezultatelor unui RCT (mărimea efectului), de această dată ne vom ocupa

More information

CORELATII ÎNTRE PROPRIETATILE HÂRTIILOR COMPONENTE SI CALITATEA CARTONULUI ONDULAT. II

CORELATII ÎNTRE PROPRIETATILE HÂRTIILOR COMPONENTE SI CALITATEA CARTONULUI ONDULAT. II CORELATII ÎNTRE PROPRIETATILE HÂRTIILOR COMPONENTE SI CALITATEA CARTONULUI ONDULAT. II. INFLUENTA CALITATII CARTONULUI ONDULAT ASUPRA UNOR CARACTERISTICI ALE CUTIILOR CORRELATIONS BETWEEN PAPERS CHARACTERISTICS

More information

Metode cantitative de analiza in stiintele politice Suport curs Invatamant la Distanta

Metode cantitative de analiza in stiintele politice Suport curs Invatamant la Distanta Metode cantitative de analiza in stiintele politice Suport curs Invatamant la Distanta 1 013-014 Facultatea de Stiinte Politice, Administrative şi ale Comunicării Specializarea Ştiinţe Politice Anul universitar

More information

Raportul dintre cifra de afaceri si personalul din IMM Model de analiză

Raportul dintre cifra de afaceri si personalul din IMM Model de analiză Raportul dintre cifra de afaceri si personalul din IMM Model de analiză Lect.univ.dr. Florin Paul Costel LILEA Universitatea Artifex Bucureti florin.lilea@gmail.com Asist.univ.drd. Raluca Mariana DRAGOESCU

More information

Funcţii grup şi clauzele GROUP BY, HAVING. Operatorii ROLLUP şi CUBE.

Funcţii grup şi clauzele GROUP BY, HAVING. Operatorii ROLLUP şi CUBE. Baze de date-anul 2 Laborator 4 SQL Funcţii grup şi clauzele GROUP BY, HAVING. Operatorii ROLLUP şi CUBE. I. [Funcţii grup şi clauza GROUP BY] Clauza GROUP BY este utilizată pentru a diviza liniile unui

More information

Mai bine. Pentru c putem.

Mai bine. Pentru c putem. 1 CUPRINS: 1. SUMAR APLICAŢIE...... 3 1.1 Introducere... 3 1.2 Tipul de aplicaţie... 3 2. SPECIFICAŢII FUNCŢIONALE... 3 3. INSTALARE... 3 3.1 Introducere... 3 3.2 Ce trebuie să verificaţi înainte de a

More information

CRITERII DE ADMITERE MASTER

CRITERII DE ADMITERE MASTER Web: http:steconomice.uoradea.ro; E-mail: steconomice@uoradea.ro CRITERII DE ADMITERE MASTER În cadrul Faltăţii de Ştiinţe Economice, lorile pentru studiile universitare de master (fără taxă, taxă) vor

More information

INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTERE"IN VITRO" LA PLANTE FURAJERE

INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTEREIN VITRO LA PLANTE FURAJERE INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTERE"IN VITRO" LA PLANTE FURAJERE T.Simplăceanu, C.Bindea, Dorina Brătfălean*, St.Popescu, D.Pamfil Institutul Naţional de Cercetere-Dezvoltare pentru

More information