Laborator 2 - Statistică descriptivă

Similar documents
Subiecte Clasa a VI-a

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice

Modalitǎţi de clasificare a datelor cantitative

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962)

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin

ISBN-13:

Procesarea Imaginilor

Metrici LPR interfatare cu Barix Barionet 50 -

GHID DE TERMENI MEDIA

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows

Olimpiad«Estonia, 2003

Reţele Neuronale Artificiale în MATLAB

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC)

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND

Versionare - GIT ALIN ZAMFIROIU

INTEROGĂRI ÎN SQL SERVER

Nume şi Apelativ prenume Adresa Număr telefon Tip cont Dobânda Monetar iniţial final

The First TST for the JBMO Satu Mare, April 6, 2018

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; }

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs

X-Fit S Manual de utilizare

Laborator 2. Definirea tablourilor şi a funcţiilor (în linia de comandă) în Matlab 7.0

Auditul financiar la IMM-uri: de la limitare la oportunitate

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M )

CONSISTENŢA INTERNĂ A UNUI INSTRUMENT. O DECIZIE DIFICILĂ.

Statistică descriptivă Calculul parametrilor. Călinici Tudor 2015

Biostatistica. Statistica aplicata in domeniul medicinei si biologiei

F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5.

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: "9",

Funcţii grup şi clauzele GROUP BY, HAVING. Operatorii ROLLUP şi CUBE.

Itemi Sisteme de Operare

ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii

Lucrarea nr. 1 Statistică descriptivă (Excel)

Propuneri pentru teme de licență

Metoda de programare BACKTRACKING

Baze de date distribuite și mobile

Utilizarea metodelor statistice în evaluarea riscului financiar

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB

Class D Power Amplifiers

Update firmware aparat foto

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date.

Metoda BACKTRACKING. prof. Jiduc Gabriel

Mecanismul de decontare a cererilor de plata

În continuare vom prezenta unele dintre problemele de calcul ale numerelor Fibonacci.

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip

EFECTUL TRATĂRII SONICE ASUPRA MICROBIOLOGIEI APEI DE DUNĂRE

Lucrarea de laborator nr. 4

ARHITECTURA SISTEMELOR DE CALCUL ŞI SISTEME DE OPERARE. LUCRĂRILE DE LABORATOR Nr. 6, 7 şi 8 REPREZENTAREA INFORMAŢIILOR NUMERICE ÎNTREGI ŞI REALE.

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive.

LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE

CHAMPIONS LEAGUE 2017 SPONSOR:

1. Creaţi un nou proiect de tip Windows Forms Application, cu numele MdiExample.

10. Modelarea şi eliminarea zgomotelor din imaginile digitale

EN teava vopsita cu capete canelate tip VICTAULIC

2. In the pattern below, which number belongs in the box? 0,5,4,9,8,13,12,17,16, A 15 B 19 C 20 D 21

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A.

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET

(1) (2) (3) Figura Histograma cu bare verticale a distribuţiilor absolute

Capitolul 4 SUBCERERI. F. Radulescu. Curs: Baze de date - Limbajul SQL

REZOLVAREA NUMERICĂ A ECUAŢIILOR CU DERIVATE PARŢIALE FOLOSIND METODA LINIILOR

CERERI SELECT PE O TABELA

5.3 OSCILATOARE SINUSOIDALE

TEMĂ SPD 2017 MODEL 1

Proiectarea Sistemelor Software Complexe

Creare baza de data Deschidem aplicaţia Microsoft Access. Lansarea în execuţie a programului se face urmând calea:

Section 1.5 Graphs and Describing Distributions

SINGULAR PERTURBATION DETECTION USING WAVELET FUNCTION REPRESENTATION

Numerical: Data with quantity Discrete: whole number answers Example: How many siblings do you have?

Candlesticks. 14 Martie Lector : Alexandru Preda, CFTe

CERERI SELECT PE MAI MULTE TABELE

HEAPSORT I. CONSIDERAŢII TEORETICE

LINEAR VOLTAGE-TO-CURRENT CONVERTER WITH SMALL AREA

Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare şi automatizări

Transmiterea datelor prin reteaua electrica

SAG MITTIGATION TECHNICS USING DSTATCOMS

Anexa 3 Criterii de prioritizare a investițiilor în infrastructura unităților de învățământ

A NOVEL ACTIVE INDUCTOR WITH VOLTAGE CONTROLLED QUALITY FACTOR AND SELF-RESONANT FREQUENCY

INSTRUMENTE DE MARKETING ÎN PRACTICĂ:

octombrie 2009 Sondaj naţional BENEFICIAR:

Capitolul 7. Data mining. F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5.

Tema 1 - Transferuri de date DMA intr-o arhitectura de tip Cell

Proceduri stocate. Crearea procedurilor stocate. Varianta 1 În Management Studio se dă clic pe New Query ca în imaginea de mai jos: Fig.

MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII

2. Setări configurare acces la o cameră web conectată într-un echipament HG8121H cu funcție activă de router

XII. Cât de precisă este estimarea efectului tratamentului?

Evoluția pieței de capital din România. 09 iunie 2018

R O M Â N I A CURTEA CONSTITUŢIONALĂ

Lucrări practice 1. Generalități

Tehnici nealeatoare de esantionare utilizate în practica statistica

USING SERIAL INDUSTRIAL ROBOTS IN CNC MILLING PROCESESS

Printesa fluture. Мобильный портал WAP версия: wap.altmaster.ru

STATISTICĂ PSIHOLOGICĂ

Studiu: IMM-uri din România

Transcription:

Laborator 2 - Statistică descriptivă Statistica descriptivă are rolul de a descrie trăsăturile principale ale unor eşantioane şi constă în determinarea unor măsuri simple şi analize grafice ale datelor din eşantion. Analiza univariată reprezintă studiul unui singur atribut (trăsătură) a eşantionului. Acest atributul al membrilor unui eşantion este o proprietate sau o cantitate măsurată (observată). Acest atribut (care se presupune că este variabil) poate fi clasificat în cel puţin două moduri: a1) Atribut discret: într-un interval în care pot fi observate măsuratorile acestea pot lua întotdeauna un număr finit de valori (cunoscute). Exemplu: număr de accidente pe autostradă, grade de dificultate (foarte uşor, uşor, obişnuit, dificil etc), clasificări (asiatic/european/amerindian) etc. a2) Atribut continuu: în intervalul în care pot fi observate măsurătorile acestea pot lua practic orice valoare reală. Exemplu: greutate, înălţime, viteză etc. b1) Atribut cantitativ care poate fi: - discret (număr de erori, număr de copii pe familie etc); - continuu (viteză, volum, greutate etc). b2) Atribut calitativ (sau categoric) 1 : - ordinal (mai bun/la fel/mai rău; pro/neutru/contra; grade de dificultate); - nominal (angajat/şomer; european/neeuropean; căsătorit/necăsătorit). I. Reprezentarea grafică distribuţiei eşantionului Datele sunt grupate în categorii (de exemplu intervale) şi fiecărui interval i se asociază numărul de indivizi (din eşantion) a căror valoare cade în intervalul respectiv. (Frecvenţele se pot înlocui cu procente). RStudio. Nu uitaţi să va setaţi directorul de lucru: Session Set Working Directory Choose Directory. Tipuri de reprezentări grafice: 1. Stem and leaf plot: pentru atribute cantitative (de obicei discrete) în număr relativ mic (cel mult 30-40). Exemplu. Pentru datele de mai jos care pot fi un atribut continuu sau discret (cantitativ oricum) 0.6 0.2 1.6 2.0 1.1 0.5 1.5 2.3 3.4 1.9 0.4 0.5 1.2 0.9 2.1 1.6 1.8 2.6 3.1 2.5, cifra de la stânga punctului zecimal reprezintă stem -ul, iar cea de la dreapta punctului zecimal este frunza ( leaf ): 0 6 2 5 4 5 9 1 6 1 5 9 2 6 8 2 0 3 1 6 5 3 4 1 Exerciţiu rezolvat. Să se creeze în R un stem-and-leaf plot pentru următorul eşantion 11 14 21 32 17 24 21 35 52 44 21 28 36 49 41 19 20 34 37 29 1 Atributele calitative sunt discrete deoarece categoriilor li se poate asocia o valoare numerică: 1, 2, 3 etc.

> x = c(11, 14, 21, 32, 17, 24, 21, 35, 52, 44, 21, 28, 36, 49, 41, 19, 20, 34, 37, 29) > stem(x) The decimal point is 1 digit(s) to the right of the 1 1479 2 0111489 3 24567 4 149 5 2 2. Histograme: se împarte domeniul într-un număr de intervale 2 şi se reprezintă grafic sub forma unor coloane alăturate frecvenţele de pe fiecare interval. Funcţia utilizată este hist(). Exerciţiu rezolvat. În fisierul date.txt avem un eşantion pentru care vom reprezenta histograma astfel: > sample = scan( sample.txt ) > min = min(sample) > max = max(sample) > min [1] 41 > max [1] 96 Putem alege să împărţim valorile pe intervalele [40, 50), [50, 60) etc ultimul interval fiind [90, 100) - sunt şase intervale. Histograma va fi reprezentată cu Sau cu > interval = seq(40, 100, 10) > hist(sample, breaks = interval, right = F, freq = T) > a = 6 > hist(sample, breaks = a, right = F, col = blue ) breaks este un parametru care conţine vectorul capetelor de interval (de la 40 la 100) sau un număr care indică numărul de intervale, right ne spune că intervalele sunt închise la dreapta (TRUE) sau deschise la dreapta, un parametru similar include.lowest (sic) priveşte capătul din stânga, f req indică daca reprezentarea este a frecvenţelor (TRUE) sau a procentelor corespunzătoare (FALSE) - înălţimea relativă a coloanelor va fi aceeaşi. 3. Bar chart (Pareto): este o reprezentare asemănătoare histogramei, se foloseşte mai ales pentru atribute discrete (calitative sau cantitative). Această reprezentare presupune determinarea anterioară a frecvenţelor (se construieşte o tabelă a frecvenţelor numărând observaţiile care cad în aceeaşi categorie sau interval). Funcţia utilizată este barplot(). Exerciţiu rezolvat. Să presupunem că următoarele valori reprezintă frecvenţele unui eşantion Reprezentarea lor se face astfel 9 8 12 3 17 41 29 35 40 19 8 2 În cazul în care lungimea lor comună nu este evidentă, se poate recurge la următoarea formulă: L = 1 + ln n ln2

Exerciţii propuse. > frecv = c(9, 8, 12, 3, 17, 41, 29, 35, 32, 40, 19, 8) > barplot(frecv, space = 0) I.1 Reprezentaţi stem-and-leaf plot pentru eşantionul din fişierul sample1.txt. I.2 Fişierul unemploy2012.csv conţine rate ale şomajului în 2012 din majoritatea ţărilor europene (cu două coloane numite country şi rate ). Reprezentaţi histograma ratelor şomajului folosind intervalele (0, 4], (4, 6], (6, 8], (8, 10], (10, 12], (12, 14] şi (14, 300]. Indicaţie: citiţi eşantionul astfel > tablou = read.csv( unemploy2012.csv, header = T, sep = ; ) > rate = tablou[[ rate ]] I.3 Fişierul life expect.csv conţine speranţa de viaţă (la naştere, în 2012) din majoritatea ţărilor europene (cu trei coloane numite country, female şi male ). Reprezentaţi histogramele speranţei de viaţă pentru cele două grupe, împărţind eşantioanle în câte şapte intervale. II. Analiza tendinţei centrale Analiza tendinţei centrale este o aproximare a centrului distribuţiei eşantionului. (În cele ce urmează presupunem că datele din eşantion sunt ordonate x 1 x 2... x n, deşi nu toate statisticile de mai jos necesită ordonarea lor). Cele mai importante măsuri ale tendinţei centrale sunt: - Media - uzual media aritmetică a datelor din eşantion; de exemplu pentru eşantion de mai jos 3, 6, 4, 3, 6, 7, 8, 5 media este M = (3 + 6 + 4 + 3 + 6 + 7 + 8 + 5)/8 = 42/8 = 5.25 ( n ) M = 1 x k n k=1 în R: mean(eşantion) - Mediana: se ordonează crescător datele din eşantion şi, dacă dimensiunea eşantionului este impară mediana este chiar valoarea din mijloc, iar dacă dimensiunea este pară, mediana este media celor două valori din mijloc. Pentru eşantionul 3, 6, 4, 3, 6, 7, 8, 5, după ordonare: 3, 3, 4, 5, 6, 6, 7, 8, găsim că mediana este Me = 5 + 6 = 11 2 2 = 5.5. Pentru eşantionul 3, 6, 4, 5, 2, 6, 9, 7, 8, 5, 4, după ordonare: 2, 3, 4, 4, 5, 5, 6, 6, 7, 8, 9, mediana este Me = 5. x k+1, dacă n = 2k + 1 Me = x k + x k+1, dacă n = 2k 2 în R: median(eşantion)

- Mòdul este valoarea care are cea mai mare frecvenţă în eşantion. În cazul în care există mai multe valori cu frecvenţă maximă, distribuţia se va numi multi-modală. Pentru eşantionul 3, 6, 4, 3, 6, 7, 8, 5, 3, 6, valorile 3 şi 6 apar de cele mai multe ori - avem o distribuţie bi-modală. Pentru eşantionul 2, 6, 4, 3, 6, 7, 8, 5, 6, 4, mòdul este 6 (care apare de un număr maxim de ori) - distribuţia eşantionului este uni-modală. O funcţie care să determine mòdul în R standard nu există (doar anumite pachete o conţin). Exerciţii propuse. II.1 Calculaţi media şi mediana eşanionului din fişierul sample1.txt. II.2 Calculaţi media şi mediana eşanioanelor din fişierul life expect.csv. II.3* Scrieţi o funcţie care să calculeze mòdul pentru un eşantion dat. III. Împrăştierea şi valorile aberante Împrăştierea (sau dispersia datelor) reuneşte un grup de valori care măsoară împrăştierea datelor în jurul tendinţei centrale. - domeniul datelor (range) este diferenţa dintre valoarea maximă şi valoarea minimă a datelor. Pentru eşantionul 2, 6, 4, 3, 6, 7, 8, 5, 6, 4 domeniul este 8 2 = 6. - deviaţia standard a eşantionului (s) s = Range = max x k min 1 k n n (x k M) 2 k=1 n 1 eroarea standard a mediei eşantionului (se): - dispersia eşantionului (s 2 ): s 2 = n (x k M) 2 k=1 n 1 se = s n 1 k n x k în R: sd(eşantion) în R: var(eşantion) - quartilele şi intervalul interquartilic (IQR): prima quartilă Q 1 este mediana segmentului de eşantion cuprins între cea mai mică valoare din eşantion (x 1 ) şi mediană, a treia quartila Q 3 este mediana segmentului de eşantion cuprins între mediană şi cea mai mare valoare din eşantion (x n ).

Funcţia quantile(eşantion) returnează sub forma unui obiect (date frame), următoarele valori: minimul, prima quartilă, mediana, a doua quartilă şi maximul. O quartilă poate fi obţinută astfel Q i în R: as.vector(quantile(eşantion))[i+1] IQR = Q 3 Q 1 Exerciţiu rezolvat. Funcţia summary(eşantion) determină ceea ce se numeşte sumarul celor şase (sic) valori: min, Q 1, Me, M, Q 3 şi max. > sample = c(9, 8, 12, 3, 17, 41, 29, 35, 32, 40, 19, 8) > summary(sample) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.00 8.75 18.00 21.08 32.75 41.00 - Valorile aberante (outliers) sunt acele date dintr-un eşantion care au frecvenţă redusă şi sunt fie mult prea mici, fie mult prea mari faţă de valoarea medie calculată. Valorile aberante se datorează fie unor greşeli de măsură, fie unor cauze naturale şi pot afecta semnificativ valoarea mediei. La acest nivel îndepărtarea lor se poate face prin două metode: - Cu ajutorul deviaţiei standard a eşantionului: sunt considerate valori aberante acele valori care sunt în afara intervalului 3 (M 2s, M + 2s). - (regula 1.5 IQR) cu ajutorul quartilelor: sunt considerate aberante acele valori din eşantion care se găsesc în afara intervalului 4 (Q 1 1.5 IQR, Q 3 + 1.5 IQR). Exerciţiu rezolvat. Pentru eşantionul de mai jos determinaţi valorile aberante folosind prima dintre metodele de mai sus. 1 91 38 72 13 27 11 19 5 22 20 19 8 17 11 15 13 23 14 17 > sample = c(1, 91, 38, 72, 13, 27, 11, 85, 5, 22, 20, 19, 8, 17, 11, 15, 13, 23, 14, 17) > m = mean(sample) > s = sd(sample) > new sample = vector() > j = 0 > for(i in 1:length(sample)) > if(sample[i] >=m - 2*s & sample[i] <= m + 2*s) { > j = j + 1 > new sample[j] = sample[i] > } > new sample [1] [1] 1 38 72 13 27 11 5 22 20 19 8 17 11 15 13 23 14 17 Exerciţii propuse. III.1 Scrieţi într-un script o funcţie outliers mean(eşantion) care să determine valorile aberante folosind prima metodă expusă mai sus. Verificaţi-o pe eşantionul din exemplul de mai sus. 3 În general intervalul este de forma (M k s, M + k s), k putând fi chiar şi mai mic decât 2. 4 Intervalul este în general de forma (Q 1 k IQR, Q 3 + k IQR), k R.

III.2 Scrieţi în acelaşi script o funcţie outliers iqr(eşantion) care să determine valorile aberante folosind cea de-a doua metodă expusă mai sus (3/2 IQR). III.3 Aplicaţi funcţia summary() dar şi funcţiile de mai sus eşantionului din fişierul sample2.txt. Rezultatele sunt similare? RStudio. După editare, scriptul este salvat (Ctrl+S) cu un nume de tipul my script.r şi este încărcat cu Code Source File (Ctrl+Shift+O) sau din linia de comandă cu source(script file) RStudio. O dată încărcat scriptul, o funcţie care face parte din acest script se poate executa din linia de comandă: normal density(8) sau din fereastra de editare astfel: se selectează liniile dorite a fi executate şi Ctrl+Enter, iar scriptul în întregime se execută cu Ctrl+Alt+R. Temă pentru acasă. 3 puncte [1p: A1] + [2p: A2 sau A3] A1. (1 punct) Reprezentaţi funcţie de masă de probabilitate a distribuţiei binomiale B(n, p), şi apoi funcţiile de masă de probabilitate P oisson(λ) şi Geometric(p) - doar primele k valori, k fiind un parametru dat. A2. (2 puncte) Considerăm următorul eşantion aleator simplu care conţine masele a 45 de indivizi 84 72 88 78 76 84 84 82 87 80 81 69 73 79 79 75 68 80 74 68 77 80 78 81 76 75 70 76 78 82 72 73 86 79 91 70 84 73 69 70 83 76 47 67 76 Determinaţi mediana, media, deviaţia standard, cvartilele şi valorile aberante (dacă există). A3. (2 puncte) Se consideră următorul eşantion format din notele de admitere ale unui grup de studenţi: 6.50 8.60 9.60 7.25 8.50 9.95 6.66 6.40 7.75 7.66 8.60 9.33 7.80 9.85 9.50 5.50 7.60 7.25 8.50 9.70 9.50 8.25 7.50 8.66 7.50 9.00 8.50 9.33 8.33 9.90 8.75 5.60 6.50 6.75 8.20 8.33 9.50 8.66 6.50 7.25 9.50 9.33 Să se determine media, mediana, deviaţia standard, quartilele şi să se afle (dacă există) valorile aberante ale eşantionului. Rezolvările acestor exerciţii (funcţiile R şi apelurile lor) vor fi redactate într-un script R.