METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE

Size: px
Start display at page:

Download "METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE"

Transcription

1 LUCIAN V. BOICULESE GABRIEL DIMITRIU ADRIAN DOLOCA MIHAELA MOSCALU CRISTINA DASCALU METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS EDITURA PERFORMANTICA

2 Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS

3 Referent ştiinţific: Prof. Univ. Dr. Doina Azoicăi Universitatea de Medicină şi Farmacie Grigore T. Popa Iaşi DESRIEREA CIP A Bibliotecii Naţionale a României

4 Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA METODE DESCRIPTIVE ŞI ELEMENTE DE ANALIZĂ STATISTICĂ A DATELOR MEDICALE EXEMPLE PRACTICE ÎN EXCEL ŞI ACCESS PERFORMANTICA

5 Contribuţia pe capitole a autorilor: Capitole Autori -6, 4-6 Lucian V. Boiculese, Adrian Doloca, Cristina Dascălu 7-8, 3, 0 Mihaela Moscalu, Lucian V. Boiculese, Adrian Doloca 9- Gabriel Dimitriu, Mihaela Moscalu, Lucian V. Boiculese 7-9, 3 Cristina Dascălu, Gabriel Dimitriu, Mihaela Moscalu -, 4 Adrian Doloca, Cristina Dascălu, Gabriel Dimitriu Lucian Vasile BOICULESE Cristina DASCĂLU Gabriel DIMITRIU Mihaela MOSCALU Adrian DOLOCA vlboiculese@infmed.umfiasi.ro cdascalu@ infbst.umfiasi.ro gdimitriu@ mail.umfiasi.ro mmoscalu@ mail.umfiasi.ro adoloca@ mail.umfiasi.ro

6 CUPRINS Introducere... 9 Formatarea celulelor... Formatare condiţionată... 3 Utilizarea comenzii Paste Special... 4 Modul de adresare a celulelor. Crearea formulelor de calcul... 9 Reguli de adresare a celulelor... 9 Crearea formulelor de calcul... 0 Tehnica automată de încărcare a celulelor (autoîncărcare - autofill).. 3 Modul de adresare absolută a celulelor... 6 Adresarea absolută... 6 Ataşarea unui nume pentru un bloc de calcul... 7 Stilul de referire RC Introducerea seriilor de date în foaia de calcul... 3 Mai multe despre încărcarea seriilor de date... 3 Generator de valori aleatoare Contorizarea datelor Transformarea unei variabile numerice în formă categorială Funcţia if() Funcţia Lookup() Extragerea de informaţii din tabele de date Tabele Pivot Totalizarea datelor Filtre Reprezentarea grafică a datelor Tipuri de grafice Crearea şi editarea graficelor Reprezentarea grafică a funcțiilor Reprezentarea grafică a funcţiilor utilizând grafice de tip Scatter Reprezentarea grafică a funcţiilor utilizând grafice de tip Surface Cuprins 5

7 9 Elemente de teoria probabilităților (I) Experienţă. Probă. Eveniment Evenimente compatibile. Evenimente incompatibile Evenimente dependente. Evenimente independente (I) Operaţii cu evenimente Elemente de teoria probabilităților (II) Definiția clasică a probabilității. Proprietăți Regula adunării probabilităților evenimentelor incompatibile... 8 Probabilitatea evenimentelor contrare (complementare)... 8 Sistem complet de evenimente Evenimente independente și dependente (II) Probabilitate condiționată. Teorema înmulțirii probabilităților evenimentelor independente și dependente Elemente de teoria probabilităților (III) Evenimente independente. Evenimente independente în totalitatea lor (III) Teorema adunării probabilităților evenimentelor compatibile... 9 Formula probabilității totale... 9 Elemente de teoria probabilităților (IV) Analiza unor exemple de aplicare a Teoremei lui Bayes Statistică descriptivă (I) Calculul indicatorilor statistici Statistică descriptivă (II)... 0 Distribuţia de frecvenţă, realizarea histogramei, curba Gauss-Laplace Intervale de încredere (confidenţă)... 7 Intervale de confidenţă pentru estimarea mediei Dimensiunea eşantionului... 4 Volumul eşantionului de lucru Compararea seturilor de date (I) Compararea a două seturi de date testul t (Student) Compararea seturilor de date (II) Compararea seturilor de date prin metoda ANOVA Cuprins

8 9 Regresie. Corelaţie Regresie liniară şi corelaţie Analiza supravieţuirii Analiza supravieţuirii Kaplan Meier Baze de date Microsoft Access. Noţiuni generale Elemente introductive Deschiderea şi crearea unei baze de date... 6 Sortarea şi filtrarea datelor Baze de date Microsoft Access. Relaţionarea tabelelor Relaţii între tabele Interogări SQL în Microsoft Access Formuri şi rapoarte în Microsoft Access Bibliografie Cuprins 7

9 8

10 INTRODUCERE Această carte reprezintă o suită de teme de calcule statistice utilizate în prelucrarea datelor biologice (medicale, farmaceutice) prezentate şi aplicate la cursurile şi lucrările de laborator de Informatică Medicală şi Biostatistică şi de Matematică Informatică din cadrul Universităţii de Medicină şi Farmacie Grigore T. Popa din Iaşi. În formarea profesională medicală este imperios necesară însuşirea elementelor descriptive și de analiză de bază în domeniul biostatistic. Acestea constituie instrumente de neînlocuit în cercetarea științifică, statistica reprezentând modalitatea principală de extragere si prelucrare a informațiilor relevante din datele clinice si de laborator. Biostatistica este o ştiinţă cu arie mare de desfăşurare, este vastă prin tehnicile şi subdomeniile de utilizare. Ne-am propus să realizăm o iniţiere solidă în domeniu dar este evident că îmbogăţirea cunoştinţelor va depinde în cele din urmă de interesul personal pentru o anumită temă și de specializarea şi traseul profesional ales în viaţă. Ne-am concentrat atenţia asupra unui software foarte popular dar valoros şi potrivit pentru iniţiere în această sferă a ştiinţei, și anume Microsoft Excel 00 (compatibil cu versiunile anterioare). Mai mult chiar prin popularitatea, compatibilitatea cu multe alte programe şi prin uşurinţa în utilizare, reprezintă o variantă bună de început în calculul tabelar şi statistic. Primele teme descriu metode de formatare, calcul de funcţii, contorizare, filtrare şi de transformare a datelor, tehnici dedicate softului studiat. O prezentare succintă a teoriei probabilităţilor am realizat-o pe parcursul a patru teme, ca o introducere și pentru o înţelegere mai clară a noţiunilor analizate în capitolele următoare. Am continuat în cadrul elementelor descriptive cu prezentarea indicatorilor statistici, a histogramelor, a curbei de distribuţie Gauss- Laplace şi a intervalelor de confidenţă. În cadrul analizei am început cu determinarea dimensiunii eşantionului de lucru, apoi testul student (t) cât şi metoda ANOVA pentru compararea mediilor, regresia liniară, corelaţia şi pentru studiul supravieţuirii am descris tehnica Kaplan Meier (ca să deschidem apetitul pentru studiul statistic). Introducere 9

11 În final am prezentat patru teme pentru lucrul cu baze de date întrun software larg răspândit dedicat gestiunii informaţiei, și anume Microsoft Access 00. Este o iniţiere ce prezintă o alternativă la Microsoft Excel, ca gestiune a datelor într-o primă etapă. Din experienţa noastră de predare în cadrul acestei frumoase ştiinţe interdisciplinare, Informatica Medicală, considerăm aceste teme ca fiind necesare în formarea viitorului specialist dedicat domeniului sănătăţii şi sperăm că informaţiile descrise vor ajuta în înţelegerea teoretică cât şi în aplicarea practică a noţiunilor prezentate. Întrucât orice demers educațional este perfectibil, pentru sugestii, observaţii, comentarii şi discuţii pe aceste teme, aşteptăm să ne contactați la adresele de prezentate de autori. Autorii 0 Introducere

12 FORMATAREA CELULELOR Noţiuni prezentate: Formatarea celulelor. Formatare condiţionată Utilizarea comenzii Paste Special Aplicaţiile de calcul tabelar folosesc seturi de date ce pot fi prelucrate printr-o multitudine de tehnici matematice. Extragerea de informaţii se poate realiza prin folosirea filtrelor, prin ordonare, prin utilizarea de metode de validare, consolidare prin creare de rezumate asupra selecţiilor de date prin diferite analize printre care, de importanță majoră analiza statistică []. Informaţia este introdusă în celule ce determină tabelul. Celula este identificată după coloana şi rândul a căror intersecţie o definesc (asemănător tablei de şah). Pentru a putea lucra cu date, acestea sunt definite în forme proprii şi astfel permit aplicarea de operatori şi funcţii specifice. Tipuri principale de date: Text, Numeric, Data calendaristică. Din acestea pot deriva subtipuri funcţie de interes şi de cerinţele necesare. În Excel, se foloseşte implicit, formatul General. Practic, acesta acceptă orice tip de dată. Prin introducerea unor valori, se caută să se determine automat tipul de dată introdus (exemplu numeric, dată calendaristică) [, ]. Practic prima valoare introdusă într-o celulă este foarte importantă deoarece defineşte tipul datei. Avem evident şi posibilitatea schimbării tipului dacă dorim. Formatarea înseamnă definirea elementelor ce descriu afişarea unei date. Aceste elemente definesc alinierea datelor, tipul de caracter folosit, tipul de chenar dar şi caracteristici speciale, cum ar fi de exemplu, pentru valorile numerice, precizia de afişare cu zecimale semnificative şi nesemnificative, forma de afişare a valorilor negative, formele compactă, ştiinţifică şi altele. Pentru a defini sau modifica prezentarea unei date se deschide fereastra de formatare a celulelor (Format Cells) prin Home apoi Number (se face clic pe săgeata din colţul din dreapta jos). Se obţine fereastra reprezentată în figura următoare unde se poate defini forma de afişare dorită. Avem posibilitatea de alegere din formatele predefinite dar putem crea şi formate personalizate (custom). Formatarea celulelor

13 Figura -. Formatarea celulelor Formatul numeric este de importanţă majoră. Definirea formatului se face folosind caracterele speciale: #, 0,?. # - Caracter folosit pentru afişare de numere. Se afişează valorile numerice calculate fără a impune un număr de zerouri nesemnificative. 0 (zero) - Impune afişarea valorilor numerice nesemnificative.? - Caracter folosit pentru alinierea datelor la punctul zecimal sau la semnul de fracţie. Iată mai jos câteva exemple de folosire a formatului numeric. Tabelul -. Caractere speciale şi efectul în formatarea valorilor numerice. valoare cod folosit afişare descriere #.# 34.6 Se impune afişarea unei singure zecimale. Aceasta va fi aproximată ###,###.####, Se impun 4 zecimale semnificative dacă există. De asemenea se va folosi caracterul virgulă (,) pentru delimitarea miilor # 35 Fără zecimale. Observaţi aproximarea prin rotunjire #, Afişare număr ca multiplu de Afişare a două zecimale nesemnificative. A doua zecimală nesemnificativă este afişată chiar dacă este Afişare a 4 zecimale nesemnificative ? 3.6 Aliniere la punctul zecimal. 3.? 3.0 Aliniere la punctul zecimal..5 # 00/00 0/04 Fracţie cu precizie până la /00 (sutime)..5 # 000/000 00/004 Fracţie cu precizie /000. Formatarea celulelor

14 Se poate folosi şi un spectru de culori elementare: Negru [Black], Bleu [Cyan], Violet [Magenta], Alb [White], Albastru [Blue], Verde [Green], Roşu [Red], Galben [Yellow]. Pentru scrierea codului ce defineşte formatul se respectă ordinea: se defineşte mai întâi culoarea urmată de formatul pentru valori pozitive apoi se defineşte culoarea şi formatul pentru valori negative. Aceste coduri se separă prin simbolul ;. Culoarea este încadrată între paranteze pătrate. Tabelul -. Formate pentru valori negative şi culori posibile. valoare cod folosit efect în afişare 0.5 [Blue]#,##0;[Red](#,##0) [Blue]#,##0;[Red](#,##0) (0) Există un bogat sortiment de formate predefinite (prezente în biblioteca Excel) pentru dată calendaristică, pentru timp, pentru valori monetare etc. În mare parte aceste formate satisfac cerinţele utilizatorilor, astfel încât forma personalizată este doar în cazuri deosebite, particulare folosită. Formatarea condiţionată Cu ajutorul acestei tehnici se vor scoate în evidenţă celulele a căror valori îndeplinesc o anumită condiţie. Pentru aceasta se activează formatare condiţionată (Conditional Formatting) din grupul Home. Formatarea în acest caz poate consta în schimbarea culorii de scriere, sau în aplicarea unei culori de fundal sau a unui gradient de colorare, sau se pot ataşa pictograme (de ex.: săgeată, cerc, romb, triunghi) [3]. Figura - prezintă pictogramele ce se pot folosi la formatarea condiţionată a celulelor. Regulile de formatare prezintă următoarele variante de definire a condiţiilor pentru selecţia: datelor mai mari decât o valoare critică (prag); datelor mai mici decât o valoare de referinţă; datelor cuprinse într-un domeniu (min, max); Figura -. Formatare condiţionată Formatarea celulelor 3

15 datelor egale cu o valoare de interes; celulelor ce conţin un anumit text; datelor de tip calendaristic într-un anumit domeniu; valorilor duplicate; primelor n cele mai mari valori sau n% (exprimare procentuală); celor mai mici n sau n% valori; valorilor mai mari sau mai mici decât media. Există, cum era de aşteptat, posibilitatea definirii regulilor personalizate de selecție. Exemplu de lucru: Se doreşte marcarea (prin scriere cu roşu) a celulelor a căror valori se află într-un domeniu de 5% apropiere de valoarea maximă (altfel spus primele 5% cele mai mari valori). Realizare: Se marchează blocul de date de studiu. Se lansează Conditional Formatting, se alege opţiunea a doua Top/Bottom Rules se alege apoi Top 0% (acest 0% este sugestiv, se poate schimba după dorinţă în etapa următoare). Figura -3. Formatare condiţionată În fereastra nou apărută se defineşte procentul dorit (5% pentru cazul de faţă) şi în final formatul (conform cerinţei de scriere cu roşu). Astfel, efectul va fi ca în exemplul prezentat în figura alăturată. Comanda Paste Special Copierea datelor dintr-un program în altul sau în cadrul aceluiaşi program este o operaţie des întâlnită. În softurile de calcul tabelar putem folosi formule, valori efective, formatări specifice. Ca urmare am fi îndreptăţiţi să ne punem problema existenţei metodelor de copiere a întregului conţinut sau doar a formulelor de calcul sau poate doar a formatelor folosite. Chiar mai mult, deoarece folosim tabele cu date, este posibil să realizăm o copiere cu transpunerea datelor (ca şi transpusa unei matrice transformarea liniilor în coloane) [3]. Realizarea celor prezentate mai sus se poate înfăptui folosind comanda Paste Special. Se copie sursa iar pentru destinaţie se aplică Home apoi se activează meniul Paste (sau combinaţia Ctrl+Alt+V). 4 Formatarea celulelor

16 Putem copia în destinaţie: tot conţinutul deci şi formatarea; doar formulele; doar valorile, practic funcţiile nu se copie (este o formă statică de copiere); doar formatarea; doar comentariile ataşate unei celule; doar regulile de validare; copierea conţinutului şi a formatării folosind temele ce s-au aplicat; tot conţinutul şi formatul cu excepţia liniilor ce definesc conturul celulei; doar dimensiunea coloanelor; doar formulele şi formatul; doar valorile şi formatul. Dacă destinaţia conţine deja valori atunci se pot efectua anumite operaţii cu datele din sursă şi cu cele din destinaţie. Implicit se aplică doar suprapunerea deci, se pierde conţinutul destinaţiei. Dacă se foloseşte Paste Special atunci datele din destinaţie pot fi adunate, împărţite, înmulţite sau se pot scădea datele din sursă. O operaţie importantă este transpunerea ce permite transformarea liniilor tabelului în coloane. EXERCIŢII. Definiţi formatul celulelor următoare astfel încât să aveţi afişarea conformă cu cele prezentate în tabelul de mai jos. Figura -4. Definiţi formatul Formatarea celulelor 5

17 Observaţii: Veţi introduce valorile în coloana A, apoi le veţi copia în coloana C. Vă veţi poziţiona pe fiecare valoare din coloana C şi prin Home + Number (activaţi definirea formatului) veţi căuta mai întâi prin tipurile predefinite forma de prezentare cerută. După ce aţi setat această formatare în cazul predefinit veţi redeschide fereastra de formatare şi veţi accesa formatul predefinit (custom). Acolo veţi găsi codurile de formatare. În celula C5 pentru exemplul care are valoarea.e+07 s-a folosit formatul ştiinţific. Practic este. *0 7. Această formatare există ca opţiune explicită. Aceste formatări, exista explicit şi pentru datele calendaristice. Ca exerciţiu completaţi coloana B cu formatarea de tip personalizat ce defineşte fiecare tip de dată calendaristică. Puteţi deduce anumite reguli ce rezultă din formele diferite de afişare?. În cadrul benzii de comenzi Home aveţi grupul de formatare numit Number (considerăm acest nume impersonal, poate mai potrivit era Format). Puteţi prin citirea Help-ului sau prin încercarea aplicării efectului asupra unor valori să determinaţi rolul fiecărui buton? Butoanele din acest grup: $, %,... Figura -5. Butoanele din grupul Number Pentru o rapidă înţelegere puteți să luaţi ca exemple diferite valori numerice şi să le formataţi folosind butoanele analizate (învăţare prin exemple). 3. Formataţi condiţionat următoarele valori astfel încât să obţineţi destinaţiile identice cu exemplele de mai jos. Observaţie: Coloanele definite Ex. şi Ex. sunt formatate folosind prima grupă de formatări condiţionate (Highlight Cells Rules), Ex.3 se încadrează în grupa a 3-a (Data Bars), Ex. 4 este o scară bicoloră iar ultimul exemplu cu numărul 5 este realizat folosind setul de pictograme (Icon Set). 6 Formatarea celulelor

18 Figura -6. Formatări condiţionate Figura -7. Formatare condiţionată dedicată. 4. Butonul Format Painter care se poate vedea şi în figura -6 (încercuit în stânga sus), este folosit pentru a copia formatul dintr-o celulă iniţială şi a-l aplica în celula destinaţie. Facem următoarea experienţă: introducem în celula A într-o foaie de calcul nouă, data calendaristică /3/0 (observaţi formatul implicit, lună/zi/an). Verificaţi că tipul setat este dată calendaristică (vedeţi la formatarea celulei ce este definit). Acum introducem peste această valoare din A o nouă valoare de tip numeric, să zicem.3 apoi Enter. Observaţi ce se întâmplă: apare o dată calendaristică şi anume, //900. Puteţi explica? Acum vom copia formatul celulei B în celula A folosind Format Painter: Click pe B apoi pe Format Painter apoi pe A. Abia acum va apărea corect valoarea.3. Reţineţi! Prin introducerea unei date calendaristice celula respectivă a fost formatată corespunzător. În concluzie, formatul trebuie redefinit pentru a accepta date numerice şi nu calendaristice. Metoda de redefinire este la alegerea noastră. 5. Introduceţi un număr de 0 valori, reprezentând notele la un examen. Formataţi condiţionat astfel încât: a. Valorile mai mari ca media să fie scoase în evidenţă; b. Primele 3 valori cele mai mari să fie marcate; c. Formataţi notele conform cu exemplul din figura -7. Datele nu trebuie să fie ordonate. Observaţi regula: sub 5 inacceptabil, peste 9 inclusiv este foarte bine, între 5 şi 8 inclusiv valori normale marcate cu semnul mirării pe fundal galben. Formatarea celulelor 7

19 6. Copiaţi doar valorile fără format de la exerciţiul coloana C folosind Paste special, în coloana E. Observaţi că datele calendaristice s-au distrus. Corectaţi astfel încât forma să fie identică cu cea din coloana A. Variante: a) - puteţi să formataţi folosind Numbers sau b) - puteţi să copiaţi doar formatul iniţial din coloana A. 7. Copiaţi doar formatul de la exerciţiul 3 coloana G peste coloana D (folosiţi Paste special + all merging conditional formats). Observaţi cele două formate cum aglomerează afişarea datelor. Pentru a şterge un format folosiţi Conditional Formatting apoi Manage Rules. Puteţi astfel şterge din regulile de formatare existente. Exersaţi prin realizarea de copii multiple de formatări. Cum am putea şterge altfel toate formatele aplicate (puteţi găsi şi altă metodă)? 8 Formatarea celulelor

20 ADRESAREA CELULELOR. CREAREA FORMULELOR DE CALCUL. Noţiuni prezentate: Adresarea relativă a celulelor şi a blocurilor ca argumente pentru calcul. Crearea formulelor de calcul. Tehnica automată de încărcare a celulelor (autoîncărcare, autofill). Reguli de adresare a celulelor Aplicaţiile de calcul tabelar folosesc foi de calcul (numite spreadsheet sau sheet) ce conţin date prezentate sub formă de tabele. Informaţia este astfel organizată pe linii şi coloane. Elementele tabelului se numesc celule şi sunt unic determinate de identificatorul de coloană (implicit de tip caracter A, B,...) şi identificatorul de linie (un număr) [3]. Adresarea este asemănătoare tablei de şah. Originea tabelului este considerată colţul din stânga sus. O celulă este identificată prin elementele coloana şi rând corespunzătoare. Exemple: A este prima celulă, B7 defineşte celula ce se află la intersecţia coloanei a -a (B) cu rândul 7. Un bloc de date (celule alăturate, consecutive) este identificat prin celula de start din colţul stânga sus respectiv celula de sfârşit din colţul din dreapta jos legate de caracterul special : []. Exemplu În figura alăturată s-a definit blocul B:C7 format din cele două coloane respectiv şapte rânduri (în total 4 celule). Putem folosi mai multe blocuri sau celule neconsecutive ca argument al unei funcţii (de exemplu în calculul mediei). Acestea se vor despărţi prin virgulă. Exemplu: B3:C8,F4,H3:H5 (observaţi folosirea caracterului : dedicat definirii blocurilor şi caracterul, folosit pentru a enumera blocurile). Figura -. Bloc de calcul Modul de adresare al celulelor. Crearea formulelor de calcul 9

21 Pentru a defini o întreagă coloană vom ignora indicatorul de rând. De exemplu blocul B:B, reprezintă întreaga coloană a doua. Practic vom elimina rândul din definirea blocului. O regulă similară se aplică pentru a defini un rând întreg. Ex.: pentru a indica blocul format din rândul trei vom scrie 3:3. Prin lipsa rândului se înţelege că toate rândurile aparţin selecţiei iar prin lipsa coloanei se înţelege că toate coloanele aparţin selecţiei. O formulă începe cu = astfel se va calcula valoarea cerută. Pentru calculul mediei a două valori vom scrie în celula destinaţie: =(A+A)/ sau folosim funcţia average() astfel: =average(a:a). Biblioteca din Excel conţine un arsenal bogat de funcţii de calcul matematic, statistic, de lucru cu variabile text, financiare, inginereşti, logice ce ne ajută în rezolvarea problemelor de tip medical [, 3]. Operatori şi câteva funcţii strict necesare în calculul formulelor matematice. Tabelul -. Operatori aritmetici Nr. operaţie operator exemplu. Grupare () =5*(+3). Adunare + =A+ 3. Scădere sau negaţie - =5-4. Înmulţire * =6*8 5. Împărţire / =9/3 6. Ridicare la putere ^ =6^ 7. Procent % =0%*5 (rezultat=.5) Tabelul -. Funcţii elementare Nr. Funcţie Sintaxă Exemplu. Radical Sqrt() =sqrt(4). Minim Min() =min(a:a9) 3. Maxim Max() =max(a:a9) 4. Suma Sum() =sum(a:a9) 5. Media Average() =average(a:a9) 6. Mediana (valoarea de mijloc din şirul ordonat) Median() =median(a:a9) 7. Valoarea modală (valoarea din şir cel mai des întâlnită) Mode() =mode(b:b9) 0 Modul de adresare al celulelor. Crearea formulelor de calcul

22 Tabelul -3. Operatori pentru compararea datelor (relaţionali rezultatul va fi de tip logic) Nr. operaţie operator exemplu. Egalitate = =a=c. Mai mare > =a5>b5 3. Mai mare egal cu >= =c>=7 4. Mai mic < =d<c 5. Mai mic egal cu <= =d3>=6 6. Diferit de <> =d<>c Tabelul -4. Operatori pentru referirea celulelor Nr. operaţie operator exemplu. Definire bloc calcul : B:B5. Unirea blocurilor de calcul, MIN(B5:B5,D3:D5) 3. Intersecţia blocurilor de calcul spaţiu MIN(B5:B5 A:D5) Pentru concatenarea (unirea sau adunarea) a două şiruri avem operatorul &. Exemplu: = Informatică & & Medicală va avea ca efect crearea şirului Informatică Medicală. Operatorii au o anumită prioritate. Astfel în interpretarea unei expresii matematice ordinea de execuţie a calculelor este definită de prioritatea operatorilor folosiţi. Tabelul -5. Prioritatea operatorilor prioritate operator scop Operatori de referinţă:. : (două puncte) spaţiu Definirea blocurilor de calcul, (virgulă). - (negaţia) - 3. % Procent 4. ^ Ridicare la putere 5. * şi / Înmulţiri şi împărţiri 6. + şi - Adunări şi scăderi 7. & Concatenare şiruri 8. = < sau > <= >= <> Operatori relaţionali Modul de adresare al celulelor. Crearea formulelor de calcul

23 Autoîncărcarea (autofill) blocurilor de date este o tehnică de necesitate şi utilitate maximă. Aceasta prezintă diferite forme: A copierea unei formule cu ajustarea relativă a identificării celulelor ce definesc argumentele funcţiilor; B crearea unei serii de date. A - Metodă pentru copiere automată Se selectează prima celulă (pentru copiere), se poziţionează prompterul pe colţul din dreapta jos al selecţiei (acesta se transformă în cruce neagră), se defineşte destinaţia prin apăsarea butonului de mouse şi se deplasează prompterul (drag and drop) până la ultima celulă dorită. Prompterul de mouse în formă de cruce - indică posibilitatea încărcării automate. + b-se poziţionează prompterul de mouse în colţul din dreapta jos al selecţiei (formă de cruce). Figura -. Paşii de urmat pentru încărcarea automată a destinaţiei a-se selectează celula de copiat c-se defineşte destinaţia prin tragere (pe coloană în cazul nostru). Încărcarea realizata este cu adresare de tip relativ. Presupunem că avem ca exemplu calculul produsul a două celule (în D3 avem: =B3*C3 figura -). La fiecare schimbare de rând se vor schimba corespunzător coeficienţii indicatori ai rândului (adresare relativă). Dacă vom citi formula scrisă automat în celula D5 aceasta va fi: =B5*C5. Practic în formula din celula destinaţie corespunzător rândului se vor modifica valorile numerelor ce definesc celulele ce sunt argumente de calcul (pentru funcţia produs x*y în cazul prezentat). B - Metodă pentru încărcarea unei serii Pentru încărcarea unei serii de date (numerice, calendaristice, alfabetice si numerice) se vor selecta primele celule ce definesc relaţia de încărcare a destinaţiei. Apoi se continuă urmând paşii descrişi mai sus la Modul de adresare al celulelor. Crearea formulelor de calcul

24 autoîncărcare. Valorile ce urmează se calculează după regula: se face diferenţa dintre primele două valori (aceasta este raţia) şi se adaugă ultimei valori pentru a defini o nouă valoare. Tabelul -6. Exemple de încărcări automate. Valori iniţiale A3 6/8/0 4 A5 6/9/0 3 6 A7 6/30/0 Valori obţinute prin 4 8 A9 7//0 autoîncărcare 5 0 A 7//0 6 A3 7/3/0 Menţionăm că raţia poate fi şi negativă sau subunitară nu neapărat întreagă pozitivă. Mai multe despre încărcarea seriilor (liniare/neliniare, adresare absolută) de date se vor prezenta într-un laborator următor. EXERCIŢII. Introduceţi în coloana B, 0 de valori reprezentând temperatura unor pacienţi aleşi generic (valori cuprinse în domeniul ⁰C). În coloana C veţi introduce frecvenţa de apariţie a fiecărei temperaturi (valori ce se pot repeta). Coloana A va cuprinde numărul de ordine. Nu uitaţi capul de tabel, trebuie să conţină etichetele corespunzătoare. Exemplu: Figura -3. Calculul unei funcţii. Calculaţi în coloana D rândul, media temperaturilor din coloana B scriind formula explicit =(B+B3+...+B)/0, apoi folosind funcţia average() observaţi avantajul folosirii funcţiilor ce lucrează cu blocuri de date. Puteţi scrie direct în celulă sau în bara de formule: =average(b:b), sau puteţi accesa biblioteca de funcţii Home + Editing şi activaţi meniul AutoSum. 3. Calculaţi în coloana E media ponderată a temperaturilor din coloana B (trebuie să ţineţi cont de frecvenţe deci numărul de cazuri din coloana C: MMMMMMMMMMMMMMMMMMMM = (TTTTTTpp CCCCCCCCCCCC). Este de fapt media întregului set de CCCCCCCCCCCC date. Modul de adresare al celulelor. Crearea formulelor de calcul 3

25 4. Calculaţi numărul total de cazuri din coloana C folosind funcţia sum(). 5. Calculaţi valorile minimă respectiv maximă a temperaturii (puteţi folosi funcţiile min(), max() sau puteţi ordona datele şi apoi alegeţi extremele). 6. Calculaţi mediana temperaturii. Este valoarea de mijloc a şirului de date ordonat, (median()) apoi valoarea modală (valoarea ce se repetă de cele mai multe ori, mode()) a numărului de cazuri din coloana C. 7. Calculaţi pentru datele următoare indicele de masă corporală (IMC). Aflaţi apoi valoarea medie a IMC-ului pe întreg lotul şi separat calculaţi mediile obţinute pentru sex=f respectiv sex=m IIIIII = GGGGGGGGGGGGGGGGGG(KKKK) (IIIIIIIIIIIIIIIIII(mm)) Tabelul -7. A B C D nr Sex Greutate(Kg) Inălţime(m) F M M M F M F F F A B C D 0 M F M M F M F F 5.65 Practic veţi scrie în coloana E pe rândul corespunzător numărului din coloana A: =C/D^. Apoi folosind tehnica Autofill veţi completa automat restul celulelor. Priviţi formula din celula E7 observaţi schimbarea automată a indicilor corespunzători definirii rândurilor ce adresează celula în formula de calcul. 8. Introduceţi într-o foaie de calcul valorile prezentate în tabelul de mai jos: Tabelul -8. A 0 Test 5: Monday abc Test 3 A5.5 Test 5: Tuesday abc 4 Descrieţi pentru fiecare coloană valorile următoare ce vor fi încărcate automat de soft prin AutoFill. 4 Modul de adresare al celulelor. Crearea formulelor de calcul

26 Completaţi următoarele 0 de valori. Veţi selecta primele două valori de pe coloană după care poziţionaţi prompterul pe colţul din dreapta jos veţi ţine butonul din stânga al mous-ului apăsat şi prin tragere veţi defini destinaţia. Căutaţi şi altă metodă de completare automată a seriilor cu valorile iniţiale prezentate în tabel. Dacă deja coloana adiacentă din stânga este încărcată puteţi aplica Autofill prin dublu click pe colţul din dreapta a selecţiei primelor două celule. Observaţi că destinaţia încărcată conţine o valoare nu o funcţie. 9. Se consideră setul de date normalizate pe domeniul [0,]. Acestea trebuie convertite în domeniul [36., 4] şi vor reprezenta valori ale temperaturii. Realizaţi această conversie în coloana Temp. Formula de calcul: Temp = Date (4 36.) Tabelul -9. A B C Nr. Date Temp A B C Calculaţi media, mediana, minimul, maximul, valoarea modală pentru temperatura din coloana C de la exerciţiul 9. Creaţi o nouă coloană cu abaterea individuală a temperaturii pentru tabelul precedent (AbatereaTi=Ti-Tmediu). Calculaţi suma abaterilor individuale. Ce obţineţi? Puteţi explica? (se va obţine o valoare foarte mică aproape 0 datorită preciziei ce este finită). Observaţie: nn nn nn SSSSSSSS aaaaaaaaaaaaaaaaaaaa = ii=(tttt TTTTTTTTTTTT) = ii= TTTT TTTTTTTTTTTT = nn nn ii= TTTT nn TTTTTTTTTTTT = nn TTTTTTTTTTTT nn TTTTTTTTTTTT = 0 nn ii= = Modul de adresare al celulelor. Crearea formulelor de calcul 5

27 3 METODE DE ADRESARE A CELULELOR Noţiuni prezentate: Adresarea absolută; Ataşarea unui nume pentru un bloc de calcul; Stilul de referire RC. Adresarea absolută Sunt situaţii în care este necesar să folosim în cadrul unei formule o valoare gen parametru pe lângă variabila de facto (variabila x). Ca exemplu ar fi funcţia densitate de probabilitate Gauss-Laplace ce depinde de parametrii medie şi dispersie pe lângă variabila x ce se studiază. Alt exemplu mai simplu, constă în calculul mediei ponderate ţinând cont de creditele fiecărei discipline (valoarea creditelor ar reprezenta parametrii). Putem matematic scrie F(p,x) parametrul p fiind constant pentru un element din familia de funcţii astfel definită. În această situaţie pentru o întreagă coloană de calcul x vom avea parametrii p constanţi. Aceştia pot fi introduşi prin metoda adresării absolute. Adresarea absolută este definită prin folosirea caracterului special $ ce poate precede indicatorul de coloană sau indicatorul de rând [, 3, 6]. Astfel prin tehnica Autofill nu se va mai schimba automat indicatorul de rând dacă am precedat rândul folosind $, respectiv indicatorul de coloană dacă precedăm coloana folosind caracterul $. Figura 3-. Adresare absolută 6 Modul de adresare absolută a celulelor

28 Exemplu: Avem două variabile V, V şi dorim să calculăm funcţia F(V,V,p,p)=p*V+p*V, unde p şi p sunt ponderile variabilelor (p şi p sunt fixate pentru orice valoare V sau V). Dacă avem două coloane cu valorile V şi V şi cunoaştem ponderile p şi p putem folosi adresarea absolută pentru a calcula funcţia F. Vom scrie în rândul 5 coloana D: =B5*B$3+C5*C$3 Am folosit semnul $ înaintea lui 3 pentru a bloca incrementarea automată a rândului prin tehnica AutoFill. Pentru rândul 7 de exemplu funcţia automat completată va fi: =B7*B$3+C7*C$3 Ataşarea unui nume pentru un bloc de date Putem ataşa un nume unui set de date de calcul, format dintr-unul sau mai multe blocuri şi/sau celule independente folosind identificări sugestive. În loc să selectăm de fiecare dată blocurile respective putem astfel folosi numele definit ca argument în funcţia pe care dorim să o calculăm. Sunt două metode de definire:. Din meniul Formulas se alege grupul Define Names. Se completează numele şi blocul sau blocurile componente.. Se selectează datele dorite (blocuri şi celule) şi apoi se scrie numele în căsuţa text Name Box din stânga barei de formule. Metoda Definirea folosind căsuţa name box. Metoda Definirea setului de date folosind meniul. Figura 3-. Metode de definire a blocurilor de date Exemplu: aflarea mediei average(c5:c7,c0:c4) poate fi uşor înlocuită cu average(date), în continuare putem calcula maximul, deviaţia standard şi orice formulă care necesită blocurile definite de numele date. Prin butonul Name Manager se pot crea, edita, şterge deci se gestionează blocurile definite prin nume. Modul de adresare absolută a celulelor 7

29 Observaţie: Numirea unui bloc de date sau a cel puţin unei celule poate reprezenta o variantă echivalentă adresării absolute. Astfel ponderile pot fi identificate cu nume predefinite. Stilul de referire RC Până acum am identificat celulele din cadrul tabelului prin scrierea indicatorului alfabetic de coloană urmat de indicatorul numeric de rând. Acest stil este setat implicit în Excel şi se numeşte stilul de adresare A. Există un al doilea stil de identificare a celulelor, numit stilul RC pentru care mai întâi numim rândul şi apoi coloana celulei la care facem referire. Atât rândurile cât şi coloanele sunt identificate numeric [, 3, 4]. Trecerea la stilul RC se face urmând paşii:. pentru Excel 00: File + Options +Formulas apoi se bifează opţiunea RC Reference Style.. pentru Excel 007: Office Button + Excel Options +Formulas apoi se bifează opţiunea RC Reference Style. Referirea relativă în stilul RC pentru aceasta se folosesc parantezele pătrate în definirea numărul rândului, respectiv a coloanei. Poziţia destinaţie actuală devine centrul de referire. Astfel avem şi valori numerice negative dacă facem apel la celule care se află deasupra, respectiv la stânga celulei de calcul [3]. Exemplu: R[-]C[4] implică o referire relativă cu un rând mai sus, respectiv cu 4 coloane mai la dreapta poziţiei curente (poziţia curentă este destinaţia). RC[-], este o referire relativă pe acelaşi rând, dar o coloană la stânga faţă de poziţia curentă. Este acelaşi lucru cu a scrie R[0]C[-]. C[], reprezintă o referire la o întreagă coloană. Este a doua coloană spre dreapta poziţiei curente. Având în vedere faptul că toate rândurile sunt implicate, acestea vor fi ignorate în definirea blocului, asemănător stilului de referire A. Referirea absolută în stilul RC nu se folosesc paranteze pătrate iar numerele se scriu imediat după R sau C (indicator de rând sau coloană) [3, 4]. Originea sistemului este colţul din stânga sus. Astfel RC7 defineşte o referire absolută la celula din rândul coloana a şaptea. R5 defineşte tot rândul al cincilea; C defineşte prima coloană. Exemple echivalente de adresare a blocurilor şi a celulelor în cele două stiluri de lucru: 8 Modul de adresare absolută a celulelor

30 Nr Tabelul 3-. Formule echivalente în cele două stiluri de referire. Destinaţie (celula în care suntem poziţionaţi pentru scrierea formulei) Stilul A formula Stilul RC formula C A*B RC[-]*RC[-] C3 A3*A$ RC[-]*RC[-] 3 B A:A C[-] 4 B A:A7 RC[-]:R[6]C[-] 5 C7 $A$3 R3C EXERCIŢII. Calculaţi media şi media ponderată folosind datele din tabelul de mai jos. Figura 3-3. Calculul mediei ponderate. Dacă în cadrul formulei aplicăm adresarea pentru ponderi (credite) de forma $C$, $D$ respectiv $E$, se schimbă valoarea rezultatului? Este utilă această adresare? Este greşită? Este prea restrictivă? 3. Calculaţi Media, Mediana şi Modul pentru coloanele Medie, respectiv Medie ponderată. Dacă valorile calculate pentru medie sunt mai mari comparativ cu media ponderată ce concluzie puteţi trage? Modul de adresare absolută a celulelor 9

31 Tabelul 3-. Medie Medie ponderată Biblioteca de funcţii Media Average() Mediana Median() Modul Mode() 4. Într-o clinică privată se achiziţionează medicamente conform următorului tabel. Cunoscând numărul de produse cumpărate pentru fiecare tip în parte, preţul pe bucată şi valoarea TVA (%) aplicată, să se calculeze: Figura 3-4. Tabelul Excel cu datele de calcul a. Pentru fiecare medicament pe bucată valoarea cu TVA inclus; b. Pentru fiecare medicament (produs) valoarea TVA plătită (pe bucată) şi preţul întreg (cu TVA) pentru fiecare produs ( întreaga cantitate pe produs); c. Valoarea totală (toate produsele) plătită fără TVA şi valoarea totală a TVA; d. Se modifică valoarea TVA la 9%. Cu cât (în valoare absolută) se plăteşte mai puţin pentru întreg consumul de medicamente? (evident este de aşteptat să folosiţi adresarea absolută a valorii TVA şi astfel, pentru noul calcul aveţi de modificat doar celula C). Observaţie: Pentru formatul monetar (Preţ/buc fără TVA) s-au utilizat codurile: #,##0.00 [$lei-48] 5. Folosind metoda ataşării unui nume blocului de calcul să se rezolve problema. Se va denumi creditul la anatomie c_anat, respectiv c_biochim şi c_infomed. Rezolvare: veţi scrie formula pe rândul 4: =(C4*c_anat+D4*c_biochim+E4*c_info)/(c_anat+c_biochim+c_info) 6. Calculaţi valoarea produsului cu TVA de la exerciţiul 4 folosind ataşarea de nume blocurilor de calcul. 7. Folosind stilul de referire RC rezolvaţi problemele şi Modul de adresare absolută a celulelor

32 4 INTRUDUCEREA SERIILOR DE DATE ÎN FOAIA DE CALCUL. CONTORIZAREA DATELOR Noţiuni prezentate: Mai multe despre încărcarea seriilor de date; Generator de valori aleatoare; Contorizarea datelor. Mai multe despre încărcarea seriilor de date Am folosit tehnica Autofill şi am încărcat automat celulele destinaţie după o formă liniară (progresie aritmetică, a k=a +(k-)*r, unde a k este termenul k, r este raţia). Am introdus de exemplu, valorile apoi şi computerul a decis (motivat prin relaţia liniară căutată) că următoarea valoare aşteptată este 3 apoi 4 şi aşa mai departe, practic o serie aritmetică cu raţia de valoare. Putem evident gândi şi altfel valoarea aşteptată plecând de la iniţierea cu şi. Dacă este obţinut prin înmulţirea lui cu, atunci valorile aşteptate sunt 4 apoi 8 etc. Este clar o altă formă, este o progresie geometrică (forma generală: a k=a *q (k-), unde q este raţia) cu raţia. Putem realiza progresii geometrice folosind Home + Editing+Fill. Figura 4-. Alegerea opţiunii de încărcare. Primele 4 variante din meniul ce se deschide ne permite încărcarea celulelor adiacente cu date pe cele 4 direcţii: sus, jos dreapta, stânga. Aceasta este forma rapidă de încărcare şi este echivalentă cu copierea (deci nu foarte utilă). Trebuie ca celula de start (sau sursă) să conţină valoarea de copiat. Introducerea seriilor de date în foaia de calcul 3

33 Metoda de lucru constă în aplicarea paşilor:. Pentru încărcarea unei celule adiacente: se selectează celula adiacentă unei valori de referinţă şi se alege direcţia de încărcare. Menţionăm că doar o celulă va fi încărcată în acest mod.. Pentru încărcarea unui set de celule: se vor selecta celula sursă cât şi celulele destinaţie (ce pot începe sau nu adiacent şi pot fi sau nu consecutive) şi apoi se va defini direcţia de încărcare(din cele 4 posibile). Observaţie: pentru selectarea celulelor neconsecutive se va aplica Ctrl + tragere cu mouse-ul (mausul). În cadrul meniului de încărcare (Fill) avem şi opţiunea pentru serii (Series) ce permite lucrul şi cu progresii geometrice. Figura 4-. Încărcarea seriei de valori Forma liniară o cunoaştem deja, dar iată că aici putem introduce explicit raţia şi eventual valoarea maximă acceptată ca o limitare, ca un punct de oprire. Forma geometrică ca şi cea aritmetică (numită şi liniară) se descriu în mod asemănător prin raţie (Step value) şi prin valoarea maximă acceptată (Stop value). Există şi opţiunea de deducere a tendinţei, deci trendul seriei. Prin aceasta Excel calculează automat raţia ce se obţine din diferenţa respectiv împărţirea primelor două numere pentru progresia aritmetică, respectiv geometrică. Putem completa şi date calendaristice definind şi unitatea de măsură: zile, zile lucrătoare din săptămână, luni şi ani (forme destul de utile). De asemenea, trebuie definită direcţia de completare şi anume pe rânduri sau coloane. Metodă de lucru: Metoda Se selectează celula de start care se încarcă cu valoarea iniţială a seriei. Se alege apoi Series din grupul Editing şi se completează fereastra cu valorile şi opţiunile dorite. Metoda Se selectează atât sursa cât şi destinaţia (celulele nu trebuie să fie neapărat consecutive deci vom folosi tasta Ctrl). Apoi se procedează ca la metoda prin definirea seriei dorite. 3 Introducerea seriilor de date în foaia de calcul

34 Exemplul. Dorim să încărcăm automat pe coloană o serie geometrică cu raţia începând cu valoarea 4.. Vom introduce valoarea de start în celula sursă (figura 4-3).. Alegem Home + Fill, astfel deschidem fereastra de definire a seriei. 3. Completăm valoarea raţiei (Step value), valoarea de oprire 64 (Stop value), tipul geometric (Grouth) şi seria se va completa pe coloană deci bifăm Columns. Observăm că destinaţia nu a fost selectată fiind încărcată automat prin celule consecutive, conform cerinţelor setate. Figura 4-3. Setarea valorilor seriei Figura 4-4. Rezultatul obţinut Exemplul. Dorim să încărcăm automat 4 valori a unei serii geometrice. Iniţial avem două valori ( şi 6) iar destinaţie este formată din celule neconsecutive. Vom cere ca raţia să fie automat calculată prin opţiunea tendinţă (Trend). Figura 4-5. Selectarea celulelor şi definirea seriei geometrice Figura 4-6. Rezultatul obţinut Introducerea seriilor de date în foaia de calcul 33

35 . Se introduc cele valori.. Se selectează atât valorile de start cât şi destinaţia (deoarece nu sunt consecutive se va folosi CTRL). 3. Se setează în fereastra de serii (Series) opţiunea tendinţă cât şi tipul de serie geometrică. Generator de valori aleatoare Există două funcţii care generează aleator date (după o distribuţie uniformă) []. Rand() această funcţie generează aleator un număr în domeniul [0,). Nu admite argumente. Se va regenera un nou număr de fiecare dată când are loc o modificare în foaia de calcul. Pentru a avea un set static de valori se va copia blocul ce conţine funcţia rand() cu paste special value în destinaţie (se va copia doar valoarea nu şi funcţia). O metodă similară constă în scrierea funcţiei =rand() într-o celulă destinaţie şi apoi se apasă F9 (tasta funcţională). Dacă dorim să generăm aleator valori în domeniul [a,b) vom folosi formula: rand()*(b-a)+a. Randbetween(min,max) generează aleator o valoare întreagă în domeniul menţionat [min,max]. Dacă dorim să generăm valori reale cu o precizie de p zecimale în domeniul [a,b] folosind randbetween atunci putem proceda astfel: Se generează valori în domeniul [a*0 p, b*0 p ]; Se împart aceste valori în final la 0 p. Contorizarea datelor Există mai multe funcţii care au rolul de numărare a datelor. Acestea diferă prin caracteristicile specifice fiecăreia [, 4]. Count(domeniu) contorizează valorile numerice dintr-un domeniu. Data calendaristică şi valorile text ce pot fi convertite în numere sunt contorizate. Counta(domeniu) contorizează celulele care conţin informaţie. Celulele goale nu sunt contorizate. Countblank(domeniu) contorizează celulele goale din domeniu (empty cells). Countif(domeniu, criteriu) contorizează celulele din domeniu care îndeplinesc condiţia din criteriu. Criteriul reprezintă o condiţie simplă de genul: 5 (egal cu valoarea 5); >45 ; <>35 (diferit de 35); putem căuta un anumit cuvânt de exemplu fasconal (în această situaţie se contorizează doar celulele care conţin cuvântul fasconal şi doar atât). Sunt multe situaţiile în care celulele conţin mai multe cuvinte (de exemplu medicaţia folosită). Apare astfel necesitatea căutării unui cuvânt într-un şir de caractere. Pentru a căuta un cuvânt în interiorul unei celule, 34 Introducerea seriilor de date în foaia de calcul

36 putem folosi caracterele speciale * şi?. Dacă dorim totuşi să căutăm aceste două caractere atunci trebuie prefixate de ~ (tilda). Aceste caractere permit crearea de filtre pentru căutare. În cadrul creării filtrului, semnul întrebării (?) înlocuieşte doar o singură poziţie a unui posibil caracter. Semnul * va înlocui oricât de multe caractere posibile. Exemple: dacă introducem filtrul test? atunci se vor căuta toate celulele ce încep cu test şi conţin încă un caracter sau număr sau semn. Deci vor fi contorizate şi celule ce conţin de exemplu: test ; testa; test#. Dacă am fi introdus *test* atunci se contorizau toate celulele ce conţin cuvântul test indiferent de poziţie. Intră, de asemenea, în numărare: primul test ; prea multe teste. Countifs(domeniu, criteriu[domeniu, criteriu...]) contorizează celulele ce îndeplinesc toate criteriile ce se aplică corespunzător domeniilor. Conţine cel puţin un domeniu şi un criteriu (maxim 7 perechi domeniucriteriu). Dacă domeniile sunt pe coloane atunci se contorizează toate rândurile care îndeplinesc toate criteriile. Domeniile au aceeaşi dimensiune şi sunt aceleaşi parţi din coloane sau rânduri decalate. Se pot folosi şi aici caracterele speciale * şi? cu semnificaţia descrisă. EXERCIŢII. Folosind tehnica de încărcare automată şi plecând de la primele valori, să se genereze seriile de numere prezentate în tabelul de mai jos. Determinaţi tipul seriei şi raţia. Figura 4-6. Serii de date Introducerea seriilor de date în foaia de calcul 35

37 Observaţie: Pentru seriile şi 3 va trebui să selectaţi domeniul de celule neconsecutive. Aceasta se realizează cu ajutorul tastei Ctrl. Apoi apelaţi Fill +Series şi veţi completa, practic veţi defini seriile.. Folosind funcţiile RAND(), respectiv RANDBETWEEN() să se genereze următoarele seturi a câte 50 date definite pe domeniile: 0 5, valori întregi; 0.3, valori reale cu o zecimală; 5,34 8,45 valori reale cu zecimale precizie. Puteţi genera aceste valori doar cu funcţia RANDBETWEEN()? 3. Folosind funcţiile RAND(), respectiv RANDBETWEEN() să se genereze următoarele două seturi a câte 00 date reprezentând: Temperaturi (36-4 ⁰C), valori cu o zecimala: Folosind numai RAND(); Folosind numai RANDBETWEEN(); Folosind în combinaţie atât RAND() cât şi RANDBETWEEN(). CL-CR (0-0 valori întregi): Folosind obligatoriu RAND() dar în combinaţie şi cu altă funcţie (INT() extrage partea întreagă rotunjită la cel mai apropiat întreg mai mic decât valoarea cu zecimale); Folosind RANDBETWEEN(). 4. Determinaţi înregistrările de la exerciţiul care respectă condiţia de a se afla în vecinătatea de 0% faţă de valoarea maximă determinată. 5. Câte valori şi care sunt acelea, care se află în jurul mediei pe un interval format din: medie ±5% din domeniul total de lucru. Domeniul de lucru este diferenţa Max-Min. Folosiţi datele generate la exerciţiul. 6. Generaţi un set de 00 date (valori întregi) ce reprezintă notele studenţilor la examenul notat X. Ţinând cont de corespondenţa NOTĂ CALIFICATIV prezentată în tabelul să se determine câte persoane au fost evaluate cu F.BINE, câte cu BINE... INSUFICIENT (pentru fiecare calificativ în parte). Tabelul 4-. Tabel de corespondenţă notă calificativ NR. NOTĂ CALIFICATIV 9-0 F. BINE 7-8 BINE SUFICIENT 4 < 5 INSUFICIENT 36 Introducerea seriilor de date în foaia de calcul

38 7. Aveţi setul de date medicale prezentat parţial mai jos. Scrieţi comenzile necesare (funcţiile) pentru determinarea : a. Numărului de persoane care au avut mastodinie ca efect secundar; b. Numărului de persoane pentru care tratamentul nu a generat efecte secundare; c. Numărului de persoane care au avut în tratament orgametril; d. Numărului de persoane care nu au avut tratament înainte şi nu au avut efecte secundare. Figura 4-7. Set de date medicale 8. Creaţi o coloană încărcată cu 5 numere întregi consecutive de la la 5. În următoarea coloană generaţi aleator 5 numere folosind rand(). Selectaţi cele coloane şi ordonaţi-le după coloana generată aleator (pentru ordonare: Data+Sort). Explicaţi ce obţineţi. La ce ar fi utilă această tehnică? Introducerea seriilor de date în foaia de calcul 37

39 5 TRANSFORMAREA UNEI VARIABILE NUMERICE ÎN FORMĂ CATEGORIALĂ Noţiuni prezentate: Transformarea unei variabile numerice în formă categorială. Funcţia if() - de un ajutor incomensurabil. Funcţia Lookup() - dedicată conversiilor în formă categorială. Există multe cazuri în care suntem nevoiţi să transformăm o variabilă numerică într-o formă categorială. Ca exemple putem menţiona: transformarea notei din sistemul zecimal în calificativ de genul foarte bine, bine, suficient, insuficient; crearea grupelor de vârstă din 5 în 5 ani; evaluarea stării de funcţionare a rinichiului prin valoarea clearance-ului de creatinină ( normal, este stadiul etc.). Avem astfel nevoie de o metodă de comparare a valorii studiate cu un anumit prag şi în final vom lua decizia de clasificare. Funcţia if() este special creată pentru a realiza o astfel de comparaţie şi ajută la luarea unei decizii prin evaluarea unei expresii logice [, 3]. Sintaxă: IF(expresie logică, [dacă este adevărată expresia atunci acţiune],[ dacă este falsă acţiune]) Se evaluează expresia logică. Dacă este adevărată se va lansa acţiunea, iar în caz contrar acţiunea. Prin acţiune se înţelege calculul unei funcţii cu răspuns de tip numeric sau text, dată calendaristică, sau rezultat logic sau poate fi chiar un nou if(). Acţiunile sunt opţionale (aceasta este marcată prin parantezele pătrate, este o convenţie, nu se folosesc în scrierea efectivă). Dacă nu se scriu acţiunile dar se pun virgulele atunci funcţia if întoarce 0. Observaţie: Dacă setările regionale sunt pentru limba română, atunci virgulele sunt înlocuite cu punct şi virgulă în definirea funcţiei if() (această observaţie este valabilă pentru funcţiile care acceptă mai multe argumente). Putem folosi ca acţiune un nou if (aceasta se numeşte imbricare). Numărul maxim acceptat de imbricări este 64. Dacă dorim mai multe grupări există funcţia Lookup care permite utilizarea vectorilor în definirea limitelor categoriilor. Se poate deduce uşor numărul de funcţii if imbricate pentru conversia unei variabile într-un număr de forme categoriale. Dacă notăm numărul de categorii cu C atunci numărul de funcţii if necesare este C- (deoarece ultima funcţie va putea avea decizii). 38 Transformarea unei variabile numerice în formă categorială

40 Exemple: Dorim să creăm o coloană adiacentă coloanei nota (valori întregi) în care să scriem promovat pentru notă mai mare sau egală cu 5, respectiv, restanţă pentru notă mai mică decât 5. Dacă nota este în coloana A atunci în celula B vom scrie: =if(a>=5, promovat, restanţă ). Observăm că avem valori categoriale şi folosim doar o funcţie if (C=, deci numărul de funcţii este -=). Complicăm problema şi introducem noţiunea calificat dacă nota este 9 sau 0. Astfel funcţia de conversie se modifică după cum urmează: =if(a>8,"calificat",if(a>=5,"promovat","restanţă")). Observăm că am avut 3 categorii şi am folosit funcţii if(). Funcţia Lookup() Dacă avem un număr de 6 categorii deja lucrul cu funcţii if() imbricate devine greoi. Pentru a rezolva această cerinţă s-a creat o nouă funcţie numită Lookup(). Sintaxă: LOOKUP(valoare căutată, vector(sau set celule) ce prezintă limitele numerice ale grupelor, [vector (sau set celule) cu atribute]) este de aşteptat ca tipul (linie sau coloană) şi dimensiunea vectorului sau setului de celule ce prezintă grupele să fie identice cu tipul şi dimensiunea vectorului sau matricei ce prezintă atributele (numele categoriilor) [,, 3]. Funcţia Lookup() încadrează valoarea numerică căutată în grupa corespunzătoare din prima coloană a vectorului (sau setul de celule) de definiţie şi afişează atributul corespunzător grupei din coloana a doua a vectorului de definiţie (sau setului de celule de definiţie a categoriei). Vectorul este format dintr-o înşiruire de valori de forma: {"E","D","C","B","A"} sau {5,8,} de exemplu. Elementele sunt despărțite prin virgulă şi întreg vectorul este încadrat între acolade. Se poate folosi în loc de un vector un set de celule definit pe coloană sau rând. Clasificarea se face după limitele în care se încadrează valoarea studiată. Dacă valoarea căutată este mai mică decât limita minimă menţionată atunci se întoarce mesajul de eroare #N/A. Astfel trebuie să cunoaştem valoarea minimă. Orice grupă este definită de valoarea minimă posibil de atins respectiv valoarea maximă ce nu poate fi atinsă. Aceasta se explică tocmai prin faptul că grupele nu au puncte comune, neexistând varianta de indecizie în clasificare. O valoare nu poate aparţine decât unui singur interval. Astfel valoarea maximă neatinsă în prima grupă va fi cuprinsă în grupa a doua ca valoare minimă de început. Exemplu: Dorim să realizăm o conversie a notei în calificativ după cum este prezentat în tabelul de mai jos. Avem 5 calificative. Considerăm că nota minimă este. Transformarea unei variabile numerice în formă categorială 39

41 Ţinând cont de regula de încadrare (valoarea căutată trebuie să fie mai mare sau egală cu minimul grupei şi mai mică ca maximul grupei) va trebui să definim corespondenţa conform coloanelor A şi B din figura alăturată. Tabelul 5-. Corespondenţă calificative nota calificativ < 5 E 5 D 6 C 7-8 B 9-0 A Figura 5-. Funcţia Lookup() Astfel calificativul E va fi alocat valorilor mai mari sau egale cu dar mai mici ca 5 (aşa cum este prezentat în primul tabel). Dorim să transformăm coloana numerică C în formă categorială reprezentând calificative folosind destinaţia în coloana F. Accesând setul de corespondenţe creat în celule din coloanele A şi B, în F vom scrie =LOOKUP(C,A$:A$6,B$:B$6) sau mai potrivit ar fi, mai întâi, să verificăm tipul de dată din celulă: =IF(ISNUMBER(C), LOOKUP(C,A$:A$6,B$:B$6), "absent"). Astfel, nu va apare mesajul #N/A în cazul întâlnirii unei valori text (ex. abs). Funcţia ISNUMBER(valoare), verifică tipul valorii (valoarea poate fi o celulă, sau funcţie) şi întoarce True pentru tip numeric respectiv False în caz contrar. Observaţi utilizarea adresării absolute pentru a bloca vectorul coloană la aplicarea metodei Autofill. Să luăm prima valoare, care este 7. Este mai mare sau egală cu 7 şi mai mică decât 9 astfel, i se va atribui prin 40 Transformarea unei variabile numerice în formă categorială

42 funcţia Lookup() atributul B. Oricărei valori mai mari sau egale cu 9 îi va corespunde calificativul A. Deci iată maximul nu este neapărat cunoscut. Puteam utiliza scrierea folosind vectori (forma prezentată mai jos): =LOOKUP(C,{,5,6,7,9},{"E","D","C","B","A"}) sau folosind o singură matrice: =LOOKUP(C,{,5,6,7,9;"E","D","C","B","A"}) În cadrul matricei virgula marchează trecerea la următoarea coloană iar punct şi virgulă marchează trecerea la următorul rând. Este la alegerea utilizatorului forma de scriere a comenzii (vector, matrice, set de celule) Avantajul utilizării setului de celule constă în faptul că schimbarea unei valori din celula de definiţie a clasificării va avea efect global asupra întregului set de date convertit. Se va schimba practic întreaga conversie prin modificarea setului de definiţie a categoriilor. EXERCIŢII. Generaţi un set de 00 valori numerice întregi reprezentând note de la la 0 inclusiv. Creaţi o nouă coloană în care să aveţi echivalentul în calificativ al fiecărei note, conform cu valorile atribuite corespunzător, prezentate mai jos: Tabelul 5-. Corespondenţe nota calificativ < 5 Insuficient 5-6 Suficient 7-8 Bine 9-0 FBine Rezolvaţi exerciţiul folosind funcţia if() apoi folosind funcţia Lookup(). În caz real există şi absenţe în cadrul unui examen. Înseraţi, la întâmplare, 0 absenţe în setul creat anterior. Observaţi codul de eroare apărut (#N/A) pentru funcţia Lookup() respectiv categoria greşit asociată în cazul folosirii funcţiei If(). Cum putem rezolva problema, astfel încât, acolo unde persoana este absentă, să apară scris, absent? Observaţie: veţi folosi funcţia ISNUMBER(valoare) ce verifică tipul datei. Puteţi folosi un nou if() care să verifice dacă informaţia din celulă este de tip numeric. Dacă este număr, se va face conversia, în caz contrar, se va scrie absent.. Introduceţi valorile prezentate în tabelul alăturat şi calculaţi valoarea IMC (IMC=Greutate/Inălţine^). Creaţi o nouă coloană cu statusul ponderal, conform tabelei de echivalenţă (tabelul 5-4), prin cele două metode folosind: if() şi lookup(). Transformarea unei variabile numerice în formă categorială 4

43 Tabelul 5-3. Date antropometrice nr. Greutate(Kg) Inalţime(m) Tabelul 5-4. Tabelul de echivalenţă IMC < 8,5 (subponderal) IMC = 8,5 4,9 (normoponderal) IMC = 5 9,9 (supraponderal) IMC 30 34,9 (obez grad ) IMC 35 39,9 (obez grad ) IMC 40 (obez grad 3) Calculaţi de asemenea numărul de cazuri pe fiecare grupă ce exprimă statusul ponderal. 3. În evaluarea funcţiei renale se foloseşte valoarea clearance-ului de creatinină. În tabelul de mai jos sunt 9 de pacienţi. Completaţi în Excel (prin cele metode cunoscute) o nouă coloană, în care să prezentaţi pentru fiecare pacient evaluarea funcţiei renale, conform tabelului de echivalenţă. Tabelul 5-5. Echivalenţe Cl-Cr Evaluare [90-0] Normal [50-90) Stadiu [30-50) Stadiu [5-30) Stadiu 3 < 5 IRT- insuficienţă renală terminală 4 Transformarea unei variabile numerice în formă categorială

44 Tabelul 5-6. Pacient ClCr Stadiu Aflaţi numărul de pacienţi, pentru fiecare grupă definită de coloana evaluare. 4. Presupunem că avem următorul set de date (5 date pe care le introduceţi în foaia de calcul, conform coloanei C), în care este prezentată tensiunea arterială (cu cele componente TAS respectiv TAD). Acestea sunt introduse în aceeaşi celulă, despărţite de /. Găsiţi o metodă de creare a două coloane cu valorile TAS respectiv TAD. Figura 5-. Set de date Transformarea unei variabile numerice în formă categorială 43

45 Observaţie: Puteţi folosi următoarele funcţii specifice lucrului cu şiruri de caractere: Left(celulă,număr caractere) extrage începând din stânga un anumit număr de caractere specificat. Find(caracter căutat, celulă) se caută poziţia unui caracter din celula specificată. Funcţia va întoarce un număr ce exprimă poziţia pe care se află caracterul specificat (poziţia defineşte primul caracter din stânga). Mid(celulă, start poziţie, lungime) se extrage un şir de caractere, de o anumită lungime, începând cu caracterul de pe poziţia definită de start poziţie, din celula definită. În coloana D veţi folosi funcţiile: =LEFT(C,FIND("/",C)-), sau =MID(C,,FIND("/",C)-). În coloana E veţi folosi funcţiile: =MID(C,FIND("/",C)+,3). 44 Transformarea unei variabile numerice în formă categorială

46 6 EXTRAGEREA DE INFORMAŢII DIN TABELE DE DATE Noţiuni prezentate: Tabele Pivot Totalizarea datelor Filtre Tabelele pivot sunt folosite pentru crearea unui rezumat din datele cuprinse într-o foaie de calcul. Ca idee, putem număra datele care îndeplinesc anumite criterii, putem calcula medii sau dispersii în general putem măsura anumiţi indicatori statistici pentru grupele definite. Dacă spre exemplu avem pacienţii grupaţi după localitatea de rezidenţă cât şi după mediul urban sau rural şi dorim un raport asupra numărului de pacienţi astfel distribuiţi, metoda cea mai avantajoasă şi rapidă constă în utilizarea tabelelor de tip pivot. O variantă de lucru pentru orice situaţie ce implică contorizări de date constă în folosirea funcţiilor countif() sau countifs(), dar să determinăm de câte ori vom lansa numărarea datelor apelând la countif() dacă avem 0 localităţi şi evident medii de rezidenţă. Este clar vom folosi funcţia de 0 de ori. Pare puţin? Putem deduce că această variantă nu este tocmai eficientă. Sensul tehnicii tabelelor pivot este tocmai minimizarea muncii depuse pentru rezumarea datelor din foile de calcul. Pentru folosirea acestei metode se va selecta tabelul de lucru sau cel puţin se va poziţiona prompterul indicator pe o celulă din interiorul tabelului cu date (astfel Excel va selecta apoi întreg tabelul cu date). Prin alegerea Insert + Pivot Table se deschide fereastra de setare a opţiunilor ce definesc specificul tabelului rezumat [, 5]. Această fereastră (figura 6-) prezintă câmpurile deci coloanele datelor de lucru. Suntem practic obligaţi să definim un cap de tabel în foaia de calcul - primul rând este considerat numele coloanelor. Aceste nume sunt folosite ca indicatoare ce definesc tabelul rezumat. Cele 4 căsuţe prezentate în figura alăturată sunt folosite pentru definirea criteriilor de grupare cât şi pentru calculul unei funcţiei la intersecţia fiecărui rând cu fiecare coloană. Este necesară introducerea unui nume de coloană în căsuţa din dreapta jos. Acesteia i se va aplica funcţia de contorizare sau calcul de medie, min, max, deviaţia standard (definită de utilizator) etc. Rapoarte PivotTable 45

47 Cel mai simplu tabel pivot conţine cel puţin această informaţie (celula din dreapta jos trebuie să conţină minim o cerinţă). Pentru grupări după mai multe criterii se introduc în căsuțele stânga jos, respectiv dreapta sus coloanele ce definesc clasificările urmărite. Prin definirea unui filtru (celula stânga sus) tot tabelul rezultat va fi dependent de filtrul indicat. Astfel se poate particulariza tot conţinutul tabelului la doar un subset de date pentru o singură categorie din cadrul filtrului (de ex.: doar pacienţii cu status ponderal normal). Se pot defini mai multe criterii de grupare pe rânduri sau coloane, evident tabelul rezultat prezentând astfel forme din ce în ce mai complexe. Pentru mai mult de 3-4 coloane implicate, tabelul rezumat rezultat devine greu de citit şi urmărit. Figura 6-. Definirea tabelului pivot Pentru exemplul prezentat în figura de mai sus s-a obţinut tabelul rezumat următor. Practic am ales ca pe rânduri să fie prezentată starea civilă şi corespunzător să se calculeze numărul de persoane. Tabelul 6-. Tabelul rezultat Count of StareCivila Column Labels Row Labels F M Grand Total căsătorit concubin 3 4 divorţat 4 necăsătorit văduv 9 Grand Total Rapoarte PivotTable

48 Iată mai jos un exemplu în care am modificat cerinţa de pe coloană. În partea dreaptă este prezentat rezultatul deci tabelul rezumat. Săgeată indicatoare a meniului de definire a funcţiei de calcul. Tabelul rezultat în urma definirii folosind câmpurile înserate conform figurii din stânga. Figura 6-. Aşa cum este indicat în figura 6-, se poate defini funcţia de calcul pentru fiecare celulă din tabelul rezumat (click pe săgeată şi alegerea opţiunii Value Field Settings). Funcţiile posibile utilizate sunt: sumă, contorizare, medie, min, max, produs, deviaţia standard, varianţa. Ultimele două prezintă variantele de calcul pentru eşantion (se împarte la n-) respectiv pentru populaţie. De asemenea se pot calcula şi procentele pe coloana, pe linie sau pe întreg setul de date, a proporţiilor definite prin grupare (prin alegerea Show Values As). Figura 6-3. Calcule posibile în tabele pivot Totalizarea datelor este o metodă de calcul a anumitor funcţii gen indicatori statistici (identici celor folosiţi la tabele pivot), pentru subseturile Rapoarte PivotTable 47

49 de date create prin grupare. Crearea subunităţilor se face funcţie de schimbarea unei valori într-o coloană sau coloane definite drept criterii de grupare. Rezultatele sunt asemănătoare celor obţinute prin tabele pivot. Pentru fiecare criteriu definit se va introduce un nou rând cu informaţia calculată. Astfel prin subseturile create tabelul poate fi prezentat total sau parţial funcţie de nivelul de grupare ales [,, 5]. Coloana aleasă drept criteriu de subgrupare trebuie să fie ordonată aceasta deoarece în crearea grupurilor se recalculează funcţia definită pentru fiecare schimbare a valorii celulei din coloana criteriu. Exemplu Dorim să aflăm numărul de persoane funcţie de starea civilă dintr-o foaie de calcul medicală. În prima etapă se vor ordona datele după coloana stare civilă (selecţie tabel + Data + Sort), apoi din Data se alege Subtotal. Vom obţine o nouă fereastră de definire a opţiunilor din cadrul subtotalizării. Am selectat în prima căsuţă text coloana Stare Civilă, funcţia folosită a fost Count iar subtotalul va fi adăugat la Starea Civilă prin suprascrierea subtotalului curent existent. Informaţia adăugată poate fi înserată la sfârşitul sau începutul categoriei din cadrul coloanei criteriu. În partea din stânga a foii de calcul apar subgrupurile numerotate,,3 (figura 6-5). Pentru o singură coloană criteriu sunt 3 subgrupuri posibile. Figura 6-4. Subtotal La fiecare criteriu adăugat va apare un nou număr (deci se continuă cu 4) ceea ce indică noi calcule realizate şi înserate în foaia de date. Prin alegerea subgrupului din cadrul exemplului creat se afişează practic numărul de cazuri după starea civilă (prezentat mai jos). Se pot adăuga noi informaţii de calcul prin debifarea opţiunii de înlocuire a subtotalului curent (Replace current subtotals). 48 Rapoarte PivotTable

50 Cele 3 nivele create cu subtotal. Figura 6-5. Nivelul al doilea al tabelului creat prin subtotal Tabelul nou creat poate fi copiat şi utilizat în altă foaie de calcul. Atenţie - această copiere trebuie făcută doar asupra celulelor vizibile. Pentru ceasta se vor selecta celulele prezentate în figura de mai sus, apoi din Home+Find &Select se alege Go to special şi se bifează Visible cells only. Apoi cu Copy vor fi copiate numai celulele vizibile nu întreg tabelul. Această tehnică este o alternativă pentru metoda tabelelor pivotante. Funcţiile ce se utilizează în calcul sunt identice în cele două metode prezentate până acum. Filtrele sunt metode de prezentare a datelor funcţie de criteriile selectate. Filtrele nu sunt folosite pentru calcule ci doar pentru a prezenta anumite rânduri ce îndeplinesc criteriile stabilite []. Totuşi în bara de stare în colţul din stânga jos se afişează numărul de date contorizate în cadrul unei selecţii. Filtrele sunt folosite pentru selecţie dar şi pentru verificarea datelor şi apoi corectarea lor. Crearea unui filtru înseamnă transformarea primului rând, deci a capului de tabel, într-o listă derulantă ce prezintă toate variantele distincte existente în fiecare coloană. Astfel, se pot selecta categoriile de interes [,, 3]. Pentru o condiţie multiplă se vor alege din mai multe coloane categoriile de selecţie. Operatorul logic de combinare a criteriilor dintre coloane este şi. Vor fi afişate rândurile ce îndeplinesc toate criteriile definite simultan. Activarea filtrului: Home + Sort&Filter + Filter sau Data + Sort&Filter + Filter. Exemplu crearea unui filtru cu selecţia doar a celor ce sunt căsătoriţi şi sunt salariaţi. Rapoarte PivotTable 49

51 Figura 6-6. Crearea unui filtru Figura 6-7. Opţiunile de filtrare filtru asupra unei coloane numerice Poate era şi de aşteptat ca în cadrul realizării unui filtru să avem posibilităţi diferite de selecţie. 50 Rapoarte PivotTable

52 Iată variantele de selecţie posibile pentru o coloană de tip numeric: egalitate cu o valoare de referinţă, diferit de o valoare anume, mai mare ca o valoare anume, mai mic faţă de o referinţă, valori dintr-un interval, primele n valori (ex. 0), valori peste sau sub medie (poate fi realizat ca valori peste /sub un prag), posibilitatea de personalizare scriind o expresie logică. EXERCIŢII Fișierul Excel de lucru conține un număr de date generic definite.. Folosind tehnica tabelelor pivot răspundeți la următoarele întrebări: a. Creaţi un tabel cu numărul de persoane grupate după mediu rezidenţă şi stare civilă, b. Aflați numărul de persoane pentru fiecare nivel de instruire şi ocupaţie, c. Calculaţi media IMC funcţie de mediul de rezidenţă, d. Calculaţi media şi deviaţia standard a IMC-ului pentru fiecare element ce definește starea civilă, e. Pentru întrebările de la punctele a şi b calculaţi procentul pe orizontală (pe rând). Tabelul de date are forma: Figura 6-8. Rapoarte PivotTable 5

53 Observaţie: Pentru ultima întrebare veţi folosi la definirea funcţiei de calcul Value Field Settings opţiunea de calcul a procentului pe rând aşa cum este prezentat în figura alăturată. Figura Aveţi următorul set de date: Figura 6-0. a. Folosind tehnica filtrării verificaţi corectitudinea codificării pentru coloanele Dg şi Dg. Aici puteţi întâlni greşit introdus codul diagnosticului în sensul folosirii literelor mici sau mari, spaţii suplimentar introduse sau chiar scrieri întregi necodificate. Corectaţi şi păstraţi forma de codificare prezentată în tabelul din dreapta. b. Folosind metoda tabelelor pivot dar şi tehnica totalizării determinaţi distribuţia datelor funcţie de coloana diagnostic. c. Calculaţi media, minimul şi maximul ClCr pentru fiecare tip de diagnostic din Dg prin cele metode (tabele pivot şi totalizare). 5 Rapoarte PivotTable

54 d. Determinaţi distribuţia datelor după diagnosticul al doilea prin metodele cunoscute (frecvenţă). 3. Aveţi tabelul cu datele medicale prezentat parţial mai jos. Figura 8-. Răspundeţi la următoarele întrebări: a. Verificaţi şi corectaţi prin metoda filtrării eventualele greşeli prezente în tabel. b. Aflaţi numărul de persoane în formă absolută cât şi procentuală pe judeţ şi pe tip post/premenopauză, c. Determinaţi distribuţia pacienţilor pe judeţ şi mediu urban/rural, d. Calculaţi numărul de subiecţi pentru fiecare tip de leziune şi stadiu preoperator (valori absolute şi procentuale), e. Aflaţi numărul de persoane (valori absolute şi procentuale) ce au prezentat leziune multicentrică, apoi cele cu invazie vasculară şi în final cele cu invazie perineurală, f. Pentru fiecare stadiu preoperator determinaţi numărul de metastaze (absolut şi procentual), g. Răspundeţi la punctele b şi c prin metoda filtrării. Copiaţi apoi datele rezumate într-o nouă foaie de calcul. Observaţi şi reţineţi avantajul folosirii tehnicilor descrise comparativ cu alternativa utilizării funcţiilor countif() sau averageif(). Rapoarte PivotTable 53

55 7 REPREZENTAREA GRAFICĂ A DATELOR Noţiuni prezentate: Prezentare generală; Tipuri de grafice; Crearea şi editarea graficelor. Graficele sunt reprezentări vizuale a datelor, ce ajută la evidențierea caracteristicilor seturilor analizate prin asocieri, tendințe, generare de structuri, sunt utile în comparații și poate transmite informația de bază în mod clar și lesne de înțeles prin imaginea creată. Microsoft Excel oferă o larga varietate de grafice (diagrame), ce permit afişarea datelor în moduri dedicate, cum ar fi cele de tip: Linie (Line), Coloană (Column), Suprafață (Area), Bară (Bar), Puncte (Scatter) sau Cerc (Pie) [6]. Se pot combina de asemenea mai multe tipuri de diagrame pe aceeași reprezentare prin atribuirea acestora unor serii de date diferite. Acestea sunt graficele combinate (Combo Charts). TIPURI DE GRAFICE (DIAGRAME): Grafice coloană Grafice linie Grafice cu structură radială sau cerc. Grafice bară Grafice zonă Grafice prin puncte Grafice bursiere Grafice suprafaţă Grafice de structură inelară Grafice cu bule Grafice radar Pentru realizarea unei diagrame se selectează acele blocuri de celule din foaia de calcul care vor fi reprezentate grafic (inclusiv celulele corespunzătoare etichetelor de rând şi/sau coloană). Datele trebuie aranjate în rânduri și coloane, cu etichetele de rând la stânga și etichetele de coloană deasupra datelor. Pentru a vedea toate tipurile de diagrame disponibile, faceți clic pe caseta de dialog Insert Charts, apoi faceți clic pe săgeți pentru a defila în tipurile de diagrame. 54 Reprezentarea grafică a datelor

56 Graficul creat poate fi inserat în foaia curentă de calcul, în altă foaie de calcul a aceluiaşi fişier sau într-un fişier diferit utilizând comanda (Move Chart). Figura 7-. Tipuri de grafice Grafice coloană (column) Pentru realizarea graficului de tip coloană datele vor fi aranjate în coloane sau rânduri într-o foaie de calcul (spreadsheet). Diagramele coloană sunt utile pentru afişarea modificărilor datelor într-o perioadă de timp sau pentru ilustrarea unor comparaţii între elemente. În diagramele coloană, categoriile sunt de obicei organizate pe axa orizontală iar valorile pe axa verticală. Figura 7-. Grafic coloană Reprezentarea grafică a datelor 55

57 Datele sursă ale graficului se pot verifica şi eventual se modifică dacă este cazul apelând meniul Select Data ce deschide caseta de dialog Select Data Source. În caseta Zonă de date (Chart data range) sunt prezentate blocurile de celule selectate ce stau la baza diagramei, acestea putându-se modifica ulterior. Grafice linie (line) Graficele tip linie pot afişa date continue în timp, în funcţie de o scală comună şi, de aceea, sunt ideale pentru afişarea tendinţelor datelor măsurate la intervale egale. Într-o diagramă linie, datele din categorii sunt distribuite egal pe axa orizontală iar valorile corespunzătoare categoriilor sunt distribuite proporțional pe axa verticală. Se utilizează un grafic de tip linie dacă categoriile de date ce se doresc a fi reprezentate sunt valori spaţiate egal cum ar fi luni, trimestre etc. Practic axa XX este tratată ca o axă categorială. Acest tip de grafic se utilizează şi în cazul în care există mai multe serii. Figura 7-3. Grafic tip linie cu două seturi de valori Pentru o serie, se ia în considerare utilizarea unei diagrame de categorii. De asemenea, ar trebui să se utilizeze un grafic linie dacă sunt puţine etichete chiar valori numerice spaţiate egal, de exemplu anii de studiu. Dacă există mai mult de zece categorii, se va utiliza în schimb un grafic prin puncte. Grafice cu structură radială sau cerc (pie) Figura 7-4. Grafic cerc Graficele cu structură radială arată dimensiunea elementelor dintr-o serie de date proporţional cu suma elementelor. Acestea acceptă numai o serie de date. Întrun grafic cu structură radială valorile sunt afişate ca procent din întregul cerc. Sunt des întâlnite în reprezentarea compoziției unei populații de studiu. 56 Reprezentarea grafică a datelor

58 Graficele de structură radială au următoarele subtipuri de diagrame: structură radială din structură radială (cerc din cerc) şi bară din structură radială (bară din cerc). Graficele cu structură radială din radială şi bară din radială afişează diagrame de structură radială cu valori definite de utilizator extrase din diagrama principală şi combinate într-o a doua diagramă de structură radială sau într-o diagramă bară stratificată. Aceste tipuri de diagrame sunt utile când se doreşte extragerea sectoarelor mici din structura radială principală pentru a fi mai uşor de distins. Figura 7-5. Scoaterea în evidență din graficele cerc a anumitor subcategorii Grafice bară Graficele de tip bară evidenţiază comparaţii între elemente individuale. Figura 7-6. Grafic bară Acestea prezintă o serie de subtipuri de diagrame: bară grupată ce compară valorile după categorii. Într-un grafic bară grupată, categoriile sunt de obicei organizate pe axa verticală, iar valorile pe axa orizontală. bară stratificată. Graficul bară stratificată arată relația elementelor individuale cu întregul. bară stratificată 00%. Acest tip de grafic compară procentul avut de fiecare categorie din total. Toate subtipurile prezentate pot fi reprezentate şi 3D fiind vorba doar de forma dreptunghiului şi nu de afişarea datelor în 3 axe. Aceste Reprezentarea grafică a datelor 57

59 grafice sunt de asemenea disponibile şi sub formă de cilindru, con sau piramidă orizontală, singura diferență este că aceste tipuri de grafice afișează forme de cilindru, con și piramidă în locul dreptunghiurilor orizontale. Grafice zonă, domeniu sau arie (area) Figura 7-7. Grafic zonă (domeniu, arie) Graficele tip zonă accentuează magnitudinea schimbării în timp şi pot fi utilizate pentru a atrage atenţia asupra valorii totale în funcţie de o tendinţă. De exemplu, datele care reprezintă evoluţia în timp pot fi reprezentate într-o diagramă zonă pentru a accentua frecvenţa totală. Afişând suma valorilor reprezentate, o diagramă zonă arată şi relaţia părţilor cu întregul. Grafice prin puncte (scatter) Acest tip de grafic este caracterizat de faptul că atât axa XX cât și axa YY sunt de tip numeric. Astfel valorile de pe abscisă vor fi proporțional reprezentate cu magnitudinea lor și corespunzător vor fi independente de poziția lor în șirul de date (diferență esențială față de tipurile linie, coloană sau bară în care ordinea conta). Ca urmare a acestei proporții în redare, diagramele prin puncte sunt folosite pentru a afişa posibile relaţii între valorile numerice de pe axa XX și valorile numerice de pe axa YY. Se pot folosi spre reprezentare mai multe serii de date Y, Y Yn dar aceste valori vor fi raportate la singurul set de valori de pe XX. Altfel spus, vom avea serii de genul (x,y) apoi (x,y) și așa mai departe. Valorile de pe Y vor fi citite în cadrul seriilor în aceleași puncte ce definesc valorile corespunzătoare de pe X. Vom avea astfel o coloană X și seturile corespunzătoare Y, Y, Yn (n este numărul de serii de reprezentat). Având valori numerice atât pe X cât și pe Y putem folosi acest grafic în situațiile următoare: Se doresc anumite modificări ale scalei axei orizontale. De exemplu o reprezentare logaritmică. Valorile pentru axa orizontală nu sunt spaţiate egal. 58 Reprezentarea grafică a datelor

60 Se doreşte afişarea în mod eficace a datele din foaia de calcul, care include seturi de valori perechi sau grupate şi reglarea scalelor independente ale unei diagrame prin puncte pentru a dezvălui mai multe informaţii despre valorile grupate. Pentru evidenţierea unor asemănări între seturi mari de date în schimbul diferenţelor dintre punctele de date. În cazul în care se doreşte compararea mai multor puncte (date) fără implicarea timpului; cu cât se vor include mai multe date într-o diagramă prin puncte cu atât mai precise vor fi comparaţiile care se pot face. Figura 7-8. Grafic în puncte. Posibilă relație între înălțime și greutate. Grafice bursiere (stock) Sunt situații în care avem de reprezentat mai multe valori numerice ce sunt caracteristice pentru fiecare grup de pe axa XX. De exemplu variația unui parametru medical în forma: valoare minimă, maximă și valoare finală. După cum implică şi numele dar și folosind puțină imaginație, putem aprecia că o diagramă bursieră se utilizează cel mai des pentru a ilustra fluctuaţia anumitor parametri. Cu toate acestea, diagrama bursieră poate fi utilizată şi pentru date de altă natură. De exemplu, se poate utiliza acest grafic pentru a indica variația temperaturii zilnice. Datele trebuie introduse într-o ordine predefinită pentru a crea diagrame bursiere. Modul în care sunt organizate datele unei diagrame bursiere în foaia de calcul este foarte important. De exemplu, pentru a crea o diagramă bursieră de tip maxim-minim-medie (valoare finală), ar trebui să aranjaţi datele respectând chiar ordinea cerută (des folosite Max-Min-Media) ziua ziua ziua 3 ziua 4 ziua 5 ziua 6 ziua 7 Figura 7-9. Diagrama bursieră max min media ziua max min media ziua ziua ziua ziua ziua ziua ziua Reprezentarea grafică a datelor 59

61 Grafice suprafaţă În general acest tip de grafic permite reprezentarea pe o suprafața a valorilor unei variabile în funcție de doi parametrii. Reprezentarea grafică tip suprafaţă se utilizează de obicei pentru a arăta relațiile între volume mari de date, care altfel pot fi dificil de văzut. De asemenea această reprezentare este utilă când se doreşte găsirea unor combinaţii optime între diferite serii de date. Ca într-o hartă topografică, culorile şi modelele indică zone care se află în acelaşi plaje de valori. Corespunzător unui grafic de tip suprafaţă culoarea pentru fiecare zonă este determinata de coordonata z iar harta de culori (o harta de culori este o lista ordonata de culori) va fi specificată adăugându-se o bară de culori (legenda) pentru a arata modul în care acestea sunt atribuite datelor. Se poate utiliza o diagramă suprafaţă şi când atât categoriile cât şi seriile de date sunt valori numerice. Un alt scop al acestui tip de grafic este reprezentarea grafică a unor funcţii. Astfel, în foaia de calcul sunt dispuse ca într-o matrice valorile funcţiei ce se doreşte a se reprezenta grafic. Figura 7-0. Grafic suprafață Grafice cu structură inelară Figura 7-. Grafic inelar Asemenea unei diagrame cu structură radială, o diagramă cu structură inelară arată relaţia părţilor cu întregul și poate conţine mai multe serii de date. Fiecare serie de date este reprezentată ca un nou inel în cadrul graficului. Comparativ amintim că diagramele de structură radială au numai o serie de date. 60 Reprezentarea grafică a datelor

62 Grafice tip nor de puncte (Bubble) Pentru realizarea acestui grafic datele sunt aranjate în coloane într-o foaie de calcul astfel încât valorile x sunt plasate în prima coloană iar valorile y corespondente şi valorile ce vor da dimensiunea sferelor (bule) sunt listate în coloanele adiacente. De exemplu, se pot organiza datele aşa cum se afişează în următorul exemplu. Nr. cazuri Valoare maxima parametru Frecventa relativa % % % % 7..5% Figura 7-. Grafic tip bule Graficele tip nor de puncte (Bubble), sunt similare cu graficele Scatter, cu deosebirea că marcatorul bulină indică valoarea celei de-a treia valori studiate sub forma mărimii acesteia. Grafice radar (polare) Este singurul grafic ce folosește coordonate polare (unghi si distanta fata de centru de coordinate). Poziția de start este, daca ne imaginam un ceas, ora.00. Cele sunt împărțite la numărul de categorii de reprezentat si astfel se deduce unghiul de avans pentru fiecare pas. Figura 7-3. Grafic tip radar În concluzie, o astfel de diagramă poate reprezenta grafic una sau mai multe serii de date. Cu sau fără marcaje pentru punctele de date individuale, graficele de tip radar afişează modificările valorilor relativ la centrul de coordonate (punct central. Reprezentarea grafică a datelor 6

63 Crearea şi editarea graficelor După cum s-a observat şi din prezentarea anterioară datele din coloanele şi rândurile unei foi de calcul pot fi reprezentate grafic, utilizând majoritatea tipurilor de diagramă. Însă unele tipuri de grafice (cum ar fi diagramele cu structură radială sau diagramele tip bubble) necesită un aranjament specific al datelor [5]. Astfel, pentru a realiza o reprezentare grafică se vor introduce în foaia de calcul datele corespunzătoare. Excel poate determina automat cel mai bun mod de a reprezenta date în diagramă. Ulterior se vor parcurge următorii paşi: Se vor selecta celulele care conţin datele pe care doriţi să le reprezentaţi. Dacă se va selecta numai o celulă, Excel va reprezenta grafic automat toate celulele care conţin date adiacente acelei celule într-o diagramă. Dacă celulele care doriţi să le reprezentaţi într-o diagramă nu se află într-o zonă continuă, aveţi posibilitatea să selectaţi celule neadiacente sau zone de celule, condiţia fiind ca selecţia să formeze un dreptunghi. De asemenea, aveţi posibilitatea să ascundeţi rândurile sau coloanele pe care nu doriţi să le reprezentaţi în diagramă. În setul de comenzi Inserare (Insert), în grupul Grafice (Chart), efectuaţi: Faceţi clic pe tipul de diagramă, apoi pe subtipul de diagramă pe care doriţi să-l utilizaţi. Pentru a vedea toate tipurile de diagrame disponibile, faceţi clic pe butonul săgeată pentru a lansa caseta de dialog Inserare diagramă, apoi faceţi clic pe săgeţi pentru a defila în tipurile de diagrame. Figura 7-4. Inserarea graficelor Graficul va fi creat şi poziţionat în mod implicit lângă tabelul de date. După crearea unui grafic, se pot adăuga cu uşurinţă noi elemente. De exemplu, se pot adăuga titluri pentru a oferi un acces mai clar la informaţie, sau se poate schimba poziţia elementelor. Atunci când se creează un grafic, va apare caseta Chart Tools, (unelte grafice), care include grupurile Design, Layout şi Format. În aceste grupuri se găsesc comenzile necesare pentru a formata (modifica, completa) graficul realizat. 6 Reprezentarea grafică a datelor

64 Figura 7-5. Meniul corespunzător comenzilor de editare a graficelor După ce a fost creat graficul, există posibilitatea modificării aspectului acestuia. În loc să se adauge sau să se modifice manual elementele din grafic sau să se formateze graficul, există posibilitatea să se aplice intrun mod facil un aspect şi un stil predefinit graficului existent. Excel furnizează o varietate de aspecte şi stiluri predefinite utile (sau aspecte rapide şi stiluri rapide) din care se poate selecta. Există însă şi posibilitatea să se particularizeze un aspect sau un stil după preferinţă, modificând manual aspectul deci formatul elementelor individuale din grafic. Pentru a schimba tipul de grafic se selectează zona diagramei, apoi se face clic-dreapta (cu butonul din dreapta al mouse-ului) pe ea, după care se va selecta opţiunea Change Chart Type sau Change Series Chart Type. Figura 7-6. Lista comenzilor corespunzătoare editării unui grafic Modificarea manuală a aspectului elementelor diagramei Faceţi clic-dreapta (cu butonul din dreapta al mouse-ului) pe elementul din grafic pentru care doriţi să modificaţi aspectul. Pentru a formata seria de date, se selectează seria de date din diagrama, se punctează cu butonul din dreapta al mouse-ului pe ea, după care se selectează meniul Format Data Series (formatare serii de date). Reprezentarea grafică a datelor 63

65 Figura 7-7. Formatarea seriei de date Figura 7-8. Formatarea axelor Pentru modificarea formatului axelor se selectează axa verticală a valorilor, apoi se face clic-dreapta pe meniul Format Axis. Pentru a formata legenda, se va face clic-dreapta pe ea apoi se va selecta opţiunea Format Legend (formatare legendă) din meniu. Figura 7-9. Formatarea legendei În concluzie, opţiunile de aspect care se vor selecta sunt aplicate elementului corespunzător din grafic. De exemplu, dacă se va selecta întreaga diagramă, etichetele de date se vor aplica la toate seriile de date. Dacă se va selecta un singur punct de date, etichetele de date se vor aplica doar la seriile de date selectate sau la un punct de date. 64 Reprezentarea grafică a datelor

66 Figura 7-0. Adăugarea etichetelor Figura 7-. Adăugarea datelor în grafic Adăugarea de noi date în grafic. Se punctează pe Chart, apoi Select Data. În zona de editare Chart data range se va introduce zona care conţine datele ce trebuiesc reprezentate pe vechea diagramă. Se apasă butonul ok. EXERCIŢII. Reprezentaţi grafic valorile frecventei scorurilor din tabel printr-un grafic de tip COLUMN.. Reprezentaţi grafic vârsta, pe grupe de vârstă (0-9, 0-9, 30-39, 40-49, peste 50), printr-un grafic de tip BAR. 3. Reprezentaţi structura pe sexe a lotului din tabel printr-un grafic de tip PIE. 4. Reprezentaţi ponderea în funcţie de mediul de provenienţă printrun grafic de tip DOUGHNUT. 5. Reprezentaţi structura lotului în funcţie de scorul GCS printr-un grafic de tip RADAR. 6. Reprezentaţi frecvenţa scorurilor GCS comparativ pe sexe printr-un grafic de tip COLUMN. 7. Reprezentaţi modul de variaţie a greutăţii în funcţie de înălţime printr-un grafic de tip SCATTER. 8. Reprezentaţi modul de variaţie a glicemiei în funcţie de greutate printr-un grafic de tip SCATTER. Reprezentarea grafică a datelor 65

67 8 REPREZENTAREA GRAFICĂ A FUNCŢIILOR Noţiuni prezentate: Reprezentarea grafică a funcţiilor utilizând grafice de tip SCATTER; Reprezentarea grafică a funcţiilor utilizând grafice de tip SURFACE; Reprezentarea grafică în Microsoft Excel 00 permite evidenţierea unor modele sau tendinţe care pot duce la decizii informate şi la îmbunătăţirea capacitaţii de a analiza mari seturi de date. Dacă o linie (coloană) reprezintă valorile unei funcţii pentru o variabilă dată, Excel permite reprezentarea grafică a acestei funcţii. Pe acelaşi sistem de axe pot fi reprezentate mai multe grafice. Utilizând uneltele de editare a graficelor se poate însera titlul graficului, se pot defini axele (nume, unitate de măsură), se poate reprezenta o legendă și chiar se pot atașa valorile numerice fiecărui punct din grafic [5]. Graficele de tip XY (Scatter) permit reprezentarea funcţiilor matematice în Microsoft Excel. Caracteristica principală constă în utilizarea valorilor numeric atât pe XX cât și pe YY [5]. Posibilităţile de reprezentare grafică ale programului Microsoft Excel permit vizualizarea comparativă a doua sau mai multe grafice ale unor funcţii reprezentate în acelaşi reper cartezian. Singura condiţie este ca domeniile de definiţie ale funcţiilor să coincidă (setul de valori pe XX în care se calculează funcțiile). Este necesar ca diviziunile de puncte alese să fie aceleaşi (ex.: atât funcția ff(xx) = sin xx, cât și gg(xx) = cos xx vor fi calculate în aceleași puncte x, x x n). Practic pentru a reprezenta grafic o funcție cunoscută ca formă analitică (de ex. f(x)=*x^+5*x+) vom defini un set de puncte pe axa XX pentru care vom calcula valorile f(x). Este de așteptat să avem o reprezentare într-o formă cât mai continuă cu cât numărul de puncte generate pe axa XX este mai mare. Vom crea astfel două coloane reprezentând datele perechi de forma (xi, f(x i)). Prin selecția celulelor și alegerea tipului de grafic Scatter vom obține o primă formă a diagramei funcției generate. Exemplul. Să se reprezinte grafic funcţia ff(xx) = xx xx + pentru valori ale lui x [-0.,.]. 66 Reprezentarea grafică a funcţiilor sub formă analitică

68 Rezolvare: Etapele realizării acestui grafic:. Alegem domeniul de definiţie al funcţiei intervalul [-0.,.6]. Folosind comanda Auto Fill generaţi o serie de valori de la -0. până la.6 cu pasul 0. (diviziune echidistantă). 3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi valorile funcţiei pentru fiecare punct al intervalului. 4. Din meniul Insert selectaţi Charts 5. Selectaţi tipul de grafic XY (Scatter). 6. Daca doriţi să mai adăugaţi şi anumite comentarii la grafic sau să faceţi modificări asupra legendei graficului sau alte modificări de natură explicativă puteţi realiza toate aceste modificări în urma realizării graficului. Recomandări: În celulele A:A6 se introduc valorile lui x, iar celula B se introduce expresia matematică a funcţiei: ff(xx) = xx xx + = AA AA AA + Valorile argumentului funcţiei va fi o progresie aritmetică având primul termen -0. şi raţia de 0.. Se selectează zona B:B6, apoi se selectează Charts din sub-meniul Insert ce permite afişarea ferestrei Insert Charts necesară pentru selectarea tipului de grafic dorit. Pentru acest exemplu se alege graficul de tip X Y (Scatter) prezentat în figura de mai jos. Acest tip de grafic se poate utiliza şi în cazul în care trebuie să se afişeze conectarea punctelor corespunzătoare datelor. Această conectare se realizează prin puncte cu linii fine şi prin puncte cu linii fine şi marcaje. Prin trasarea liniei se ataşează graficului o curbă care leagă punctele de date. Liniile pot fi afişate cu sau fără marcaje. Ca şi recomandare, se propune utilizarea unei linii netede fără marcatori dacă există multe puncte de date. Figura 8-. Datele şi reprezentarea grafică a funcţiei ff(xx) = xx xx + Reprezentarea grafică a funcţiilor sub formă analitică 67

69 Exemplul. Să se reprezinte grafic funcţia ff(xx) = xx ssssss xx, pentru valori ale lui x [-0.4, 7.4]. Rezolvare Etapele realizării acestui grafic:. Alegem domeniul de definiţie al funcţiei intervalul [-0.4, 7.4]. Folosind comanda Auto Fill se va genera o serie de valori de la -0.4 până la 7.4 cu pasul 0. (diviziune echidistantă). 3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi valorile funcţiei pentru fiecare punct al intervalului. 4. Din meniul Insert selectaţi Charts 5. Selectaţi tipul de grafic XY (Scatter). Recomandări: În celulele A3:A6 se introduc 40 valori pentru x, iar celula B3 se introduce expresia matematică a funcţiei: ff(xx) = xx ssssss xx = AA3 sin( AA3). Valorile argumentului funcţiei va fi o progresie aritmetică având primul termen -0.4 şi raţia de 0.. Pentru calculul valorilor funcţiei (B3:B6) corespunzătoare valorilor x din celulele A3:A6, se foloseşte tehnica AutoFill prin completarea celulelor cu date deduse din informaţia conţinută în celula sursă (celula B3 = AA3 ssssss( AA3) ). Se selectează zona B3:B6, apoi se selectează tipul de grafic dorit. Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura de mai jos. Figura 8-. Datele şi reprezentarea grafică a funcţiei ff(xx) = xx ssssss xx 68 Reprezentarea grafică a funcţiilor sub formă analitică

70 Exemplul 3. Să se reprezinte grafic funcţia Gauss-Laplace ff(xx) = σσ ππ ee (xx μμ) σσ. Rezolvare. Alegem domeniul de definiţie al funcţiei intervalul [., 7.9].. Folosind comanda Auto Fill se va genera o serie de valori de la. până la 7.9 cu pasul 0. (diviziune echidistantă). 3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi valorile funcţiei pentru fiecare punct al intervalului. 4. Din meniul Insert selectaţi Charts. 5. Selectaţi tipul de grafic XY (Scatter). Recomandări: Se va calcula iniţial media aritmetică a seriei generate (µ) şi deviaţia standard (σ). În celulele A:A3 se introduc 30 valori pentru x, iar celula E3 şi E4 se vor calcula valorile mediei (µ utilizând funcţia AVERAGE) şi a deviaţiei standard (σ utilizând funcţia STDEV). Pentru calculul valorilor funcţiei (B:B3) corespunzătoare valorilor x din celulele A:A3, se foloseşte tehnica AutoFill prin completarea celulelor cu date deduse din informaţia conţinută în celula sursă: (celula B f(x)=/(e$3*sqrt(*pi()))*exp(-power((a5-e$),)/*power(e$3,)). Se selectează zona B:B3, apoi se selectează tipul de grafic dorit. Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura următoare. Figura 8-3. Datele şi reprezentarea grafică a funcţiei Gauss-Laplace Reprezentarea grafică a funcţiilor sub formă analitică 69

71 Exemplul 4. Să se reprezinte grafic funcţia ff(xx, yy) = xx + yy 6 5, pentru x [-4, 4] şi y [-5, 5]. Rezolvare:. Folosind comanda Auto Fill se vor genera serii de valori în intervalul [-4, 4] respectiv [-5, 5] cu pasul 0. (diviziune echidistantă).. Folosind operatori aritmetici şi comanda Auto Fill calculaţi valorile funcţiei pentru fiecare punct al intervalului. 3. Din meniul Insert selectaţi Charts 4. Selectaţi tipul de grafic XY (Scatter). Recomandări: În celulele A4:A44 se introduce seria de valori pentru x, x [-4, 4], cu pasul 0., iar în celulele B4:AZ4, seria de valori pentru y [-5, 5], cu pasul 0.. Valorile x ale argumentului funcţiei va fi o progresie aritmetică având primul termen 4 şi raţia de 0. iar pentru y se va genera o progresie aritmetică având primul termen 5 şi raţia de 0.. În celulele B5:AZ44 se introduc formulele corespunzătoare pentru calculul valorilor punctelor de pe suprafaţă în punctele de la intersecţia liniei cu coloana respectivă. Se selectează zona B5:AZ44 şi se creează graficul de tip suprafaţă ce reprezintă un paraboloid eliptic. Obs. O diagramă suprafață este utilă când doriți să găsiți combinații optime între două seturi de date. Figura 8-4. Datele şi reprezentarea grafică a funcţiei f(x, y) 70 Reprezentarea grafică a funcţiilor sub formă analitică

72 Exemplul 5. Utilizând tipul de diagramă Stock (volume-high-low-close) să se reprezinte grafic volumul eşantionului studiat, media şi intervalul de confidenţă pentru vârstă, greutate, înălțime, glicemie. Rezolvare:. Folosind comanda Auto Fill se vor genera cele 4 serii de valori (vârsta, greutate, înălţime, glicemie).. Se vor calcula valorile medii şi variaţia acestora pentru un interval de confidenţă de 95%. 3. Se vor aranja valorile reprezentate corespunzător tipul de grafic Stock (volume-high-low-close). 4. Datele rezultate se vor selecta apoi din meniul Insert Charts selectaţi tipul de grafic corespunzător. Recomandări: După cum sugerează şi numele, o diagramă Stock este cel mai adesea folosită pentru a ilustra fluctuaţia unor variabile (date ştiinţifice). De exemplu, aveţi posibilitatea să utilizaţi o diagramă stoc pentru a indica fluctuaţia temperaturilor zilnice şi volumul eşantionului studiat. Modul în care sunt organizate datele pentru un grafic tip Stock este foarte important. Este necesară existenţa a patru serii de valori în ordinea corectă (volum, valoare minimă, valoare maximă, valoare medie). Acest tip de grafic evidenţiază volumul eşantionului studiat corespunzător fiecărei serii analizate utilizând două axe valori: una pentru coloanele pe care este indicat volumul eşantionului şi cealaltă axă pentru valorile min, max, medie. Figura 8-5. Datele şi reprezentarea grafică (diagramă tip Stock) Reprezentarea grafică a funcţiilor sub formă analitică 7

73 EXERCIŢII. Să se reprezinte grafic funcţiile a. ff(xx) = ee xx + 3xx xx xx + b. gg(xx) = ssssss(3xx) xxxxxxxx(3xx). Să se reprezinte grafic forme ale funcţiei Gauss-Laplace utilizând funcţia NORMDIST. 7 Reprezentarea grafică a funcţiilor sub formă analitică

74 9 ELEMENTE DE TEORIA PROBABILITĂŢILOR (I) Noţiuni prezentate: Experiență. Probă. Eveniment Evenimente compatibile. Evenimente incompatibile Evenimente dependente. Evenimente independente (I) Operații cu evenimente Experiență. Probă. Eveniment Definiție. Prin experiență (experiment) se înțelege realizarea practică a unui complex de condiții, corespunzător unui criteriu dat de cercetare a colectivităților statistice omogene. Definiție. Prin probă înțelegem realizarea (producerea) o singură dată a experienței. Exemplu. Se poate considera drept experiență, aruncarea unui zar perfect construit din punct de vedere geometric și omogen din punct de vedere fizic; în acest caz proba constă în aruncarea o singură dată a zarului. Prin intermediul exemplului de mai sus se poate defini noțiunea de colectivitate statistică prin mulțimea punctelor care apar pe fețele zarului. Definiție. Prin eveniment se înțelege rezultatul unei probe. Evenimentele pot fi clasificate în trei mari categorii: evenimente sigure, evenimente imposibile și evenimente întâmplătoare (aleatoare). Definiție. Prin eveniment sigur se înțelege evenimentul care se produce în mod obligatoriu la efectuarea unei probe a unei experiențe. Definiție. Evenimentul imposibil este acela care nu se produce la efectuarea nici unei probe. Definiție. Se numește eveniment întâmplător (aleator), un eveniment care poate, fie să se producă, fie să nu se producă la efectuarea unei singure probe. Exemple:. Extragerea unei bile albe dintr-o urnă care conține numai bile albe este un eveniment sigur.. La aruncarea unui zar, evenimentul care constă în apariția oricărei fețe, de la la 6, constituie evenimentul sigur. 3. Evenimentul constând în apariția unui număr de 7 puncte la o probă a aruncării unui zar este un eveniment imposibil. Elemente de teoria probabilităţilor (I) 73

75 4. Extragerea unei bile negre dintr-o urnă care conține numai bile albe este un eveniment imposibil. 5. Apariția feței la aruncarea unui zar este un eveniment întâmplător. Evenimentele întâmplătoare (aleatoare) se supun unor legități numite legități statistice. În acest sens, nu se poate prevedea dacă într-o singură aruncare a unui zar se obține fața cu numărul 6 ; dacă însă se efectuează un număr suficient de mare de aruncări, se poate calcula cu suficientă precizie numărul de apariții ale acestei fețe. Evenimente compatibile. Evenimente incompatibile Evenimentele întâmplătoare pot fi compatibile şi incompatibile. Definiție. Două evenimente se numesc incompatibile, dacă realizarea unuia exclude realizarea celuilalt. Exemple:. Evenimentele: apariția feței la aruncarea unui zar și respectiv, apariția feței 6 la aruncarea unui zar sunt incompatibile.. Apariția feței cu numărul 5 la aruncarea unui zar și respectiv, apariția unei fețe cu un număr impar de puncte la aruncarea unui zar reprezintă două evenimente compatibile. Evenimente dependente. Evenimente independente Evenimentele pot fi dependente sau independente. Definiție. Două evenimente se numesc independente, dacă realizarea unuia nu influențează probabilitatea realizării celuilalt, și dependente în caz contrar. Exemple:. Evenimentele: apariția feței la aruncarea unui zar și respectiv, apariția feței 3 la o altă aruncare a zarului sunt independente.. Evenimentele: obținerea unui număr de 0 puncte la aruncarea a două zaruri și apariția feței cu numărul 6 pe unul din cele două zaruri, știind că acestea au suma punctelor de pe fețele de deasupra 0, constituie două evenimente dependente [7, 8]. Operații cu evenimente Notațiile folosite în operațiile cu evenimente sunt cele cunoscute din teoria mulțimilor. Mulțimile vor fi evenimentele aleatoare și vor fi notate cu: A, B, C,.. Fie Ω evenimentul sigur și Φ evenimentul imposibil. Acestea corespund mulțimii totale considerate și respectiv, mulțimii vide. Definiție. Se spune că evenimentul A implică evenimentul B, dacă realizarea lui A atrage după sine realizarea lui B. Notația folosită: A B. Observație. Implicația evenimentelor este echivalentă cu incluziunea mulțimilor. 74 Elemente de teoria probabilităţilor (I)

76 Definiție. Se spune că un eveniment este contrar (opus, complementar) evenimentului A, dacă realizarea sa constă în nerealizarea lui A. Notația folosită este A. Observație. a) Evenimentul contrar evenimentului A este echivalent cu complementara lui A din teoria mulțimilor. b) Evenimentele A și A sunt complementare (opuse, contrare), adică, dacă se realizează A, atunci nu se realizează A și reciproc. Definiție. Reuniunea (sau adunarea) evenimentelor A şi B este evenimentul S, care constă în realizarea a cel puțin unuia dintre evenimentele A sau B. Notația utilizată este cea din teoria mulțimilor: S = A B. Prin introducerea noțiunilor reuniune și intersecție, unele noțiuni din teoria probabilităților pot fi definite în mod mai precis. Astfel, pentru evenimentele opuse se pot formula în acest moment următoarele definiții: Definiții. i) evenimentele A și A se numesc opuse (contrare, complementare), dacă au loc relațiile: A A = Ω și A A = Φ. ii) Evenimentele A şi B sunt incompatibile dacă: A B = Φ. În caz contrar ( A B Φ ), evenimentele se numesc compatibile. Exemplul. (Relațiile lui De Morgan). Fie A și B două evenimente din același câmp de evenimente (a se vedea Cap. 0, pag. 80). Să se arate că: A B = A B, A B = A B. Soluție. În teoria mulțimilor aceste două relații se numesc relațiile lui De Morgan. Interpretarea acestora este realizată în limbajul evenimentelor. Considerăm mai întâi prima relație. A B este prin definiție, evenimentul a cărui realizare înseamnă realizarea a cel puțin unuia din evenimentele A sau B. Contrarul său, A B este evenimentul a cărui realizare presupune nerealizarea, atât a evenimentului A, cât și a evenimentului B. Dar nerealizarea evenimentului A înseamnă realizarea evenimentului A și invers, nerealizarea evenimentului B înseamnă realizarea evenimentului B. Deci, dacă A B se realizează, atunci se realizează și evenimentul A și evenimentul B, adică evenimentul A B. Concluzionăm că realizarea evenimentului A B implică realizarea evenimentului A B, ceea ce se scrie : A B A B. () Elemente de teoria probabilităţilor (I) 75

77 Invers, dacă A B are loc, adică se realizează A și B, atunci nu se realizează nici unul din evenimentele A, B, deci nu se realizează evenimentul A B. Dar nerealizarea lui A B înseamnă de fapt, realizarea lui A B. Conchidem că realizarea evenimentului A B implică realizarea evenimentului A B, adică: A B A B. () Din relațiile () și () rezultă: A B = A B. Considerăm acum a doua relație, A B = A B. Evenimentul A B este evenimentul a cărui producere înseamnă realizarea atât a lui A, cât și a lui B. Contrariul său, A B, este evenimentul a cărui realizare înseamnă nerealizarea a cel puțin unuia din evenimentele A, B. Aşadar, dacă A B se realizează, atunci se realizează cel puțin unul din evenimentele A, B, adică se realizează evenimentul A B. Prin urmare: A B A B. Invers, dacă are loc A B, atunci cel puțin unul din evenimentele A, B nu s-a realizat, deci nu s-a realizat A B ; rezultă că s-a realizat A B. Avem aşadar implicația: de unde rezultă egalitatea: A B A B, A B = A B. Observație. În general, se spune că evenimentele A și B sunt egale (şi utilizăm notaţia A = B ), dacă A B și B A. Exemplul. Să se demonstreze echivalența următoarelor relații: A B, B A, A B = B, A B = A. Se va arăta că dacă una din cele patru relații este satisfăcută, atunci şi celelalte trei sunt adevărate. Soluție. Fie A B este adevărată. Această înseamnă că dacă A se realizează, atunci se realizează și B. Relația B A arată că dacă nu s-a produs B, atunci nu s-a produs nici A, ceea ce este adevărat; daca nu ar fi valabilă această afirmație, ar fi contrazisă relația A B. Pentru a arăta că A B = B (dacă A B ) este suficient să se arate că: A B B, (3) deoarece relația B A B este evidentă, ea însemnând că dacă se realizează B, atunci se realizează unul din evenimentele A, B. 76 Elemente de teoria probabilităţilor (I)

78 Pentru a demonstra relația (3), trebuie arătat că de câte ori se produce A B se produce şi B. Dacă A B s-a realizat, atunci sau s-a realizat evenimentul B (şi relația este demonstrată), sau s-a realizat evenimentul A și atunci, conform ipotezei A B, s-a realizat și evenimentul B. Pentru a arăta că A B = A (în aceeași ipoteză A B ), remarcăm că dacă are loc A, atunci conform ipotezei are loc și B, deci se realizează A B. Aşadar, A A B. Relația A B A este evidentă, ea însemnând că dacă se realizează A și B, atunci se realizează A (relația A B A este adevărată fără ipoteza A B ). Deci A B = A. Prin raționamente asemănătoare, se arată că dacă se va lua ca ipoteză, oricare alta din cele patru relații din enunț, atunci prima relație va rezulta ca fiind adevărată. Exemplul 3. Relațiile următoare sunt echivalente: A B = Φ, A B, B A. Soluție. Presupunem că A B = Φ, adică evenimentele A și B sunt incompatibile. Rezultă aşadar, că dacă A se realizează, atunci B nu se realizează, deci se realizează B, adică A B. Invers, dacă A B, atunci dacă evenimentul A are loc, se realizează în mod cert şi B, cu alte cuvinte B nu se realizează. Aceasta înseamnă că evenimentele A și B sunt incompatibile, deci A B = Φ. Am arătat că primele două relații din enunț sunt echivalente. Echivalenţa primei relaţii cu cea de-a treia relație rezultă acum imediat din simetria relației A B = Φ. Elemente de teoria probabilităţilor (I) 77

79 0 ELEMENTE DE TEORIA PROBABILITĂŢILOR (II) Noţiuni prezentate: Definiția clasică a probabilității. Proprietăți. Regula adunării probabilităților evenimentelor incompatibile. Probabilitatea evenimentelor contrare (complementare). Sistem complet de evenimente. Evenimente independente și dependente (II). Probabilitate condiționată. Teorema înmulțirii probabilităților evenimentelor independente și dependente. Definiția clasică a probabilității Definiție. Se numește probabilitatea unui eveniment A și se notează cu P (A), raportul dintre numărul m de rezultate favorabile producerii lui A și numărul total n de rezultate posibile ale experienței, cu condiția ca toate rezultatele să fie egal posibile. m P ( A) =. () n Exemplu. Pe baza definiției de mai sus, se observă imediat că probabilitatea de apariție la o singură aruncare a uneia din fețele unui zar omogen și perfect construit este 6, sau probabilitatea de apariție a uneia din fețele monedei este, etc. Exemplu. Numerele,, 3,, nn se așează la întâmplare. Să se calculeze probabilitatea ca numerele și să fie așezate în șir, în ordine crescătoare, consecutive. Soluție: Cele nn numere se pot scrie în nn! moduri. Grupul de numere {, } se poate scrie în nn locuri, în șirul celor nn numere. Alături de cele două numere {, }, celelalte nn numere se pot scrie în (nn )! moduri. Numărul cazurilor posibile este nn!, iar acela al cazurilor favorabile este (nn )! (nn ). Probabilitatea cerută este deci (nn )! (nn ) pp = = nn! nn 78 Elemente de teoria probabilităţilor (II)

80 Deoarece m n în relația (), rezultă că probabilitatea oricărui eveniment întâmplător A satisface dubla inegalitate : 0 P ( A) () Cu cât P (A) este mai apropiată de, cu atât evenimentul A are loc mai des. Dacă P ( A) = 0, evenimentul sau nu are loc niciodată, sau se realizează foarte rar, încât practic îl considerăm ca fiind evenimentul imposibil. Dacă P ( A) =, evenimentul are loc de fiecare dată la efectuarea experimentului, deci este un eveniment sigur. Din definiția clasică a probabilității - formula () - rezultă următoarele: Proprietăți:. Probabilitatea evenimentului sigur este, întrucât în acest caz m = n ;. Probabilitatea evenimentului imposibil este 0, deoarece în acest caz m = 0 ; 3. Probabilitatea unui eveniment întâmplător (aleator) este cuprinsă între 0 şi, întrucât în acest caz 0 < m <. Introducem acum noţiunea de frecvență relativă, o altă noțiune fundamentală în teoria probabilităților legată de noțiunea de probabilitate. Definiție. Prin frecvență relativă a evenimentului A se înțelege raportul dintre numărul probelor m în care evenimentul A s-a produs și numărul total n de probe efectuate. Dintr-o îndelungată observație a fenomenelor și proceselor de masă s-a putut constata că dacă un experiment se repetă, în aceleași condiții, de un număr suficient de mare de ori, atunci frecvența relativă prezintă o anumită stabilitate, oscilând în jurul probabilității de realizare a acestuia [9, 7]. Tocmai de aceea, drept măsură cantitativă de apreciere a posibilității obiective de a se produce evenimentul întâmplător A, poate fi luată frecvența relativă f A, rezultată după un număr mare N de experiențe, efectuate în aceleași condiții. Așadar, noțiunea de probabilitate a unui eveniment este legată (chiar la originea formării ei) de o noțiune experimentală, practică frecvența de producere a evenimentului, rezultând din legile obiective ale fenomenelor reale de masă. Aceasta a condus la constatarea că evenimentele corespunzătoare diferitelor probe experimentale formează o anumită structură, cu numeroase proprietăți care pot fi formulate matematic. Matematicianul rus A. N. Kolmogorov a numit-o câmp de evenimente și pe această bază a formulat cunoscutele axiome privind teoria probabilităților. Elemente de teoria probabilităţilor (II) 79

81 Schema lui Kolmogorov Obiectele de bază folosite în axiomatizarea teoriei probabilităților sunt evenimentele și probabilitățile respective. Constatăm că evenimentele corespunzătoare diferitelor experiențe posedă unele proprietăți ce pot fi formulate matematic. Exemplu. Se consideră experiența clasică a aruncării unui zar. Apariția celor șase fețe conduce la evenimentele: ( ), (),, (6). În mod analog, apariția uneia din două fețe ne conduce la evenimentele: (, ), (, 3),, (5, 6). Apariția uneia din trei fețe dă naștere evenimentelor: (,, 3), (,, 4),, (4, 5, 6). Apariția uneia din patru fețe va genera evenimentele: (,, 3, 4), (,, 3, 5),. Apariția uneia din cinci fețe va conduce la evenimente de forma: (,, 3, 4, 5), (,, 3, 4, 6), În total vor fi: C + C + C + C + C = = evenimente. Adăugând la aceasta evenimentul sigur, care constă în faptul că la o aruncare a zarului, va apărea în mod sigur una din cele șase fețe, precum și evenimentul imposibil, constând din faptul imposibil că la aruncarea cu zarul să nu apară nici una din fețe, se obțin în total 64 evenimente, care formează câmpul de evenimente generat de experiența aruncării unui zar. AXIOMA : Unei experiențe îi corespunde întotdeauna un câmp de evenimente. Evenimentele ( ), (),, (6) rezultate direct din experiență (descrisă în exemplul anterior), vor fi numite evenimente elementare. Prin urmare, sunt: C + C + C + C + C + = evenimente elementare. În general, numărul evenimentelor unui câmp finit de evenimente este egal cu la o putere egală cu numărul evenimentelor elementare. Exemplu. Astfel, dacă se consideră un lot de 5 cutii, cu medicamente de același fel, și se extrag la întâmplare două cutii, numărul 5 evenimentelor câmpului generat de această experiență va fi egal cu. Revenind la exemplul cu zarul, se observă că evenimentul (, ) constă fie în apariția feței, fie din apariția feței. Se spune că evenimentul (, ) este reuniunea (adunarea) evenimentelor ( ) și ( ), adică: ( ) () = (, ). 80 Elemente de teoria probabilităţilor (II)

82 În mod analog, realizarea simultană a evenimentelor (,, 3) și (, 3) este evenimentul (, 3). Se spune că evenimentul (, 3) este intersecția (produsul) evenimentelor (,, 3) și (, 3), adică : (,, 3) (, 3) = (, 3). Dacă evenimentele intersectate se exclud reciproc, se obține evenimentul imposibil, notat cu Φ. De exemplu : (, ) (5, 6) = Φ. Din cele arătate până acum, rezultă că orice eveniment al câmpului de evenimente care nu este un eveniment elementar, sau nu este evenimentul imposibil, este o reuniune de evenimente elementare. În particular, reuniunea (adunarea) tuturor evenimentelor elementare conduce la evenimentul sigur, care va fi notat cu Ω. Se consideră evenimentul ( ). Evenimentul (, 3, 4, 5, 6) se bucură de proprietățile: ( ) (, 3, 4, 5, 6) = Ω, ( ) (, 3, 4, 5, 6) = Φ. Evenimentul ( ) este complementul (opusul sau complementarul) evenimentului (, 3, 4, 5, 6). În general, un câmp de evenimente este caracterizat prin următoarele proprietăți : i) Daca notăm cu A k, k n evenimente ale câmpului de n evenimente, Ak, Ak = sunt de asemenea evenimente ; = ii) Notând prin k k n A k, complementul lui A k, Ak este de asemenea un eveniment. iii) Evenimentul sigur Ω şi evenimentul imposibil Φ aparțin de asemenea câmpului de evenimente. Pentru un câmp infinit (având un număr infinit de evenimente) trebuie să se admită că și k = A k, Ak k = sunt evenimente. AXIOMA : Fiecărui eveniment A al câmpului de evenimente îi corespunde un număr real, nenegativ, P (A), numit probabilitatea lui. AXIOMA 3: Probabilitatea evenimentului sigur este egală cu. AXIOMA 4: Probabilitatea reuniunii a două evenimente incompatibile între ele este egală cu suma probabilităților evenimentelor. Elemente de teoria probabilităţilor (II) 8

83 După cum se știe, evenimentele incompatibile sunt acelea care se exclud reciproc. Conform definiției, se poate scrie A B = Φ. Astfel, a patra axiomă se poate scrie : P ( A B) = P( A) + P( B), unde A B = Φ. Teoreme și reguli fundamentale ale teoriei probabilităților. Regula adunării probabilităților evenimentelor incompatibile. Se consideră evenimentele A, A,..., A n, aparținând unui același câmp de evenimente Ω, incompatibile două câte două, adică: A A = Φ, ( ) i j, i, j {,,, n}. Atunci : P A A A ) = P( A ) + P( A ) + + P( A ). ( n n Demonstrația este imediată, aplicând inducția matematică după n N (numărul de evenimente considerat), folosind regula de adunare a probabilității evenimentelor incompatibile dată de cea de a patra axiomă, și anume : P ( A B) = P( A) + P( B), atunci când A B = Φ. Observație. Pentru demonstrație se pot considera următoarele ipoteze : evenimentul A se poate realiza în m cazuri, evenimentul A se poate realiza în m cazuri,, evenimentul A n se poate realiza în m n cazuri, iar evenimentul sigur Ω se poate realiza în S cazuri. Atunci : m m mn P( A) =, P( A) =,, P( An ) =. S S S Incompatibilitatea evenimentelor A, A,..., A n, conduce la separarea completă a cazurilor m, m,..., m n, adică, numărul de cazuri în care se realizează evenimentul A A An este m + m + + mn. Rezultă aşadar m + m mn P( A A An ) = S încât obținem: P A A A ) = P( A ) + P( A ) + + P( A ). ( n n Probabilitatea evenimentelor contrare (complementare) Ne reamintim definiţia dată în capitolul anterior pentru evenimentele contrare: două evenimente A şi A sunt contrare sau complementare, dacă: A A = Ω și A A = Φ. Aceste relații arată că evenimentele sunt incompatibile, și că în fiecare probă (rezultat al unei experienţe) se realizează doar unul dintre ele. Știind că evenimentul A se realizează de m ori în n experienţe 8 Elemente de teoria probabilităţilor (II) i j

84 individuale, iar A de n m ori, probabilitățile acestor evenimente se calculează astfel: m n m m P ( A) =, P( A) = =. n n n Efectuând suma probabilităților acestor evenimente, se obține: P ( A) + P( A) =, adică suma probabilităților a două evenimente contrare (opuse, complementare) este egală cu. Sistem complet de evenimente Definiție. Considerăm un număr oarecare de S evenimente incompatibile, în așa fel încât în fiecare experienţă individuală să se producă neapărat unul din ele și numai unul. Un astfel de sistem de evenimente se numește sistem complet de evenimente. Din definiția dată mai sus rezultă: A A As = Ω, A i A j = Φ, pentru orice i, j {,,, s} cu probabilitatea: P A A A ) = P( ), ( s Ω ( A ) + P( A ) + + P( As ) = sau P, adică suma probabilităților unor evenimente care formează un sistem complet de evenimente este egală cu. Observație. Evenimentele opuse (contrare, complementare), fiind incompatibile, și în fiecare operație de masă producându-se unul dintre ele, acestea formează un sistem complet. Evenimente independente și dependente (II) Definiție. Două sau mai multe evenimente se numesc independente, dacă probabilitatea efectuării unuia dintre ele nu este influențată de faptul că celelalte evenimente s-au produs sau nu. În aplicaţiile practice, noţiunea de independență o întâlnim în două sensuri. În primul rând, putem considera evenimente a căror dependenţă sau independentă nu este cunoscută a priori, ci trebuie stabilită. De exemplu, dacă vrem să aflăm dacă există sau nu o dependenţă între obiceiul de a fuma şi incidența cancerului pulmonar, vom efectua un număr mare de observații, organizând atent experienţa şi vom compara frecvenţa îmbolnăvirilor de cancer pulmonar printre fumători, cu frecvenţa îmbolnăvirilor de cancer pulmonar printre nefumători (sau cu frecvența acestor îmbolnăviri pe totalul populaţiei studiate). Dacă aceste frecvenţe ar coincide (ceea ce nu este cazul!) am trage concluzia că evenimentele fumător şi bolnav de cancer pulmonar sunt independente. Dacă însă vom constata că există o diferenţă sensibilă între frecvenţele îmbolnăvirilor de cancer pulmonar printre fumători şi printre nefumători, vom trage concluzia că cele două evenimente sunt dependente. Elemente de teoria probabilităţilor (II) 83

85 Celălalt sens în care întâlnim noţiunea de independenţă apare mult mai frecvent şi anume, în cazul în care operăm cu evenimente a căror independenţă este cunoscută, rezultă din context şi nu avem nici o îndoială asupra ei. Exemple. a) Dacă dintr-un lot conținând atât piese standard, cât și piese rebut se extrage câte o piesă care revine la lot după fiecare extracție, evenimentele care constau în extragerea unei piese standard la fiecare extragere sunt independente. b) Dacă se aruncă o monedă de două ori, probabilitatea apariției stemei (evenimentul A ) în a doua aruncare nu depinde de faptul că, în prima aruncare s-a produs sau nu apariția valorii (evenimentul B ). Definiție. Două sau mai multe evenimente se numesc dependente, dacă probabilitatea unuia dintre ele este influențată de evenimentele anterioare (depinde de faptul că evenimentele anterioare s-au produs sau nu). Exemplu. Într-o urnă se găsesc a bile albe și b bile negre. Se notează cu A, evenimentul de a extrage o bilă albă și cu B, evenimentul constând în extragerea unei bile negre, după ce a fost extrasă o bilă (care nu se reintroduce în urnă înaintea celei de-a doua extrageri). Se fac deci două extrageri succesive: i) Dacă prima bila extrasă a fost albă, adică s-a produs evenimentul A, atunci în urnă au rămas b bile negre și probabilitatea b evenimentului B este ; a + b ii) Dacă prima bilă extrasă a fost neagră, realizându-se evenimentul A, atunci în urnă au rămas b bile negre și probabilitatea b evenimentului B este. a + b Se observă că probabilitatea evenimentului B depinde de faptul că evenimentul A s-a produs sau nu. Probabilitate condiționată. Teorema înmulțirii probabilităților evenimentelor independente și dependente Fie A şi A două evenimente dependente. Vom calcula în continuare probabilitatea producerii simultane a acestor evenimente, adică P( A ) A. Într-o operație de masă se pot întâmpla următoarele situații:. se produce evenimentul A A în m cazuri favorabile ;. se produce evenimentul A A în m cazuri favorabile ; 3. se produce evenimentul A A în m3 cazuri favorabile ; 84 Elemente de teoria probabilităţilor (II)

86 4. se produce evenimentul A A în m4 cazuri favorabile. Rezultă că sunt în total n = m + m + m3 + m4 cazuri posibile. Aşadar m P( A A ) =. (3) n Probabilitatea evenimentului A se calculează astfel: Numărul cazurilor favorabile realizării evenimentului A este m + m, încât avem: m + m P( A) =. (4) n Evenimentele A și A fiind dependente, înseamnă că probabilitatea lui A va fi influențată de realizarea lui A, deci se va calcula P A ( A ), notaţie care se citește,,probabilitatea lui A condiționată de A sau,,probabilitatea lui A după ce s-a realizat A. Cazurile favorabile realizării evenimentului A, după ce s-a produs evenimentul A, sunt în număr de m, iar numărul cazurilor posibile m + m. Deci: m P A ( A ) =. (5) m + m Înmulțind relațiile (4) și (5), membru cu membru, se obține : m + m m m P( A ) PA ( A ) = =, n m + m n adică rezultatul din formula (3). Deci, P A A ) = P( A ) P ( ), (6) ( A A relație care constituie regula de înmulțire a probabilităților a două evenimente dependente. Din formula (6) se deduce că P( A A ) P A ( A ) = (7) P( A ) În mod analog, probabilitatea evenimentului A condiționată de A este : P( A A ) P A ( A ) = (8) P( A ) Formulele (7) și (8) indică faptul că probabilitatea unui eveniment, condiționată de realizarea unui alt eveniment este egală cu raportul dintre probabilitatea intersecției (producerii simultane) a celor două evenimente și probabilitatea evenimentului ce condiționează. Exemplu. Dintr-un lot de 500 cutii de medicamente, dintre care 493 corespund standardului și 7 nu corespund, un cumpărător cumpără două cutii. Să se calculeze probabilitatea ca aceste două cutii să fie corespunzătoare. Elemente de teoria probabilităţilor (II) 85

87 Soluție. Fie A evenimentul ca prima cutie extrasă din lot (cumpărată de client) să fie corespunzătoare și A, evenimentul ca a doua cutie să fie corespunzătoare. Probabilitatea evenimentului A este 493 P ( A ) =. Când cutia a doua a fost luată, după ce în prima extragere am 500 obținut o cutie care corespunde standardului, n-au mai rămas decât 499 de cutii, dintre care 49 standard și 7 rebut. Probabilitatea producerii evenimentului A condiționată de A va fi: 49 P A ( A ) =. 499 Așadar, probabilitatea ca cele două cutii să fie corespunzătoare este : P( A A ) = P( A ) PA ( A ) = 0, În general, fie evenimentele A, A,, Ak. Probabilitatea producerii simultane a acestora se calculează pe baza formulei: P A A A ) = P( A ) P ( A ) P ( A ) P ( A ) (9) ( k A A A 3 A A Ak k Demonstrarea acestei formule se face prin metoda inducției matematice. Evenimentele A, B și C sunt independente în totalitatea lor, dacă sunt independente evenimentele: A și B, A și C, B și C, A și B C, B și A C, C și A B. Se poate vedea că independența în totalitate nu poate fi asigurată de independența evenimentelor luate două câte două. Exemplu. Într-un spaţiu de depozitare s-au adus cutii de medicamente: 6 cutii conţin medicamentul Diazepam, iar celelalte cutii au medicamentul antihipertensiv Nifedipin. Se scot succesiv din depozit 3 cutii (fără întoarcerea cutiilor extrase). Care este probabilitatea ca prima cutie să conţină medicamentul Diazepam, iar celelalte două să conţină medicamentul Nifedipin? Soluţie: Notăm următoarele evenimente: D : prima cutie extrasă conţine medicamentul Diazepam, N : a doua cutie extrasă conţine medicamentul Nifedipin, N 3 : a treia cutie extrasă conţine medicamentul Nifedipin P( D N N3) = P( D) PD ( N) PD N ( N3) =. 0 9 Exemplu. O urnă conține NN bile dintre care aa sunt albe. Se extrag succesiv trei bile. Se cere să se determine probabilitatea ca cele trei bile să fie albe. 86 Elemente de teoria probabilităţilor (II)

88 Soluție: Probabilitatea ca prima bilă extrasă să fie albă este aa ; NN probabilitatea ca a două bilă extrasă să fie albă este aa, iar probabilitatea NN ca a treia bilă estrasă să fie albă este aa. Extragerile fiind independente NN între ele, rezultă că probabilitatea cerută este: pp = aa(aa )(aa ) NN(NN )(NN ) Exemplu. Se aruncă două zaruri de 5 de ori. Să se calculeze probabilitatea ca dubla patru să apară cel puțin odată. Soluție: Vom calcula probabilitatea contrară, deci probabilitatea ca dubla patru să nu apară niciodată în cele 5 de aruncări. Aceasta este data de qq 5 = , deoarece qq = 35 =, și aruncările sunt independente între ele. Probabilitatea cerută este deci pp 5 = qq 5 = Exemplu. Două clase AA și BB cu câte 0 elevi au, respectiv, 0 elevi buni, 5 mediocri, 5 slabi şi 5 elevi buni, 5 mediocri și 0 slabi. Un profesor ascultă la întâmplare câte un elev din fiecare clasă și constată că elevul din clasa AA este mai bun decât elevul din clasa BB. Care este probabilitatea ca clasa AA să fie prima? Soluție: Situația celor două clase este următoarea: elevi buni elevi mediocri elevi slabi Întrebând la întâmplare, un elev din prima clasă și unul din clasa BB, avem: = 00 combinații în care elevul din prima clasă este mai bun și = 75 combinații în care elevul din a doua clasă este mai bun. Probabilitatea ca un elev să fie dintr-o clasă sau alta este. Probabilitatea ca clasa AA să fie prima este: 00 PP = 00 + = 75 Exemplu. Într-un spital sunt rezidenți în primul an, în al doilea an sau în al treilea an de stagiu. Se iau la întâmplare doi rezidenți și unul dintre ei declară că perioada de stagiu parcursă este mai mare decât a celuilalt. Care este probabilitatea ca el să fie din al treilea an de stagiu? 8 Elemente de teoria probabilităţilor (II) 87

89 Soluţie: Fie nn, nn, nn 3 numărul rezidenţilor, respectiv din primul, al doilea și al treilea an de stagiu. Luându-se un rezident din anul al doilea și unul oarecare, probabilitatea ca primul să aibă o perioadă de stagiu parcursă mai mare este nn nn + nn + nn 3 De asemenea, probabilitatea ca un rezident din al treilea an să fie mai vechi în stagiu, ca altul luat la întâmplare este: nn + nn nn + nn + nn 3 Pe de altă parte, probabilitățile ca un rezident să fie în al doilea, respectiv în al treilea an sunt: nn nn 3 și nn + nn + nn 3 nn + nn + nn 3 Probabilitatea ca rezidentul cel mai vechi în stagiu dintre cei doi să fie din al treilea an este nn 3 nn nn PP = + nn + nn + nn 3 nn + nn + nn 3 nn 3 nn + nn nn + nn + nn 3 nn + nn + nn 3 + nn nn nn + nn + nn 3 nn + nn + nn 3 nn 3 (nn + nn ) + nn = = nn 3 nn 3 (nn + nn ) + nn nn + nn nn + nn 3 Observație. Menţionăm câteva cazuri particulare: a) Dacă nn = nn = nn 3, atunci probabilitatea PP = 3. b) Dacă nn = nn = 4nn 3, atunci probabilitatea PP = 5 7. c) Dacă nn = 3nn = 6nn 3, atunci probabilitatea PP = 7 0. Probleme propuse spre rezolvare. Să se arate că evenimentele AA, AA BB, AA BB formează un sistem complet de evenimente.. Într-un spital doi bolnavi urmează aceeaşi schemă de tratament în acelaşi timp. Probabilitatea ca primul bolnav să se însănătoşească este pp = 0.7, iar pentru cel de-al doilea este pp = 0.6. Să se calculeze probabilitatea ca doar primul bolnav să devină sănătos în urma administrării tratamentului. 88 Elemente de teoria probabilităţilor (II)

90 ELEMENTE DE TEORIA PROBABILITĂŢILOR (III) Noţiuni prezentate: Evenimente independente. Evenimente independente în totalitatea lor (III). Teorema adunării probabilităților evenimentelor compatibile. Formula probabilității totale. Revenim la definiţia independenţei a două evenimente pentru a extinde această noţiune la un număr mai mare de evenimente. Aşa cum am precizat, dacă P( A A ) = P( A ) P( A ), se va spune că evenimentele A și B sunt independente între ele. Se observă că două evenimente sunt independente dacă probabilitatea unuia dintre ele nu depinde de faptul că celălalt eveniment s- a produs sau nu. Un exemplu de evenimente independente îl găsim în cazul unei urne cu bile de două culori, din care se fac extrageri în următoarele condiții: în urnă se găsesc 6 bile albe și 4 negre. Dacă A este evenimentul care constă în extragerea unei bile albe, atunci : 6 P ( A) =. 0 După extragere, bila se reintroduce în urnă și se face o nouă extragere. Fie B, evenimentul ca să fie extrasă o bilă neagră în această a 4 doua extragere. Atunci P ( B) =, probabilitate care nu depinde de faptul 0 că evenimentul A s-a produs sau nu. Așadar, conform definiției amintite mai sus, are loc relația : P( A A ) = P( A ) P( A ) Ținând cont de relația de mai sus obținem: P( A A ) P( A ) P( A ) P A ( A ) = = = P( A ), P( A ) P( A ) P( A A ) P( A ) P( A ) P A ( A ) = = = P( A ) P( A ) P( A ) Elemente de teoria probabilităţilor (III) 89

91 Egalitățile: P A A ) = P( ) și P A A ) = P( ) ( A ( A arată că a condiționa pe A de A, și pe A de A nu influențează probabilitățile P ( A ) și P ( A ). Evenimentele A și A sunt independente. În cazul în care avem k evenimente independente, formula (9) din capitolul 0, formulă pe care o scriem mai jos: P A A A ) = P( A ) P ( A ) P ( A ) P ( A ) devine: ( k A A A 3 A A Ak k P ( A k k A A ) = P( A ) P( A ) P( A ) Prin urmare, probabilitatea producerii simultane a unui număr oarecare de evenimente independente este egală cu produsul probabilităților acestor evenimente. Exemplu. Două fabrici de medicamente produc același tip de medicament. Probabilitățile ca medicamentul să corespundă standardului sunt 0, 98, respectiv 0, 96. Se ia pentru încercare, câte o cutie de medicamente de la fiecare fabrică și se cere să se calculeze probabilitatea ca ambele cutii să fie corespunzătoare. Soluție. Evenimentele considerate fiind independente, rezultă: P ( A A ) = P( A ) P( A ) = 0,98 0,96 = 0,9408. Este important să se precizeze că cele arătate mai înainte nu pot fi extinse la un număr oarecare de evenimente, fără a defini în prealabil, ce se înțelege prin evenimente independente în totalitatea lor. Definiție. Mai multe evenimente se numesc evenimente independente în totalitatea lor, dacă fiecare dintre ele și orice intersecție a celorlalte (conținând fie pe toate, fie o parte a lor) sunt evenimente independente. Exemplu. O farmacie se aprovizionează de la 3 depozite de medicamente. Fiecare depozit conţine aceleaşi 00 de tipuri de medicamente. Care este probabilitatea ca primele 3 transporturi făcute de la fiecare dintre aceste depozite să aprovizioneze farmacia cu acelaşi tip de medicament? Soluţie: Notăm următoarele evenimente independente: A : transportul realizat de la depozitul să aducă medicamentul X ; A : transportul realizat de la depozitul să aducă medicamentul X ; A : transportul realizat de la depozitul 3 să aducă medicamentul X ; 3 P A A3 ) = ( A = 6 90 Elemente de teoria probabilităţilor (III).

92 Teorema adunării probabilităților evenimentelor compatibile Fie A şi A două evenimente compatibile. Să se calculeze P( A A). Evenimentele fiind compatibile, evenimentul A A se poate realiza în următoarele moduri: A A : se realizează A împreună cu opusul A ; A A : nu se realizează A, dar se realizează A ; A A : se realizează simultan A și A. Rezultă: A A = ( A A ) ( A A ) ( A A ) Deoarece evenimentele intersecției sunt incompatibile două câte două, se poate scrie : P( A A ) = P( A A ) + P( A A ) + P( A A ) () Se vor calcula probabilitățile evenimentelor A și A : P A ) = P( A A ) + P( A ), () ( A ( A ) P( A A ) + P( A A P = ) (3) Însumând ultimele două relații și ținând seama de (), se obține: P( A ) + P( A ) = P( A A ) + P( A A ) + P( A A ) + P( A A ) de unde rezultă : P A A ) = P( A ) + P( A ) P( A ) (4) ( A Pentru trei evenimente, A, A și A 3 această relație devine : P A A A ) = P( A ) + P( A ) + P( ) P ( 3 A3 ( A A ) P( A A3 ) P( A A3 ) + P( A A A3 În general, pentru S evenimente are loc următoarea relație : s s s s P Ak = P( Ak ) P( Ak Ah ) + + ( ) P Ak (6) k = k = k, h k = k h Cu această formulă, numită formula lui Poincaré, se calculează probabilitatea ca cel puțin unul din cele S evenimente compatibile și în număr finit A, A,..., A S să se realizeze. ) (5) Exemplu. Un medic lucrează în 3 saloane de bolnavi. Probabilitățile ca în decursul unei gărzi să nu se facă noi internări sunt: pentru primul salon de 0, 90, pentru al doilea salon de 0, 94 și pentru al treilea salon de 0,86. Să se calculeze probabilitatea ca cel puțin unul din cele trei saloane ale medicului, să nu primească noi internări în timpul unei gărzi. Elemente de teoria probabilităţilor (III) 9

93 Această probabilitate se calculează astfel: P( A A A3 ) = P( A ) + P( A ) + P( A3 ) P( A A ) P( A A3 ) P( A A3 ) + P( A A A3 ) = P( A ) + P( A ) + P( A ) P( A ) P( A ) P( A ) P( A3 ) P( A ) P( A3 ) + P( A ) P( A = 0,90 + 0,94 + 0,86 0,90 0,94 0,90 0,86 0,94 0,86 + 0,90 0,94 0,86 = 0,9996 ) P( A Formula probabilității totale Se presupune că o operație dată, conduce la rezultatele A, A,, A s, care formează un sistem complet de evenimente. Fie un eveniment X care nu se poate realiza singur, ci împreună cu unul din evenimentele A, A,, A s. Deci: X = ( A X ) ( A X ) ( As X ). Deoarece evenimentele ( A X ), ( A X ),..., ( A s X ) sunt incompatibile două câte două, rezultă : P( X ) = P( A X ) + P( A X ) + + P( A s X ), sau, dezvoltând mai departe membrul drept, obținem: P( X ) = P( A ) PA ( X ) + P( A ) ( ) ( ) ( ) PA X + + P A P X s A, s rezultat care constituie formula probabilității totale exprimând următoarea: Teoremă. Probabilitatea evenimentului X care poate să se producă, condiționat de unul din evenimentele A, A,, A s și care împreună formează un sistem complet de evenimente, este egală cu suma produselor dintre probabilitățile acestor evenimente și probabilitățile condiționate corespunzătoare ale evenimentului X. Demonstrație. Teorema se demonstrează foarte simplu. În condițiile teoremei, producerea evenimentului X revine la producerea unuia din următoarele evenimente incompatibile ( A X ), ( A X ),..., ( A s X ), adică : X = ( A X ) ( A X ) ( A s X ). Aplicând o consecință a teoremei de adunare a probabilităților evenimentelor incompatibile, se obține : P( X ) = P( A X ) + P( A X ) + + P( A s X ). Însă, după regula înmulțirii probabilităților evenimentelor dependente, atunci avem succesiv: P( A X ) = P( A ) PA ( X ), P( A ) ( ) ( ) X = P A PA X,..., P( As X ) = P( As ) PA ( X ). s Prin urmare, 3 ) 9 Elemente de teoria probabilităţilor (III)

94 P X ) = P( A ) P ( X ) + P( A ) P ( X ) + + P( A ) P ( ). ( A A X s As Exemplu. Într-o farmacie se găsesc medicamente de același fel, provenite de la trei depozite de medicamente. Se știe că 5 % din totalul medicamentelor sunt din primul depozit, 35 % din al doilea depozit, iar 40 % din cel de-al treilea depozit, și că rebuturile sunt de %, 3 % și respectiv, % pentru fiecare din ele. Să se calculeze probabilitatea ca luând un medicament la întâmplare din farmacie, acesta să fie necorespunzător din punct de vedere calitativ. Soluție. Fie A, A, A 3 evenimentele ca medicamentul să aparțină unuia din cele trei depozite și fie X, evenimentul ca medicamentul să fie necorespunzător. Medicamentul necorespunzător calitativ, putând proveni numai de la unul din cele trei depozite, înseamnă că evenimentul X nu se poate realiza singur, ci împreună sau cu A, sau cu A, sau cu A 3 ; adică au loc intersecțiile ( A X ), ( A X ), ( A 3 X ). Probabilitățile evenimentelor A, A, A3 și a evenimentului X condiționat de realizarea evenimentelor A, A, A 3 sunt : P ( A ) =, P ( A ) =, P ( A 3 ) =, P A ( X ) =, P ( ) A X =, P A ( X ) = Deci, P( X ) = P( A ) PA ( X ) + P( A ) ( ) ( ) ( ) PA X + + P A P X s As = + + = = 0, Se vede de aici că la fiecare 0000 de medicamente, în medie, 95 sunt necorespunzătoare. Probleme rezolvate și probleme propuse spre rezolvare:. Notăm cu A evenimentul naşterii unui băiat şi cu B evenimentul ca la naştere copilul să aibă peste 3 Kg. Presupunem că avem n naşteri, dintre care p sunt băieţi, m au peste 3 Kg şi q băieţi au peste 3 Kg. Dacă ştim că cel născut este băiat, care este probabilitatea evenimentului ca acesta să aibă peste 3 Kg? Soluție: p Probabilitatea naşterii unui băiat va fi: P ( A) =. n Elemente de teoria probabilităţilor (III) 93

95 m Probabilitatea naşterii unui copil de peste 3 Kg va fi: P ( B) =. n q Probabilitatea naşterii unui băiat de peste 3 Kg va fi: P ( A B) =. n Dacă este băiat, atunci toate cazurile favorabile sunt p. Ca să aibă peste 3 Kg, doar q respectă condiţia. În concluzie, probabilitatea este: q q / n P( A B) P( B / A) = = =. p p / n P( A). Într-o urnă avem 5 bile albe şi 6 bile negre. Din cele 5 albe două sunt numerotate cu şi restul de trei cu. Din cele 6 bile negre două sunt numerotate cu şi patru cu. Se extrage la întâmplare o bilă. Dacă se cunoaşte că bila extrasă este albă, care este probabilitatea ca ea să fie notată cu? Soluție: Notăm evenimentele: A bila este albă. B bila are numărul. P( A B) Probabilitatea căutată este P( B / A) =. P( A) În total avem : = bile (cazuri în total). 5 Probabilitatea evenimentului A este: P ( A) =. Probabilitatea intersecţiei evenimentelor A şi B este: P ( A B) =. P( A B) / În final obţinem: P ( B / A) = = =. P( A) 5/ 5 Putem gândi şi astfel: Dacă s-a extras o bilă albă, înseamnă că nu poate fi decât una din cele 5. Dacă numărul este, atunci nu sunt decât cazuri din cele 5 albe. Astfel, probabilitatea căutată este P = Analizând calitatea tabletelor dintr-un lot de medicamente, acestea pot fi considerate acceptabile sau inacceptabile. Dacă probabilitatea ca o tabletă sa fie acceptabilă este 0, 95, care este probabilitatea ca tableta sa fie inacceptabilă? 94 Elemente de teoria probabilităţilor (III)

96 4. Tabletele dintr-un lot de medicamente sunt considerate inacceptabile dacă ele sunt deteriorate (A), prezintă pete de culoare (B), sau sunt decolorate (C). La inspecția unui lot de 00 de tablete, 5 prezentau defectul A, 3 prezentau defectul B și 4 tablete aveau defectul C. Considerând că tabletele nu conțin defecte multiple, să se afle probabilitatea de selecție a unei tablete inacceptabile? Indicație: Se va calcula P( A B C). 5. Au fost inspectate 00 de tablete dintr-un al doilea lot: 6 tablete erau deteriorate (A), 3 tablete prezentau pete de culoare (B), iar tablete erau deteriorate și aveau și pete de culoare. Care este probabilitatea de selecție a unei tablete inacceptabile? Indicație: Se va calcula P( A B). 6. Un lot de 00 de cutii de medicamente este supus controlului de calitate. Condiţia ca acest lot să fie respins este găsirea cel puţin a unui rebut în cinci verificări consecutive. Care este probabilitatea ca lotul dat să fie respins, dacă el conţine 5% cutii rebut? Indicație: Se va calcula probabilitatea evenimentului contrar, adică a evenimentului ca lotul, în urma controlului să fie acceptat. Elemente de teoria probabilităţilor (III) 95

97 ELEMENTE DE TEORIA PROBABILITĂŢILOR (IV) Noţiuni prezentate: Analiza unor exemple de aplicare a Teoremei lui Bayes. Teorema lui Bayes. Dacă D, D,, Dn este o familie completă de evenimente ale căror probabilități a priori P( D ), P( D ),, P( Dn ) sunt cunoscute, iar S este un alt eveniment, pentru care toate probabilitățile condiționate P( S / D ), P( S / D ),, P( S / Dn ) sunt cunoscute, atunci probabilitățile condiționate inverse P( D i / S) sunt obținute cu formula: P( D / S) = i P( Di ) P( S / Di ) P( D ) P( S / D ) + P( D ) P( S / D ) + + P( D ) P( S / D n n. ) Teorema lui Bayes este un instrument ce poate fi folosit pentru a reevalua probabilitățile diferitelor ipoteze-diagnostic posibile. Notațiile D, D,, D n de mai sus se pot referi la aceste ipoteze-diagnostic posibile. Probabilitățile a priori P ( Di ) pot fi estimate prin diverse metode, de exemplu, prin folosirea datelor statistice sau de recensământ la nivel național. Evenimentul S poate fi un semn (indiciu) al manifestării unei boli sau un simptom. În contextul prezenței acestui semn/simptom, probabilitățile ipotezelor-diagnostic trebuie să fie reevaluate. Teorema lui Bayes enunțată mai sus ne prezintă o formulă prin care putem calcula aceste probabilități a posteriori. Exemplul. Presupunem că avem un lot format din 0000 persoane de sex feminin, participante la un test screening pentru determinarea prezenţei cancerului de sân. Dintre acestea, la un număr de 0 de persoane a fost depistată şi confirmată prezenţa maladiei. Prin a doua metodă numită mamografie (cunoscută ca nefiind o metodă perfectă) s-au obţinut 95 de persoane pozitive din cele 0. Dintre femeile sănătoase, deci în număr de 9880, au avut mamografie pozitivă 880 (falşi pozitivi). Care este probabilitatea ca o persoană la care mamografia a ieşit pozitivă să aibă întradevăr cancer de sân [9]? 96 Elemente de teoria probabilităţilor (IV)

98 Soluție: Răspunsul greşit şi frecvent întâlnit este 95/0, ceea ce reprezintă aproximativ 80%. Aici trebuie atent interpretată întrebarea la care se cere, în mod evident, un rezultat corect. Răspunsul dat reflectă probabilitatea ca o persoană care are cancer de sân să prezinte mamografie pozitivă. Introducem următoarele notaţii: T reprezintă volumul lotului şi are valoarea de CS numărul de persoane ce au cancer de sân, CS = 0. M numărul de persoane cu mamografie pozitivă, M = = 975. Putem defini probabilitatea căutată ca fiind P ( CS / M ). Răspunsul 95 /0 este pentru probabilitatea condiţionată: P ( M / CS). P( M / CS) P( CS) Conform formulei lui Bayes avem: P( CS / M ) =. P( M ) Putem acum calcula probabilităţile: P ( CS) = = 0,0 ; P ( M ) = = 0, Putem defini evenimentele elementare CS, care arată prezenţa cancerului de sân, respectiv CS, care va însemna absenţa acestuia. Aceste două evenimente elementare formează un sistem complet de evenimente (necesar în aplicarea formulei lui Bayes). Probabilitatea P (M ) se va calcula cu formula ( M este evenimentul a cărui realizare înseamnă mamografie pozitivă nu se face nici o confuzie de notaţie, deoarece reflectă aceeaşi idee): P( M ) = P( CS) P( M / CS) + P( CS) P( M / CS) P ( M ) = + = = = 0, P ( M / CS) = = 0,79. 0 Probabilitatea căutată este: P ( CS / M ) = 9,7%. Probabilitatea condiţionată depinde şi de procentul de mamografii pozitive din cadrul persoanelor sănătoase. Iniţial, fără a avea rezultatul mamografiei, puteam spune că pentru orice persoană există un risc de a avea cancer de sân în proporţie de P ( CS) = 0,0 =,%. După realizarea mamografiei, pentru rezultat pozitiv obţinem P ( CS / M ) = 9,7%, deci o ajustare faţă de starea iniţială, datorită informaţiei noi obţinute. Elemente de teoria probabilităţilor (IV) 97

99 Exemplul. Să considerăm următorul exemplu simplu, cu doar două diagnostice posibile: D pacientul nostru are tuberculoză, D = D pacientul nostru nu are tuberculoză, S pacientul Ion Popescu testează pozitiv (în radiografia pulmonară). Evident, D și D este o familie completă de evenimente. Din datele de recensământ la nivel național știm că 3 % din populație are tuberculoză. Așadar, putem estima: P ( D ) = 3% = 0,03, și în consecință P ( D ) = P( D ) = 0,03 = 0,97. Trebuie să estimăm și probabilitatea condiționată P ( S / D ). Din experiența medicală, știm că 90 % dintre pacienții suferinzi de tuberculoză testează pozitiv în radiografia pulmonară. Așadar, P ( S / D ) = 0, 90 De asemenea, există șanse foarte mici, să spunem de %, ca o persoană care nu are tuberculoză să testeze pozitiv. Așadar, estimăm că : P ( S / D ) = 0,0. Dispunem acum de toate ingredientele pentru a folosi formula lui Bayes: 0,03 0,90 0,07 P ( D / S) = = = 0,736. 0,03 0,90 + 0,97 0,0 0,0367 Prin urmare, probabilitatea ca Ion Popescu, care a fost testat pozitiv în radiografia pulmonară, să aibă tuberculoză este estimată acum la 73,6%. (Cu alte cuvinte, din cauza evenimentului S, probabilitatea de a avea tuberculoză crește de la 3 % la 73,6%.) Exemplul 3. Să considerăm acum un exemplu ceva mai sofisticat (preluat din Introduction to Clinical Informatics de Degoulet si Fieschi, Springer Verlag, 999): D Pacienta noastră (dintr-un spital mare) are apendicită, D Pacienta noastră are salpingita, D 3 Pacienta noastră este în orice altă situație. Probabilitățile a priori ar putea fi estimate și din înregistrările spitalului. Să presupunem că în anul care a trecut, din 0000 paciente tratate 98 Elemente de teoria probabilităţilor (IV)

100 în spital, 000 au fost diagnosticate cu apendicită, iar 500 cu salpingită. Prin urmare: P ( D ) = 0, 0 ; P ( D ) = 0, 05 ; P ( D3 ) = 0, 85. (Să ne amintim că D D D3 trebuie să reprezinte evenimentul sigur!) Să considerăm acum următoarele două simptome: R durere în cadranul inferior drept, L durere în cadranul inferior stâng. Specialiștii ar putea să ne dea estimări bune ale probabilităților a priori: P ( R / D ) = 0,80 ; P ( R / D ) = 0, 50 ; P ( R / D3 ) = 0, 05; P ( L / D ) = 0,0 ; P ( L / D ) = 0, 50 ; P ( L / D3 ) = 0, 05. Ca urmare, avem toate datele necesare pentru a calcula folosind formula lui Bayes probabilitățile a posteriori: P ( D / R) = 0,54 ; P ( D / R) = 0, 7 ; P ( D3 / R) = 0, 9. Așadar, probabilitatea ca o anumită pacientă, care acuză dureri în cadranul inferior drept, să aibă apendicită sunt estimate la 54 %, iar salpingită la doar 7 %. Totuși, ce putem spune dacă pacienta acuză dureri în ambele cadrane inferioare? Am putea da un răspuns probabilistic, dacă am dispune de estimările necesare din partea specialiștilor. Observație importantă! Chiar dacă este un instrument puternic în medicină, folosirea teoremei lui Bayes este oarecum limitată, din cauza condițiilor impuse, anume: a) Maladiile trebuie să fie mutual exclusive, b) Diferitele semne și simptome ce intervin în procesul de diagnoză trebuie să fie independente, condiții care se întâlnesc destul de rar în practica medicală. Elemente de teoria probabilităţilor (IV) 99

101 3 STATISTICĂ DESCRIPTIVĂ (I) Noţiuni prezentate: Statistică descriptivă Calculul indicatorilor statistici Statistica matematică este cea mai adecvată şi exactă metodă de interpretare a fenomenelor de masă, cu posibile legături cauzale, multifactoriale, unde legitatea se manifestă şi se poate observa prin rezultanta unui număr mare de fapte luate în studiu. Într-o primă formă extragerea de informaţii din date constă în prezentarea descriptivă deci calculul indicatorilor statistici cât şi realizarea distribuției de frecvenţă [9]. Există două tipuri de variabile (date) ce definesc natura informaţiei: cantitative şi respectiv, calitative. Datele de tip calitativ mai sunt cunoscute şi cu numele de variabile categoriale sau atributive. Valorile acestora variază ca sortiment, categorie sau clasă, nu după magnitudine sau mărime. Practic, nu putem realiza o ordonare între valorile existente (de ex. culoarea unui produs) [0]. Datele sau variabilele de tip cantitativ se caracterizează prin variaţie în magnitudine, de la element la element. Astfel, acestea pot fi ordonate, încât relaţii de genul mai mic sau mai mare au sens în acest context. După fineţea pasului de evaluare a relaţiei mai mare sau mai mic, putem împărţi variabilele cantitative în discrete şi continue. O variabilă discretă poate lua valori numărabile sau izolate, cum ar fi: numărul de note de 0 la examenul de admitere, sau numărul de nou născuţi într-o zi la o maternitate. O variabilă de tip continuu poate lua orice valoare dintr-un interval definit. Calculul indicatorilor statistici În studiul distribuţiei de frecvenţe a caracteristicii unei populaţii se observă tendințe cu două aspecte: de localizare (de poziţie), de împrăştiere (de variaţie) [5, 9,,, 3]. 00 Analiză descriptivă (I)

102 Indicatori de localizare Media aritmetică (simplă) Este indicatorul de bază al tendinţei de localizare. Considerăm şirul de date x, x,,x n. Media aritmetică se notează cu X sau M(x): X x + x xn = n Media aritmetică ponderată Dacă avem frecvenţele absolute a, a,, a m corespunzătoare valorilor x, x,., x m), atunci media se poate calcula conform formulei: a x + a x a X = a + a a Media aritmetică ajustată În situaţia în care avem posibile valori eronate apropiate de extremele minimă respectiv maximă, este indicat să se folosească media aritmetică ajustată (trimmean). Aceasta se va calcula folosind din datele iniţiale doar un procent de 90% sau 80% de exemplu. Practic valorile extreme vor fi eliminate în proporţia dorită. Dacă alegem să lucrăm cu 90% din volumul de date, atunci 5% reprezentând valorile cele mai mici respectiv 5% reprezentând valorile cele mai mari vor fi eliminate din calcul. Media armonică Se utilizează în calculul valorii medii pentru mai multe mărimi relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă (inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru şirul de valori x, x, x 3,, x n se notează cu M H media armonică. Formula de calcul este: n =, M H n i= x = n M H =, i n... x x xn i= xi n cu condiţia x i 0. Considerând frecvenţele absolute notate a i obţinem următoarea formulă de calcul a mediei armonice ponderate: n n M H = =. n m a j x x i= i m m j= = x j n i= m n = x i m j= a j n x j Analiză descriptivă (I) 0

103 Media cronologică Este utilizată pentru seriile care au variaţii în timp (lunare, semestriale sau anuale). Formula de calcul: X X + X X + n n M = C. n Media geometrică Se utilizează în calculul coeficienţilor de creştere medie a valorilor unei serii cronologice logaritmice, sau a seriilor cu creştere progresivă (cu raţie crescătoare). De exemplu, se foloseşte în calculul ritmului mediu de creştere anuală sau în dinamica sporului natural al populaţiei. Media geometrică a unui şir de valori x, x, x 3,, x n se notează de obicei cu M G şi se calculează cu formula: n M n n G = x x x3 xn = Π= i... x. Media pătratică Fie şirul de valori x, x, x 3,, x n. Media pătratică se notează M P şi se calculează cu formula (radical din media pătratelor valorilor): M n xi i= P = = n Mediana Notăm valorile unui şir cu x, x, x 3,, x n. Suplimentar, acest şir trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se notează cu Me. Dacă şirul are un număr impar de valori, adică n = k+, avem : Me = x = k + x n+ X. Dacă şirul are un număr par de valori, deci n= k, calculăm mediana cu formula: Me = ( x + ) / k xk +. Mediana este un indicator robust şi este mai puţin influenţată de valorile extreme (asemănător mediei aritmetice ajustate) decât media şi este mai stabilă la fluctuaţiile de selecţie. Modul (dominanta) Fie şirul format din elementele x, x, x 3,, x n. Valoarea x i corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia poate avea mai multe maxime, dar de obicei doar unul este global, celelalte fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală, cu două maxime se va numi bimodală, iar cu mai multe maxime este numită polimodală sau multimodală.. i 0 Analiză descriptivă (I)

104 Sunt situaţii în care datele sunt grupate pe clase. În acest caz intervalul corespunzător frecvenţei maxime se numeşte interval modal sau clasă modală. Modul se notează cu Mo. Valoarea centrală Reprezintă media extremelor şirului de date studiat: X max + X Xc = min. Dacă valorile din şirul de date sunt grupate pe clase, X clasa inf. + X clasa sup. formula de calcul devine: Xc =. Este uşor de observat că valoarea centrală este dependentă de extreme şi nu de valorile tuturor datelor. Observație: Unitatea de măsură a indicatorilor de localizare este aceeași cu a elementelor componente a eșantionului sau lotului studiat. Indicatori de variaţie Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare numerică a împrăştierii datelor. Variaţia luată în considerare se poate raporta chiar la valoarea medie calculată. Dispersia (varianţa) Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor faţă de valoarea medie a şirului de date. Se notează cu σ sau D[x]. Are următoarea formulă de calcul (pentru volumul n al eşantionului de valori ( x X ) + ( x X ) + + ( x X ) n ( xi X )... n i= mari, n>30): σ = =. n n Dacă avem valorile x, x, x 3,, x n cu frecvenţele absolute a, a,, a m, atunci formula de calcul devine: m a ( x X ) ( x X ) i i m i= σ = = f i i. n i= Făcând apel la noțiunile de statistică observăm că numărul de valori ce compun setul de date, are influență asupra formulelor de calcul a indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30, atunci se aplică o corecţie asupra numitorului formulei. În acest caz ajustarea este în sensul că nu se împarte la n ci la n- (numit şi numărul gradelor de libertate). s estimat = n n ( xi X ) ( xi X ) i= n = i= n n = s n n. n Analiză descriptivă (I) 03

105 Abaterea pătratică medie (deviaţia standard) Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se exprimă cu aceleaşi unităţi de măsură. Formula: n ( xi X ) i= D[ x] = σ =. n a σ. n m i Ţinând cont de frecvenţele absolute avem: = ( xi X ) Putem exprima şi astfel: σ = M P X + X = M P X. Pentru eşantioane mici se aplică formula de estimare prin împărţire la (n-) în loc de n. Abaterea individuală Reprezintă o măsură caracteristică fiecărei valori din setul de date. Se calculează ca diferență față de valoarea medie. Se poate calcula în formă absolută sau relativă conform formulelor: xi X di = xi X respectiv di % = 00% X Amplitudinea Este definită ca diferenţa valorilor extreme ale şirului de date studiat şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin. În cazul grupării datelor pe clase se defineşte şi noţiunea de amplitudine a clasei, notată cu w i (corespunzător clasei i). Această mărime este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât este mai mică valoarea sa cu atât lotul este mai omogen. Aspecte negative ale amplitudinii: depinde de eşantion, având variaţii pentru fiecare eşantion în parte, nu ţine seama de tipul repartiţie. Intervalul intercuartilic Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în 4 clase de frecvenţe egale cu 5%. Astfel, sunt necesare 3 valori Q, Q, Q3 care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de Q este egală cu suma frecvenţelor dintre Q şi Q, de asemenea egală cu suma frecvenţelor dintre Q şi Q3 şi în final, egală cu suma frecvenţelor de după Q3. Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q (ultima şi prima cuartilă). Q se numeşte cuartilă inferioară sau mică, Q3 se numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic va fi: Iq = Q3 Q. i= 04 Analiză descriptivă (I)

106 Observaţie: Cuartila Q este tocmai mediana Me. Se defineşte coeficientul de variaţie intercuartilică ca fiind raportul: Q I 3 Q q q = =. Q M e Coeficientul de variaţie Abaterea pătratică medie se interpretează prin compararea cu media valorilor studiate. Dacă avem o medie de 00 şi o abatere pătratică standard σ = 5, atunci avem mici variaţii, dar dacă avem aceeaşi abatere la o medie de 0, atunci variaţia este foarte mare. În concluzie, este necesară raportarea abaterii pătratice la valoarea mediei, pentru a exprima corect împrăştierea σ datelor. Se defineşte coeficientul de variaţie: Cx =. X Acest coeficient este o măsură relativă a variaţiei datelor faţă de medie. Astfel, indiferent de medie, seturile de date, chiar de natură diferită, pot fi comparate folosind coeficientul de variaţie. Asimetrie (skewness) O distribuţie este considerată simetrică, dacă de o parte şi de alta a mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei, statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util pentru a µ Mo compara distribuţiile între ele): Sk =. Formula actuală de calcul (de σ estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este: 3 n xi X i= s Sk = pentru n mare, respectiv n 3 n n xi X Sk =, pentru n de valori mici (s este deviația ( n ) ( n ) i= s standard a eşantionului). Cazuri posibile:. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta, X > Mo.. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, X < Mo 3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0). În general, o distribuţie care are valoarea Sk diferită de 0 cu mai mult de ±, denotă o diferenţă semnificativă faţă de distribuţia normală. Analiză descriptivă (I) 05

107 În limba engleză cuvântul consacrat este skewness, folosit în programele de statistică. Boltirea (excesul, kurtosis) Acest indicator compară distribuţia dată cu cea normală sau Gauss iană. Statisticianul englez Karl Pearson a definit de asemenea m 4 m4 coeficientul de boltire: β = = (m4 este momentul centrat de m σ ( ) 4 normal ordin 4 în raport cu media). Pentru o distribuţie normală β = 3. Pentru descrierea boltirii se poate folosi şi coeficientul Fisher, ce măsoară excesul faţă de distribuţia normală. Acesta se calculează cu n ( ) xi X µ 4 i= formula: γ = β 3 = 3, echivalentă cu: γ 3 4 = (pentru 4 σ n s eşantion de volum mare). La valori mici ale volumului lotului pentru estimare se foloseşte formula: 4 n n ( n + ) xi X 3 ( n ) γ = ( ) ( ) ( 3). n n n i= s ( n ) ( n 3) Avem următoarele modalităţi de caracterizare a distribuţiilor: Mezocurtică β = 3, γ = 0. Leptocurtică β > 3, γ > 0. Platicurtică β < 3, γ < 0. (Forma distribuţiilor este sugerată de etimologia cuvintelor:,,platus în limba greacă semnifică,,lat,,,leptos,,subţire,,,mesos -,,mijlociu,,,kurtosis,,exces, cocoaşă ). Tabelul 3-. Metode de calcul a indicatorilor statistici în Microsoft Excel Nr Indicator statistic Funcţie Excel Descriere / formula. Media aritmetică Average() Media setului selectat Averageif() Media selecţiei pentru celulele ce îndeplinesc o singură condiţie. Averageifs() Media selecţiei pentru condiţii multiple.. Media aritmetică ajustată. Trimmean(domeniu, procent) Se calculează media aritmetică eliminând din setul de date procentul specificat din valorile extreme atât minimă cât şi maximă. Vor rămâne : (00% pppppppppppppp) NNNN. dddddddd. iiiiiiii 4 06 Analiză descriptivă (I)

108 Nr Indicator statistic Funcţie Excel Descriere / formula 3. Media armonică Harmean() n M H = n x 4. Media cronologică 5. Media geometrică Veţi propune o metodă de calcul. Geomean() 6. Media pătratică Veţi propune o metodă de calcul. M C i= i X X + X X + n = n n n M n G = Π= i x n xi i= M P = = n 7. Mediana Median() Valoarea de mijloc a şirului ordonat 8. Valoarea modală (modul) Mode() sau Mode.sngl() Valoarea de frecvenţă maximă 9. Dispersia Varp() sau m (pt. populaţie) Var.p() ( xi x) 0. Dispersia (pt. eşantion). Deviaţia standard (pt. populaţie). Deviaţia standard (pt. eşantion) Var() sau σ = i= Var.s() ( xi x) Stdevp() sau σ = m i= n n Stdev.p() ( x x) Stdev() sau 3. Calcul cuartile Quartile (domeniu, valoare) σ = m i= Stedv.s() ( x x) 4. Intervalul Veţi calcula diferenţa. cuartilic 5. Asimetria Skew() 6. Boltirea Kurt() σ = m i n i i= n i x Valoarea indică numărul cuartilei calculate: 0 minimul ; Q ; Q ; 3 Q3 ; 4 - maximul IQ = Q3 Q n Sk = ( n ) ( n ) n i= xi x s n ( n + ) γ = ( n ) ( n ) ( n 3) n = i x x i s 4 3 ( n ) ( n ) ( n 3) 3 Analiză descriptivă (I) 07

109 Figura 3-. Indicatori statistici calculați prin statistica descriptivă. O metodă rapidă pentru determinarea indicatorilor statistici principali (lipsesc: media geometrică, armonică, cronologică, pătratică, ajustată, cuartilele) constă în lansarea procedurii statisticii descriptive (Descriptive Statistics) din Analiza datelor rezultatele sunt prezentate în figura alăturată [5, 9]. EXERCIŢII Fișierul Excel de lucru conține coloanele de date numerice de tip continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu rezidenta, stare civila, ocupatie.. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii statistici prezentaţi folosind formulele de calcul şi apoi folosind opţiunea Descriptive Statistics.. Aranjaţi în ordine crescătoare valorile mediilor calculate: M H, M G, X, M P. 3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi din mediul urban, căsătorite şi pensionate folosind averageifs(). Observaţii: În calculul mediei geometrice (versiunea Excel 003) se poate atinge uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să înmulţim 00 de numere ce reprezintă înălţimea persoanelor în centimetri se va obţine un mesaj de eroare. 08 Analiză descriptivă (I)

110 Pentru a împiedica aceasta ne folosim de proprietăţile funcţiei logaritm de a transforma operaţia de înmulţire în adunare. Vom folosi formula de calcul a mediei geometrice: GEOMEAN = exp(average(ln(x)+ln(x)+ln(x3)+...+ln(xn))). Vom scrie =EXP(AVERAGE(noua coloana ce conține ln(x))). Valoarea maximă admisă este e+308, respectiv valoarea minimă pozitivă este e-308. Relaţia între valorile medii este: Sintaxa funcţiilor: M < M < X < M. H G P Averageif(domeniu de aplicare a criteriului, criteriu de selecţie, domeniul de calcul a mediei) Averageifs(domeniu de calcul a mediei, domeniu selecţie, criteriu, domeniu selecţie, criteriu,...perechi domeniu de selecţie - criteriu). Numărul maxim admis pentru definirea criteriilor este 7 (minim este ). Analiză descriptivă (I) 09

111 4 STATISTICĂ DESCRIPTIVĂ (II) Noţiuni prezentate: Statistică descriptivă Distribuţia de frecvenţă, realizarea histogramei, Curba Gauss-Laplace. Distribuţia de frecvenţă, histograma Metodele descriptive de extragere a informaţiilor din date constau în calculul indicatorilor statistici, crearea tabelelor de frecvenţe (absolute, relative, cumulate) şi prezentarea grafică sub formă de diagrame. Distribuţia de frecvenţă este definita de aceste tabele a frecvenţelor. Reprezentarea grafică este practic histograma. Histograma este un caz special de diagramă, care reprezintă folosind coloane (forma verticală) sau bare (forma orizontală) frecvenţele de apariţie a grupelor (sau claselor) definite pe variabila de interes (introdusă de Karl Pearson 895). Într-o histogramă suprafaţa coloanei trebuie să fie egală (cel puţin proporţională, păstrând ponderea pe fiecare grupă) cu frecvenţa pe clasa respectivă (absolută sau relativă de obicei, mai rar cumulată). Aceasta deoarece histograma reprezintă o aproximare a densităţii de probabilitate. De obicei intervalele de grupare (pe axa XX ) au aceeaşi dimensiune şi astfel se poate reprezenta înălţimea coloanei egală cu frecvenţa absolută sau relativă. Practic avem o formă grafică cu ajutorul căreia ne facem o primă impresie vizuală asupra distribuţiei datelor [9,,, 3]. Intervalele vor fi consecutive şi nu se vor suprapune. Suprafaţa totală va fi astfel egală cu pentru lucru cu frecvenţe relative respectiv egală cu volumul eşantionului pentru cazul utilizării frecvenţelor absolute (pentru un coeficient de proporţie egal cu ). Numărul de intervale notat k, în care se împarte variabila continuă studiată, se poate determina cu formulele următoare: Formula Sturges : k = + log n, unde n este volumul eșantionului. 3.5 σ Formula Scott: k =, unde σ este deviația standard. / 3 n Formula de calcul H.B. Mann şi A. Wald pentru n > 00: k = 4 ( ) 5 n 4. 0 Analiză descriptivă (II)

112 Din rezultatele obţinute se ia partea întreagă. Nu există o metodă optimă de determinare a numărului de intervale şi implicit a dimensiunii unui interval. Ca idee generală numărul acestora nu trebuie să fie mai mic ca 5 şi nici mai mare ca 30. Crearea histogramei în Microsoft Excel 00. Se alege din grupul de comenzi Data, Data Analysis / Histogram: Tabelul conţine valori categoriale cât şi numerice de tip continuu. Structura datelor este: Sex (M, F), Vârsta (numeric), Glicemia (numeric), Asigurat CAS (T,F). Comanda funcţionează doar pentru valori numerice prin urmare, lângă coloanele Sex, respectiv Asigurat CAS mai adăugăm două coloane cu acelaşi nume, în care codificăm categoriile, dar folosind numere: pentru variabila SEX: masculin =, feminin = ; pentru variabila Asigurat CAS: T =, F = 0. Se introduce şirul de celule pentru care dorim să calculăm distribuţia de frecvenţe. Se introduc valorile distincte, ordonate crescător, pentru care se calculează distribuţia de frecvenţe. Se bifează atunci când prima celulă din coloana / şirul selectat conţine numele variabilei pentru care se realizează analiza. Se specifică poziţia în foaia de lucru curentă unde dorim să se afişeze rezultatele. Eventual, rezultatele se pot afişa pe o foaie de lucru separată, cu numele ales de noi, în acelaşi registru de calcul. Se indică tipul de distribuţie de frecvenţe care se doreşte: - Dacă nu se bifează nimic: se realizează distribuţia de frecvenţe ce conţine frecvenţele absolute pentru categoriile specificate (fig. 4-); - Pareto: tabelul distribuţiei de frecvenţe se afişează în ordinea descrescătoare a frecvenţelor calculate, şi nu a categoriilor specificate în Bin Range (fig. 4-3). - Cumulative Percentage: tabelul va conţine şi frecvenţele procentuale cumulate (fig. 4-4). - Chart Output: se realizează şi graficul de tip Histogramă corespunzător (fig. 4-5). Figura 4-. Crearea histogramei opțiuni Analiză descriptivă (II)

113 Pentru a calcula distribuţia de frecvenţe, trebuie specificate în mod obligatoriu două informaţii: - Şirul de celule care conţine valorile efective ale variabilei pentru care dorim să realizăm distribuţia (Input Range); - O coloană auxiliară de valori (Bin Range) ce conţine valorile distincte din şirul iniţial, aşezate în ordine crescătoare, pentru care se realizează distribuţia de frecvenţe (în cazul variabilelor calitative, acestea reprezintă de fapt categoriile urmărite, aşezate ordonat ex., pentru variabila SEX, iar în cazul variabilelor cantitative reprezintă limitele inferioară şi superioară ale intervalelor de clasă). Figura 4-. Distribuţia de frecvenţe pentru variabila SEX Figura 4-3. Distribuţia de frecvenţe pentru variabila SEX opţiunea Pareto (sorted histogram) Figura 4-4. Distribuţia de frecvenţe pentru variabila SEX opţiunea Cumulative percentage Figura 4-5. Distribuţia de frecvenţe pentru variabila SEX opţiunea Chart Output Analiză descriptivă (II)

114 La specificarea intervalelor de clasă pentru care se doreşte realizarea unei distribuţii de frecvenţe se indică limitele inferioare şi superioare ale acestora, urmând ca intervalele să fie interpretate sub forma: <= 0, (0, 5], (5, 0], (40, 45]. Figura 4-6. Pentru variabila SEX am realizat distribuţia de frecvenţe fără opţiuni suplimentare Pentru variabila Glicemie mom. 0 am realizat distribuţia de frecvenţe cu opţiunea Pareto (sorted histogram). Figura 4-7. Distribuţia de frecvenţe pentru variabila Vârstă, cu opţiunea Cumulative percentage Distribuţia Gauss-Laplace Este utilizată pentru descrierea densității de probabilitate a unei variabile aleatoare de tip continuu. Este caracterizată de centrarea datelor în jurul mediei (ce coincide cu mediana şi cu valoarea modală) [9,,, 3]. ( x µ ) σ Formula densităţii de probabilitate: f ( x) = e, pentru σ π x, +. ( ) Analiză descriptivă (II) 3

115 Se notează simbolic N(µ, σ ) sau N(x, µ, σ ) arătând astfel dependența de medie µ şi dispersie σ. Funcţia de repartiţie se calculează cu formula: x x ( x µ ) σ F( x) = f ( x) dx = e dx σ π. Repartiţia normală redusă se obţine prin schimbarea de variabilă z = x µ. Astfel aceasta va avea media 0 şi dispersia. Densitatea de σ probabilitate devine f ( z) = e π z x F( z) = e z iar funcţia de repartiţie dx. π [9, ] Graficele densităţii de probabilitate şi a funcţiei de repartiţie pentru repartiţia normală redusă sunt prezentate mai jos. Figura 4-8. Densitatea de probabilitate. Figura 4-9. Funcţia de repartiţie (este suprafaţa densităţii de probabilitate). În Excel avem funcţii implementate pentru calculul atât a densităţii de probabilitate, a funcţiei de repartiţie cât şi pentru calculul inversei celei din urmă prezentate în tabelul următor. Observaţie Dacă cunoaştem media şi dispersia unei repartiţii normale notate µ respectiv σ şi dorim să determinăm probabilitatea pe un subinterval [a,b], atunci vom folosi diferenţa probabilităţilor: NORMDIST(b, µ, σ,)- NORMDIST(a, µ, σ,). Mai jos este un exemplu prezentat grafic. 4 Analiză descriptivă (II)

116 Tabelul 4-. Funcţii pentru distribuţia Gauss Laplace Funcţii pentru calculul valorilor unei distribuţii Gauss-Laplace NORMDIST(x, µ, σ,0) sau ( x µ ) NORM.DIST(x, µ, σ,0) σ f ( x) = e Ultimul parametru poate fi 0 σ π (FALSE) sau (TRUE). Valoarea 0 Densitatea de probabilitate implică calculul densităţii de probabilitate. NORMDIST(x, µ, σ, ) sau NORM.DIST(x, µ, σ, ) x x ( x µ ) Diferă ultima valoare (ce este σ F( x) = f ( x) dx = e dx ) faţă de formula anterioară, σ π astfel se calculează Funcţia de repartiţie probabilitatea deci suprafaţa densităţii de repartiţie (cumulativ). f ( z) = e π z Densitatea de probabilitate repartiţie normala redusă sau standardizată. z x F( z) = e π dx Funcţia de probabilitate repartiţie redusă sau standardizată. x = Inv( F( x)) = g( prob. cuµulata, µ, σ ) Calculul inversei deci determinarea abscisei corespunzătoare. z = Inv( F( z)) = g( prob. cumulata) Calculăm abscisa corespunzătoare unei distribuţii reduse (standardizate). Este inversa funcţiei de repartiţie. Pentru µ=0 şi σ=: NORMDIST(z, 0,,0) sau NORM.S.DIST(z, 0) Pentru µ=0 şi σ=: NORMDIST(z, 0,,) Dar există şi funcţiile dedicate: NORMSDIST(z) sau NORM.S.DIST(z, ) NORMINV(probabilitate, µ, σ), sau NORM.INV(probabilitate, µ, σ) Este vorba despre probabilitatea cumulată. NORMSINV(probabilitate) sau NORM.S.INV(probabilitate) Este acelaşi lucru cu: NORMINV(probabilitate, 0,) Analiză descriptivă (II) 5

117 =NORMDIST(B4,B,B,) =NORMDIST(B7,B,B,) Probabilitatea (suprafaţa) obţinută prin diferenţa celor două valori calculate. Figura 4-0. Calculul probabilităţii pe intervalul pentru o distribuţie normală de medie 90 şi deviaţie standard. EXERCIŢII Fișierul Excel conține coloanele de lucru: Vârstă, Înălţime, Greutate, IMC, Talia.. Realizaţi tabelul cu distribuţia de frecvenţă şi reprezentaţi grafic histograma pentru frecvenţele absolute dar şi cumulate pentru coloanele Vârstă, Înălţime, Greutate, IMC, Talia. Pentru vârstă veţi alege dimensiunea intervalul pentru crearea claselor de 5 ani, pentru înălţime de 4 cm, pentru greutate 5 kg, pentru IMC.5 Kg/m, pentru talie 4 cm.. Care este probabilitatea de a avea o persoană cu IMC-ul peste 30Kg/m? (veţi calcula mai întâi media si deviaţia standard apoi veţi aproxima distribuţia cu forma normală, Gauss-Laplace). 3. Care este probabilitatea, în ideea aproximării cu o distribuţie normală, de a obţine conform datelor din tabel, persoane cu înălțimea mai mică de 50 cm. Comparaţi frecvenţa relativă calculată din eşantion cu probabilitatea obţinută prin aproximarea Gauss- Laplace. Comentaţi rezultatele. 4. Determinaţi cu probabilitate de 0.95 simetrică faţă de medie intervalul de grupare al datelor pentru greutate. 6 Analiză descriptivă (II)

118 5 INTERVALE DE ÎNCREDERE (CONFIDENŢĂ) Noţiuni prezentate: Intervale de încredere (confidenţă) pentru estimarea mediei. Intervalul de confidenţă este folosit pentru a estima cu o anumită probabilitate, valoarea unui indicator statistic al populaţiei, funcţie de valoarea aceluiaşi indicator exprimat din eşantionul studiat. În cazuri reale nu se lucrează cu toate datele unei populaţii (deci nu în formă exhaustivă) din motive obiective gen efort financiar, timp îndelungat de culegere a datelor, implicarea unui număr prea mare de persoane în studiu, ineficienţă asupra metodei în sine. Practic, din studiul unui eşantion se poate aproxima valoarea indicatorului statistic (în general, media este de interes major) cu o anumită probabilitate, ceea ce va duce la determinarea unui interval de estimare a valorii căutate [9]. Este de aşteptat ca valoarea calculată cu ajutorul datelor eşantionului să fie diferită de valoarea determinată utilizând întreaga populaţie, tocmai prin faptul că eşantionul nu conţine toate informaţiile. Ca urmare, s-au creat metode statistice de calcul al intervalului de confidenţă (cu 95% probabilitate, ca prag standard de încredere) a indicatorului studiat. Intervalul de încredere pentru media unei variabile aleatoare de tip continuu repartizată normal Metoda de lucru pleacă generic de la ideea studierii variabilei aleatoare creată din media eşantioanelor extrase din populaţia ţintă. Teoretic, putem extrage un număr enorm de eşantioane dintr-o populaţie. Aceste eşantioane pot avea dimensiuni diferite, dar media lor va respecta un anumit tip de distribuţie atunci când anumite condiţii sunt îndeplinite [9]. Există în statistică teorema limită centrală (rezultat fundamental), care afirmă că independent de tipul de distribuţie al datelor din populaţie, media eşantioanelor extrase creează un lot de date care urmează o repartiţie de tip Gauss-Laplace (cu observaţia să avem selecţie aleatoare simplă) [,, 3]. Există şi o condiţie de consistenţă în volum a datelor. Numărul minim de date acceptat pentru un eşantion este de 30 (este o limită statistică ce implică erori mici). Intervale de confidenţă (încredere) 7

119 Graficul de mai jos exprimă vizual ideea demonstrată prin teorema limită centrală. Populaţia de studiu Ln L7 Li L L Lot Medie M M 3 M3. 45 M45 Distribuţia mediilor este de tip (Gauss Laplace) Eşantion (lot) extras 46 M46... µ Figura 5-. Concluzia teoremei limită centrală Observaţii. Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia mediilor eşantioanelor este normală şi pentru valori mici ale volumului eşantionului.. Media valorilor medii ale eşantioanelor este media populaţiei. Aceasta arată că nu există eroare de deplasare. Matematic putem scrie: M ( X, X,... X n ) = µ. 3. Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică decât deviaţia standard a întregii populaţii. Avem astfel: σ = σ, unde n reprezintă volumul eşantionului. X n În concluzie lotul format din mediile X, X,... X n creează o distribuţie normală de medie µ identică cu media populaţiei, respectiv deviaţie standard σ = σ de n ori mai mică (unde σ este deviaţia X n standard a întregii populaţii). Practic avem descrierea statistică a datelor, µ X deci variabila studiată Z = va avea o distribuţie normală σ / n normalizată (medie 0, respectiv dispersie ) [9,, 3]. 8 Intervale de confidenţă (încredere)

120 Pentru a estima intervalul simetric de variaţie a variabilei aleatoare Z cu o probabilitate -α, avem P Z α < Z α = α < Z, conform figurii alăturate (forma simetrică a intervalului) f(z) α/ Intervalul de încredere -Z 0 -α/ Z -α/ Figura 5-. Forma simetrică a intervalului µ X Putem scrie în continuare Z α < < Z α σ / n σ σ X Z α < µ < X + Z α. n n În concluzie, avem următoarea formulă de calcul a intervalului de σ confidenţă: µ = X ± Z α n. [0] σ Raportul se numeşte eroare standard. n Observaţie: Literele din alfabetul grecesc sunt folosite pentru a identifica indicatorii statistici ai populației (media µ, deviaţia standard σ) iar cele din alfabetul latin pentru indicatorii eşantionului sau a lotului (M pentru medie sau X, S pentru deviaţia standard, acestea au valori aproximative). Toate aceste formule funcţionează pentru eşantioane mari, de peste 30 de valori. De asemenea, în formulă apare deviaţia standard a populaţiei deci aceasta trebuie cunoscută. Pentru situaţii în care eşantionul este mai mic de 30, valorile distribuţiei normalizate Z se înlocuiesc cu valorile distribuţiei de tip t sau Student (este o aproximare care minimizează erorile pentru volum mic ce apar dacă s-ar folosi distribuţia normală) [, ]. α/ Intervale de confidenţă (încredere) 9

121 S = Avem astfel intervalul de confidenţă: n ( xi x) i= n = x ± tυ, α / µ, unde iar υ este numărul gradelor de libertate υ = n (n este volumul eşantionului). În Excel pentru calculul valorilor normalizate Gauss se va folosi funcţia normsinv(probabilitate) [4, 5]. Probabilitatea este măsurată ca suprafaţa cuprinsă între curbă şi axa XX de la - spre +. Vom avea corespondenţa Z = normsinv( / ). α / α Pentru 95% interval simetric avem α=-0.95=0.05, deci probabilitatea de calcul pentru Z α / va fi -α/ egală cu Astfel avem: Z = normsinv(0.975)= Funcţia normsinv() foloseşte Gauss-iana normalizată aşadar de medie 0, respectiv dispersie. Putem folosi şi funcţia norminv(probabilitate, medie, dispersie) - ce este forma generală inversă a unei funcţii Gauss. Vom avea astfel norminv(0.975,0,)= Pentru calculul folosind distribuţia Student avem funcţia tinv(probabilitate, grade libertate) [4, 5]. Şi ca să nu existe o uniformitate în măsura probabilităţii, în cadrul acestei funcţii pentru un interval simetric se va trece chiar valoarea α a întregului interval atât dreapta cât şi stânga. În concluzie, vom avea tt νν, αα/ = tttttttt(αα, υυ). Funcţia de distribuţie Student tinde către funcţia Gauss normalizată pentru eşantioane mari. Putem verifica aceasta pentru un eşantion de 00 date, TINV(0.05,99)=.98, valoare apropiată de Calculul intervalului de confidenţă pentru estimarea unei proporţii Proporţia poate fi asemănată cu o medie şi ca urmare metodele de lucru pot fi transpuse în acest context. Notăm: p proporţia din eşantion, π proporţia reală a populaţiei, α nivelul de semnificaţie, care de obicei este Aplicând acelaşi raţionament, definim variabila aleatoare de π π repartiţie normală normalizată: Z = σ p ( p) Deviația standard este σ =, aşadar intervalul de n p ( p) confidenţă va fi p ± z( α / ). n S n 0 Intervale de confidenţă (încredere)

122 Aceasta formulă (numită şi intervalul Wald) funcţionează corect pentru volume de peste 30 de unități ale eşantionului şi pentru proporţii în domeniul O condiţie necesară de verificat este n p ( p) 0. Statistica Student sau t va da rezultate mai bune pentru eşantioane mai mici de 00. Există mai multe metode de calcul aproximativ pentru ajustare a intervalului de confidenţă a unei proporţii pentru volume mici şi pentru valori extreme (proporţii mici sau mari). De asemenea, se ţine cont şi de faptul că distribuţia nu este continuă. Pentru corecţia de continuitate se foloseşte formula: p ( p) 0.5 p ± z( α / ) ± n n Metoda Wilson (Edwin Bidwell Wilson - 97) p ( p) z α / Intervalul de confidenţă: p + z α / ± z α / n n + z α / n + 4 n Calculul intervalului de confidenţă ajută la estimarea indicatorului statistic studiat şi de asemenea ajută la compararea populaţiilor între ele sau cu o valoare de referinţă. Compararea cu o valoare de referinţă dacă intervalul de confidenţă cuprinde valoarea de referinţă, atunci putem afirma cu probabilitate de 95% (standard definită) că nu există diferenţă statistic semnificativă între indicatorul studiat şi valoarea de referinţă. În caz contrar, dacă intervalul de confidenţă nu cuprinde valoarea de referinţă, vom accepta existenţa diferenţei semnificative, aşadar avem confirmare statistică. Compararea a două populaţii prin intervalul de confidenţă a indicatorului studiat Dacă cele două intervale de confidenţă nu se suprapun atunci sigur vom avea diferenţă semnificativă statistic, ca urmare cele două populaţii diferă din punct de vedere al indicatorului statistic studiat (media este în centrul atenţiei). Metode de calcul. Primă metodă ar consta în implementarea funcţiilor folosind Microsoft Excel. Practic, vom calcula pas cu pas funcţiile care determină intervalul de confidenţă. σ Avem de calculat funcţiile: µ = X ± Z α iar pentru eşantioane mici = x ± tυ, α / S n µ, unde S = n ( xi x) i= n. n. Intervale de confidenţă (încredere)

123 p ( p) 0.5 Pentru proporţii avem: p ± z( α / ) ±, sau cu o n n aproximare mai bună avem expresia: p p + z α / ± z α / n n + z α / n ( p) z α / + 4 n (Wilson). Pentru calcul vom folosi funcţiile Excel prezentate în tabel [4, 5]. Tabelul 5-. Funcţii pentru calcului intervalului de confidenţă Funcţie de calculat X - media eşantionului σ se va aproxima cu S p este proporţia calculată cu datele din eşantion n numărul de cazuri Z - abscisa densităţii de probabilitate (Gauss α / normalizată) corespunzătoare unei probabilităţi de α / tt νν, αα/ - abscisa densităţii de probabilitate (Student) corespunzătoare unei probabilităţi de α / ; n = n =average() =stdev() Funcţie Excel Probabil count(), sau pivot table =count() = normsinv( α / ) = tttttttt(αα, υυ). Putem folosi statistica descriptivă (Descriptive Statistics) pentru calculul intervalului mediei, din grupul de analiză statistică (Data Analysis) [4, 5]. În ultimul rând, din tabelul creat va fi prezentat nivelul de confidenţă (Confidence Level(95.0%)), reprezentând termenul ce se adaugă/scade pentru a determina limitele intervalului pentru eşantioane mici S t. Astfel, se foloseşte distribuţia Student pentru calcul. Practic, υ, α / n va trebui să determinăm limitele intervalului de încredere prin scăderea valorii obținute din medie şi apoi adăugarea acesteia la medie calcule ce se vor efectua în două celule separate. 3. Tot pentru intervalul mediei se poate folosi funcţia confidence (alpha, σ dev.std., dimensiune eşantion), confidence( α, σ, n) Z α. Aceasta = aproximează intervalul prin folosirea unei statistici de tip Z (Gauss normalizată). Valoarea alfa va fi egală cu 0.05 pentru 95% încredere în estimare. n Intervale de confidenţă (încredere)

124 EXERCIŢII Pentru rezolvarea acestor cerinţe se va utiliza fișierul excel ce conţine datele medicale necesare.. Calculaţi pentru coloanele Înălţime, IMC, Greutate şi Talie media şi intervalul de confidenţă pentru medie cu probabilitate de 0.9 respectiv Calculaţi şi comparaţi datele după frecvenţa de tip True din coloana NutriţieA cu aceeași categorie din coloana NutriţieB. 3. Comparaţi mediile IMC ului pentru grupele casnici şi pensionari, folosind cele 3 metode de calcul prezentate. 4. Comparaţi prin intervalele de confidenţă greutatea pentru grupurile create de categoriile coloanei NutriţieA. Exemplu: Iată rezultatele obţinute pentru coloana Înălţime prin cele 3 metode prezentate. Figura 5-3. Prezentarea rezultatelor pentru variabila Înălţime Intervale de confidenţă (încredere) 3

125 6 DIMENSIUNEA EŞANTIONULUI Noţiuni prezentate: Calculul dimensiunii (volumului) eşantionului de studiu. În cadrul efectuării unei analize statistice, într-o primă etapă, o problemă crucială constă în determinarea eşantionului de studiu. Ne interesează în mod imperativ numărul de date necesare pentru ca lotul de studiu să fie reprezentativ statistic, ceea ce înseamnă să avem încredere în rezultatele obţinute prin aplicarea analizei statistice [9, 3]. În statistică obiectivul fundamental constă în luarea unei decizii, chiar în cazul existenţei unei incertitudini. Se emit mai multe ipoteze şi prin decizie se acceptă doar o ipoteză care se încadrează în probabilitatea stabilită [9, 3]. În enunţarea unei ipoteze există două posibilităţi ce cuprind variantele: Ipoteza nulă notată H0, în care parametrii de comparat se consideră egali. Spre exemplu, media populaţiei având date în eşantionul este egală cu media populaţiei caracterizată de eşantionul. H 0 : µ = µ. Aceasta arată lipsa diferenţelor parametrilor examinaţi sau a existenţei unei relaţii. Ipoteza alternativă notată H, în care se consideră cei doi parametri diferiţi. H : µ µ. Această ipoteză este contrară ipotezei nule şi arată existenţa diferenţelor sau a relaţiilor posibile între parametri. Lucrând cu aceste ipoteze şi cu o anumită probabilitate decizia finală va fi supusă erorii. Practic, între realitate şi decizia luată vor exista două tipuri de erori posibile prezentate în tabelul de mai jos. Sistem decizional cu prag Decizie prin test Acceptare ipoteză H0 Respingere ipoteză H0 Acceptare H Situaţie adevărată Ipoteza H0 este adevărată Ipoteza H este adevărată Nu există eroare Eroare tip II α β Adevărat pozitiv Fals negativ Eroare tip I α (nivel de semnificaţie) Fals pozitiv Nu există eroare β (puterea testului) Adevărat negativ 4 Dimensiunea eşantionului

126 Nivelul de semnificaţie (eroarea de tip I) este determinat de valoarea α a probabilităţii şi standard are valori de 0.05 (5%) sau 0.0(%). Acesta reprezintă eroarea de a accepta ipoteza alternativă în mod eronat, când în realitate ipoteza H0 este adevărată [9, 3]. Eroarea de tip II exprimată prin probabilitatea β, arată acceptarea ipotezei nule deci a lipsei diferenţelor, când în realitate acestea sunt confirmate [9, 3]. Puterea testului se defineşte prin β. Valorile standard sunt de 0.8 sau 0.9 şi corespunzător β = 0. respectiv β = 0.. Funcţie de tipul de studiu aplicat se poate ţine cont de eroarea de tip I în principal sau de ambele tipuri. Pentru verificarea unei ipoteze se creează o statistică care este practic o funcţie ce depinde de ipoteza H0 respectiv H. Datele astfel create prin funcţia mai sus amintită respectă o distribuţie cu un anumit specific. De exemplu, în ipoteza H0: definită de µ = µ 0 putem avea o distribuţie normală N ( µ, σ 0 ), iar în cazul alternativ putem avea o distribuţie normală cu alţi parametri N µ, σ ). (. Determinarea volumului eşantionului de studiu pentru o variabilă de tip continuu în care precizia în estimare mediei este luată în calcul Pentru o variabilă de tip continuu, în multe din cazurile de interes, focalizarea problemei se face asupra valorii medii. Pentru ca evaluarea să fie corectă se stabileşte nivelul de încredere la 95% (de obicei acesta este standardul). Se stabileşte de către echipa de cercetare care este eroarea maximă admisă, d reprezentată grafic d în 0 X min Xmed Xmax figura alăturată. Estimarea cu interval de confidenţă a mediei duce σ la formula:. Figura 6-. Eroarea maximă admisă X ± Z α Volumului eşantionului se află prin condiţia ca dimensiunea σ intervalului de confidenţă să fie mai mică ca eroarea admisă:. În concluzie, avem dimensiunea σ n Z α. d Z α n d n Dimensiunea eşantionului 5

127 . Determinarea volumului eşantionului de studiu pentru estimarea unei proporţii Prin analogie putem determina volumul eşantionului necesar pentru estimarea unei proporţii [0]. Avem astfel: p n Z α d ( p). Dacă nu cunoaştem proporţia din literatura de specialitate sau dintr-un studiu pilot, putem profita de faptul ca formula prezintă un maxim pentru p=0.5. Astfel, vom estima prin adaos volumul necesar al eşantionului. Această formulă de calcul este valabilă pentru o populaţie infinită sau de volum foarte mare (pentru estimarea corectă a proporţiilor). În realitate, populaţiile au volum finit. Este normal să se aplice o corecţie matematică în situaţiile finite. Formula corectată a determinării volumului n eşantionului: =. Prin notația pop înţelegem dimensiunea n corectat n + pop populației de studiu (de ex. populaţia unui judeţ). 3. Determinarea volumului eşantionului de studiu pentru estimarea unei corelaţii În această situaţie pentru determinarea volumului eşantionului necesar estimării valorii coeficientului de corelaţie într-un mod consistent, se va apela la testele ipotezelor statistice. Este greu să se determine o eroare acceptată a coeficientului de corelaţie, aşa cum s-a făcut de exemplu pentru estimarea proporţiei. Se vor impune condiţii, atât asupra nivelului de semnificaţie α, cât şi asupra puterii testului, β. Ipoteza statistică nulă este : H 0 coeficientul de corelaţie este 0, ρ = 0. Ipoteza alternativă este: H coeficientul de corelaţie are valoarea cunoscută ρ c, ρ = ρc. Valoarea cunoscută a coeficientului se ştie din studii anterioare, publicaţii recente sau un studiu pilot efectuat special cu acest scop. Z( α ) + Z( β ) Formula de calcul dedusă în acest caz este : n = 3 + ( ). F ρc + ρc F( ρc ) = ln este transformata Fisher utilizată şi la formarea ρc intervalelor de confidenţă. 6 Dimensiunea eşantionului

128 4. Determinarea volumului eşantionului de studiu pentru verificarea unei diferenţe impuse În cadrul unei cercetări se poate impune condiţia ca diferenţa existentă între parametrii de interes (medie sau proporţie) să depăşească o anumită valoare critică pentru a fi decisivă. Faptul că există teste de detectare a diferenţei semnificative nu este suficient. Noutatea constă în dimensiunea impusă diferenţei căutate. De exemplu, determinarea eficienţei unui tratament (se compară cu efectul placebo). Dacă indicatorul de interes este media, deci măsura se realizează pe o scară de tip continuu, atunci importantă este diferenţa µ µ d. Valoarea d este decisă de specialiştii în domeniul de studiu. Indicatorii µ, respectiv µ, reprezintă mediile populaţiilor de studiu (deci fără eroare). Media calculată din eşantion este notată cu X şi aceasta este o estimare a mediei populaţiei (are deci o anumită eroare). Menţionăm că în cazurile reale se defineşte mai întâi noţiunea de tratament mai bun (în cazul nostru µ µ ). Pentru determinarea volumului eşantionului se va ţine cont atât de eroarea de tip I cât şi de eroarea de tip II ce exprimă diferenţa impusă ca necesară în verificarea eficienţei tratamentului. Se determină cu următoarea formula volumul eşantionului: σ n = 4 ( Z ( α ) + Z ( β ) ). d Ca şi în cazurile precedente, valoarea dispersiei este de multe ori necunoscută, mai ales în studiile preliminare ale cercetării. Problema trebuie rezolvată prin estimare din studii pilot (evident, tot cu un anumit grad de eroare). Dacă indicatorul de interes este proporţia, atunci formula de calcul se p deduce în mod asemănător şi rezultă: ( ( ) ( ) ) ( p) n = 4 Z α + Z β. În d acest caz d = p - p. Observaţie dacă studiul este bilateral atunci vom transforma Z ( α ) Z şi Z ( β ) Z α β În calculul realizat n reprezintă volumul ambelor eşantioane. Pentru n situaţia în care volumele eşantioanelor sunt egale n = n =, avem p + p p =. Dimensiunea eşantionului 7

129 În aceste calcule a dimensiunii eşantionului intervin funcțiile Excel prezentate în tabelul de mai jos: Valoarea abscisei în cadrul distribuţiei normalizate Echivalentul de calcul în Excel Z ( α ) =NORMSINV(-α) Z ( β ) =NORMSINV(-β) Z =NORMSINV(-α/) EXERCIŢII α. Calculaţi dimensiunea eșantionului necesar pentru a estima greutatea la naştere a copiilor dintr-o anumită comunitate. Dintr-un studiu pilot se cunoaşte deviaţia standard σ=0.7. Nivelul de semnificaţie acceptat este α=0.05 iar eroarea admisă de specialişti este de 0. Kg. Dacă scădem nivelul erorii de două ori aşadar d=0. la cât va creşte volumul eşantionului de studiu? Cât devine volumul eşantionului pentru d=0. şi α=0.? Răspuns: 48, 89, 33.. Dorim să determinăm prevalenţa (într-un studiu transversal) a unei anumite afecţiuni prezente într-o populaţie ce conţine un număr de 5000 indivizi. Se cunoaşte din anul anterior valoarea prevalenţei ce a fost 0.7 (7%). Determinaţi volumul necesar al eşantionului de studiu pentru ca eroarea asupra estimării să nu fie mai mare de 4%. Dacă nu se cunoştea prevalenţa afecţiunii din anul anterior care ar fi fost volumul eşantionului de studiu (aproximaţi prin adaos, considerăm prevalenţa 0.5, caz în care volumul eşantionului va fi maxim )? Răspuns: 347, Se doreşte să se calculeze volumul eşantionului necesar pentru determinarea unui coeficient de corelaţie cu un nivel de semnificaţie 0.05 şi cu o putere a testului de 0.9. Dintr-un studiu anterior s-a dedus valoarea de corelaţie de aproximativ 0.3. Răspuns: 8. 8 Dimensiunea eşantionului

130 4. În cercetările pentru validarea unui nou tratament împotriva cancerului, se doreşte ca proporţia celor vindecaţi să fie cu cel puţin 0% mai mare decât procentul obţinut prin metoda clasică de terapie. Pentru a putea sesiza un astfel de procent determinaţi volumul eşantionului pentru semnificaţie de Consideraţi cele două volume egale (definite de cele tratamente). Nu ni se dau informaţii despre puterea testului,astfel vom folosi o formulă dedicată. Numărul total de valori n+n=n se va calcula astfel: p n = 4 Z α d ( p) Produsul p*(-p) este maxim pentru p=0.5. Deoarece nu ni se dau informaţii despre valorile proporţiilor, vom considera cazul extrem (vom folosi formula de calcul prin adaos, vom obţine un volum mai mare ce ne va asigura consistenta statistică). n Răspuns: n = n = = În cadrul unei cercetări se doreşte studiul eficienţei unui tratament nou, prin comparaţie cu subiecţii trataţi prin efect placebo. Presupunem că efectul este măsurat şi se doreşte o scădere a parametrului medical cu 4 unităţi (d=4). Se consideră eşantioane n egale în volum n = n =. Se va aplica un nivel de semnificaţie α=0.05 bilateral, iar puterea testului va fi -β=0.9. Se cunoaşte că varianţa are valoarea aproximativă 38. n Răspuns: n = n = = 50. Dimensiunea eşantionului 9

131 7 COMPARAREA SETURILOR DE DATE (I) Noţiuni prezentate: Compararea a două seturi de date testul t (Student) Unul dintre obiectivele majore ale unui studiu statistic este acela de a compara între ele seturi de valori aparţinând unor eşantioane diferite, pentru a evidenţia diferenţele între aceste eşantioane. În acest scop se folosesc aşa-numitele teste de semnificaţie statistică, sau teste de ipoteză [4]. Testele de ipoteză funcţionează conform următorului principiu: se formulează ceea ce se numeşte o ipoteză statistică privind comportamentul datelor în eşantioanele analizate, şi se verifică această ipoteză prin metode matematice, care au drept scop confirmarea sau infirmarea ei. În condiţiile în care a fost identificată valoarea de adevăr a ipotezei formulate pentru eşantioanele luate în studiu, marele avantaj al testelor statistice este că această valoare de adevăr a ipotezei poate fi generalizată pentru populaţiile din care provin eşantioanele respective, cu condiţia ca ele să fi fost alese astfel încât să fie reprezentative pentru populaţiile de origine. Enunţarea unei ipoteze se poate face prin două modalităţi:. Ipoteza nulă: parametrii de comparat se consideră egali (de ex.: media populaţiei, caracterizată de eşantionul, este egală cu media populaţiei, caracterizată de eşantionul ). H 0: m = m. Ipoteza alternativă: parametrii de comparat se consideră diferiţi. H : m m Etapele de parcurs în verificarea unei ipoteze prin test statistic vor fi:. Enunţarea ipotezei;. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea ipotezei); 3. Deducerea şi calculul formulei matematice a testului (numită şi discriminanta statistică) dorită prin regula de decizie; 4. Acceptarea sau respingerea ipotezei, în urma comparării valorii calculate a testului cu valori tabelate corespunzătoare tipului de repartiţie a datelor în care se încadrează. 30 Compararea seturilor de date (I)

132 În funcţie de natura datelor cu care se lucrează, testele de semnificaţie statistică se încadrează în două categorii teste parametrice, proiectate în general pentru date cantitative, a căror distribuţie de valori respectă legea normală, şi care compară parametri statistici cum ar fi media sau varianţa, şi teste neparametrice, proiectate pentru date calitative sau date cantitative a căror distribuţie de valori nu respectă legea normală, şi care compară mărimi statistice cum ar fi frecvenţele de apariţie a anumitor valori sau rangurile. Cele mai simple şi mai frecvent utilizate teste de semnificaţie statistică sunt testele parametrice, bazate pe compararea mediilor sau a varianţelor. Alegerea testului de semnificaţie statistică care se va folosi pentru a compara valorile unui parametru între două sau mai multe eşantioane se face strict în funcţie de natura şi de caracteristicile datelor cu care se lucrează [5]. Astfel, în cazul în care se lucrează cu un parametru cantitativ, a cărui distribuţie de valori respectă legea de repartiţie normală (fapt verificat eventual prin aplicarea unui test de fitare a datelor) apar de obicei următoarele posibilităţi:. Se doreşte compararea valorilor acestui parametru între două eşantioane diferite, sau independente caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la subiecţi diferiţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la bărbaţi şi la femei) se va folosi testul t de comparare a mediilor;. Se doreşte compararea valorilor unui parametru între două eşantioane diferite, dar dependente caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la aceiaşi subiecţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la momentul 0 şi la momentul 3 luni, cele determinări fiind realizate la aceleaşi persoane) se va folosi testul t corelat (t-pairs sau pereche); 3. Se doreşte compararea valorilor unui parametru între mai mult de două eşantioane. În acest caz avem următoarele soluţii: să luăm eşantioanele două câte două, şi să comparăm valorile parametrului analizat între acestea folosind testul t (ceea ce ar putea conduce la un număr însemnat de comparaţii atunci când se lucrează cu relativ multe eşantioane de exemplu, la 5 eşantioane ar însemna 0 combinaţii posibile şi în general, la nn eşantioane ar însemna CC nn combinaţii posibile), sau să realizăm o comparare globală între cele nn eşantioane folosind un test de semnificaţie adecvat, respectiv testul ANOVA de analiză a varianţelor. Compararea seturilor de date (I) 3

133 CAZUL. Se doreşte compararea valorilor unui parametru între două eşantioane diferite, sau independente caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la subiecţi diferiţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la bărbaţi şi la femei). Într-o situaţie de acest tip, pentru a evidenţia eventualele diferenţe între valorile parametrului urmărit în cele două eşantioane, se foloseşte testul t (Student) de comparare a mediilor. Acest test a fost creat de matematicianul William Gosset, care l-a publicat sub pseudonimul Student, de unde provine şi numele testului. Presupunem că cele două eşantioane au dimensiunile n şi n suficient de mari (cel mai bine peste 30 de cazuri, dar în mod obligatoriu mai mult de 0 cazuri), iar parametrul urmărit are mediile aritmetice corespunzătoare x şi x. Se pune problema de a decide dacă diferenţa între aceste medii este suficient de mare pentru a se putea afirma că ea nu este întâmplătoare, ci se datorează unor factori externi care acţionează sistematic şi afectează într-un mod semnificativ valorile parametrului în unul dintre eşantioane comparativ cu celălalt. Pentru a soluţiona această problemă, se formulează ipoteza de lucru că mediile aritmetice ale parametrului analizat în cele două eşantioane sunt egale, adică x = x (IPOTEZA NULĂ) şi se determină valoarea de adevăr a acestei ipoteze calculând valoarea unui parametru statistic, notat cu t, care la rândul său se determină în două moduri [4]: Pe baza formulei următoare, denumită şi formulă de bază, şi folosită în cazul în care pentru cele eşantioane varianţele σ şi σ sunt egale: t = x x x + x + n + n n n Pe baza formulei următoare, denumită şi formulă separate, şi folosită în cazul în care pentru cele eşantioane varianţele σ şi σ sunt diferite: t = x x σ σ + n n Această valoare calculată, t calculat, se compară apoi cu valori teoretice ale parametrului t, determinate anterior de către statisticieni pentru eşantioane de diferite dimensiuni şi anumite intervale de încredere prestabilite P (de obicei 0.95 sau 0.99) alegându-se dintre acestea valoarea teoretică corespunzătoare intervalului de încredere dorit şi dimensiunii corespunzătoare a celor două eşantioane cu care se lucrează. 3 Compararea seturilor de date (I)

134 Dacă valoarea absolută a lui t calculat, t calculat > t(p) tabel, urmează că ipoteza nulă este INFIRMATĂ, iar diferenţa mediilor aritmetice nu este întâmplătoare, fiind semnificativă statistic (se datorează unor factori externi care acţionează sistematic). În caz contrar, adică atunci când t calculat<t(p) tabel, urmează că ipoteza nulă este CONFIRMATĂ şi nu avem motive să considerăm că diferenţa între medii este semnificativă (adică ea poate fi considerată ca o abatere întâmplătoare). În practică, soft-urile de analiză statistică, deşi calculează şi valoarea parametrului t şi o compară cu valorile teoretice cunoscute, returnează, pentru această valoare, un coeficient de încredere, notat cu p, referitor la confirmarea ipotezei nule cu o probabilitate de 95% sau de 99%. Acest fapt este valabil nu numai pentru testul t, ci pentru orice test de semnificaţie statistică (parametric sau neparametric), valoarea lui p fiind cea mai facilă de utilizat pentru interpretarea testului [6]. Astfel: - Dacă p 0.05, urmează că diferenţa între medii nu este întâmplătoare, fiind semnificativă statistic, iar ipoteza nulă este infirmată; - Dacă p>0.05, urmează că diferenţa între medii este întâmplătoare, fiind nesemnificativă statistic, iar ipoteza nulă este confirmată. Exemplu: Se foloseşte fişierul LP5.xlsx. Dorim să stabilim dacă există diferenţe semnificative între valorile Glicemiei la momentul 0 între femei şi bărbaţi. Analog, pentru valorile glicemiei la 3 luni şi la 6 luni, pentru a determina dacă evoluţia pacienţilor este diferenţiată între femei şi bărbaţi. Având în vedere că se lucrează cu variabile cantitative şi cu două eşantioane, pentru a testa dacă există sau nu diferenţe semnificative statistic între valorile lor se va folosi Testul t. Se lucrează evident cu eşantioane diferite pentru care se înregistrează valorile Glicemiei (bărbaţii şi femeile din tabel), deci se va folosi testul t: Two-Sample; trebuie însă determinat care dintre cele variante ale acestuia se va folosi: varianta t-test: Two-Sample Assuming Equal Variances sau varianta t-test: Two-Sample Assuming Unequal Variances. Prima variantă se foloseşte în cazul în care ştim că cele două eşantioane provin din populaţii cu varianţe egale (testul t homoscedastic), în timp ce a doua se foloseşte în cazul în care cele două eşantioane provin din populaţii de origine cu varianţe inegale (testul t heteroscedastic). Având în vedere că valorile Glicemiei sunt în aceeaşi coloană, şi sunt amestecate între ele, mai întâi va trebui să sortăm tabelul după variabila Sex, după care putem aplica testele statistice. Compararea seturilor de date (I) 33

135 Pentru a putea decide ce variantă de test t se foloseşte în situaţia noastră, vom verifica mai întâi dacă cele două eşantioane au varianţele egale sau nu. Pentru aceasta, se va folosi un alt test statistic, şi anume testul F (Fisher) de egalitate a varianţelor. Acest test este relativ simplu ca structură; el calculează valorile medii şi varianţele pentru cele două eşantioane luate în discuţie şi apoi determină raportul celor două varianţe calculate, notat cu F; dacă F este foarte apropiat sau chiar egal cu, înseamnă că varianţele în cele două eşantioane sunt egale, şi cu cât F este mai mare cu atât eşantioanele sunt mai diferite între ele în ceea ce priveşte acest parametru [5]. Atenție F nu poate fi negativ! (este un raport de varianțe). Se selectează comanda Data / Data Analysis / F-Test Two Sample for Variances: Se specifică şirul de celule în care se află valorile primei variabile Glicemia la femei. Figura 7-. Fereastra corespunzătoare testului F de egalitate a varianţelor Rezultatele sunt afişate după cum urmează: Se specifică şirul de celule în care se află valorile primei variabile Glicemia la bărbaţi. Nu se bifează, deoarece şirurile de valori au acelaşi nume. Se precizează locul de afişare a rezultatelor pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou. Figura 7-. Modul de afişare a rezultatelor testului F de egalitate a varianţelor 34 Compararea seturilor de date (I)

136 Sunt calculaţi următorii indicatori: - Media, varianţa şi numărul de observaţii pentru cele două şiruri de valori; - Valoarea statisticii calculate F =.004; - P(F<=f) one-tail: probabilitatea de a se observa o valoare f mai mare ca F calculat în ipoteza în care varianţele variabilei Glicemie la femei şi bărbaţi sunt egale. Dacă această probabilitate este mai mică de 0.05 (5%), se poate considera că ipoteza de la care s-a pornit, că varianţele variabilei Glicemie la femei şi bărbaţi, sunt egale, este INFIRMATĂ, diferenţele între ele fiind semnificative statistic. Pentru a aplica logica Fcalculat>Ftabelat (sau Fcritic) trebuie ca primul eșantion să aibă varianța cea mai mare! Atenție! Statistica Fisher este un raport al varianțeșor deci nu poate fi negativă. În cazul nostru P(F<=f) one-tail = > 0.05, deci ipoteza nulă este CONFIRMATĂ, VARIANŢELE SUNT EGALE. În continuare este clar că vom folosi testul t pentru varianţe egale, adică: Se selectează comanda Data / Data Analysis / t-test Two-Sample Assuming Equal Variances: Se specifică şirul de celule în care se află valorile primei variabile Glicemia la femei. Se specifică şirul de celule în care se află valorile primei variabile Glicemia la bărbaţi. Nu se bifează, deoarece şirurile de valori nu au nume diferite. Se precizează locul de afişare a rezultatelor pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou. Figura 7-3. Fereastra corespunzătoare testului t pentru varianţe egale Compararea seturilor de date (I) 35

137 Rezultatele sunt afişate după cum urmează: Figura 7-4. Modul de afişare a rezultatelor testului t pentru varianţe egale Pentru valorile Glicemiei la femei, respectiv bărbaţi sunt calculaţi următorii indicatori: - Media aritmetică, varianţa şi numărul de cazuri; - Hypothesized Mean Difference = 0: formularea ipotezei nule se presupune că mediile pentru cele variabile sunt egale, diferenţa între ele fiind 0; - Valoarea statisticii t calculate, t calculat = -.089; - P(T<=t) one-tail: probabilitatea de a se observa o valoare t mai mare ca t calculat atunci când t calculat este un număr pozitiv respectiv un t mai mic ca t calculat atunci când t calculat este un număr negativ (în ipoteza în care mediile variabilei Glicemie la femei şi bărbaţi sunt egale). Dacă această probabilitate este mai mică de 0.05 (5%), se poate considera că ipoteza de la care s-a pornit, că mediile variabilei Glicemie la femei şi bărbaţi sunt egale, este INFIRMATĂ, deci EXISTĂ DIFERENŢE SEMNIFICATIVE STATISTIC ÎNTRE VALORILE MEDIEI LA FEMEI ŞI BĂRBAŢI. - t Critical one-tail: valoarea limită a statisticii t, pentru care P(t > = t critic) = P(T<=t) two-tail: probabilitatea de a se observa o valoare mai mare în valoare absolută decât t calculat în ipoteza în care mediile variabilei Glicemie la femei şi bărbaţi sunt egale este dublul valorii P(T<=t) one-tail. 36 Compararea seturilor de date (I)

138 - t Critical two-tail: valoarea limită a statisticii t, pentru care P(t > = t critic) = În cazul nostru, P(T<=t) one-tail = 0.6, deci este >0.05, deci ipoteza nulă este CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi bărbaţi sunt NESEMNIFICATIVE STATISTIC. LA MOMENTUL 3 LUNI: Se procedează similar. Testul F (Fisher) de egalitate a varianţelor indică F=0.880 și corespunzător P(F<=f) one-tail=0.3983>0.05, deci ipoteza nulă este CONFIRMATĂ, VARIANŢELE SUNT EGALE. Figura 7-5. Modul de afişare a rezultatelor testului F (la 3 luni) Prin urmare, se va folosi tot testul t pentru varianţe egale, care furnizează următoarele rezultate: Figura 7-6. Modul de afişare a rezultatelor testului t de egalitate a varianţelor (la 3 luni) Valoarea statisticii t calculate, t calculat = , iar P(T<=t) one-tail = 0.507, deci este mai mare decât Așadar, ipoteza nulă este Compararea seturilor de date (I) 37

139 CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi bărbaţi sunt NESEMNIFICATIVE STATISTIC şi la momentul 3 luni. LA MOMENTUL 6 LUNI: Testul F de egalitate a varianţelor indică F = , P(F<=f) onetail = > 0.05, deci ipoteza nulă este confirmată, varianţele sunt egale şi se va folosi varianta testului t, corespunzătoare pentru varianţe egale, t- Test: Two-Sample Assuming Equal Variances. Figura 7-7. Modul de afişare a rezultatelor testului F de egalitate a varianţelor (la 6 luni) În continuare prezentăm situația pentru varianțe inegale (deoarece cea pentru varianțe egale a fost deja prezentată). Fereastra de introducere a parametrilor testului este absolut identică cu cea din cazul testului t pentru varianţe egale: Figura 7-8. Fereastra corespunzătoare testului t pentru varianţe inegale (la 3 luni) 38 Compararea seturilor de date (I)

140 iar rezultatele urmează şi ele aceeaşi schemă. Prin urmare, şi interpretarea lor va fi similară. Figura 7-9. Modul de afişare a rezultatelor testului t de inegalitate a varianţelor (la 6 luni) Valoarea statisticii t calculate, t calculat = , iar P(T<=t) one-tail = E-, deci este mult mai mică decât Așadar, ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi bărbaţi sunt SEMNIFICATIVE STATISTIC la momentul 6 luni. Prin urmare, s-ar putea astfel concluziona că bărbaţii au reacţionat mult mai bine la tratament decât femeile după 6 luni (valoarea medie a glicemiei la bărbaţi a ajuns la 8.35, în timp ce cea a femeilor a fost de 0.056), urmând ca medicul să deceleze şi să explice ulterior elementele practice care au condus la acest fenomen. Compararea seturilor de date (I) 39

141 8 COMPARAREA SETURILOR DE DATE (II) Noţiuni prezentate: Compararea seturilor de date prin testul t corelat şi metoda ANOVA CAZUL II. Se doreşte compararea valorilor unui parametru între două eşantioane diferite, dar dependente caracterizate prin aceea că valorile parametrului cantitativ care se analizează provin de la aceiaşi subiecţi (de exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la momentul 0 şi la momentul 3 luni, cele determinări fiind realizate la aceleaşi persoane): În această situaţie se foloseşte tot testul t; în notaţiile anterioare, diferă numai formula de calcul a lui t, folosindu-se ceea ce se numeşte testul t corelat (t-pairs, sau t-test: Paired Two Sample For Means): t = x x σ + r n n σ Testul t în această formă determină dacă valorile variabilei urmărite la cele două momente în timp provin din populaţii cu media aritmetică a variabilei egală [4]. Nu este necesară verificarea unor condiţii privind varianţa parametrului în cele două populaţii. Se selectează comanda Data / Data Analysis / t-test: Paired Two Sample For Means: Se specifică şirul de celule în care se află valorile primei variabile (mom. 0). σ n Figura 8-. Fereastra corespunzătoare testului t pentru varianţe egale 40 Compararea seturilor de date (II) σ n Se specifică şirul de celule în care se află valorile celei de a doua variabile (la 3 luni). Se bifează când în prima celulă din şir se află numele variabilei. Se precizează locul de afişare a rezultatelor pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.

142 Rezultatele sunt afişate după cum urmează: Figura 8-. Modul de afişare a rezultatelor testului t de egalitate a varianţelor În plus faţă de cazul anterior este calculat şi un coeficient de corelaţie între cele variabile, Glicemia la momentul 0 şi Glicemia la momentul 3 luni, Pearson Correlation, a cărui semnificaţie va fi discutată ulterior şi care are rolul de a măsura intensitatea legăturii între ele legătura între două variabile fiind cu atât mai puternică cu cât acest coeficient este mai apropiat de (vezi capitolul 9). Valoarea statisticii t calculate, t calculat = , iar P(T<=t) one-tail =.47 E-4, deci este mai mică decât Așadar, ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale glicemiei la momentul 0 şi la momentul 3 luni sunt SEMNIFICATIVE STATISTIC, deci tratamentul prescris de medic pentru micşorarea acestui indicator este eficient glicemia micşorându-se de la o valoare medie iniţială de 7.8 la o valoare medie după 3 luni de Pentru a vedea dacă trend-ul favorabil se menţine, putem compara şi valorile glicemiei la 3 luni cu cele la 6 luni, folosind exact aceeaşi manieră de lucru respectiv testul t pentru perechi, t-test: Paired Two Sample For Means. Se procedează similar, rezultatele obţinute fiind cele alăturate: Figura 8-3. Modul de afişare a rezultatelor testului t de egalitate a varianţelor Compararea seturilor de date (II) 4

143 Aşadar, valoarea statisticii t calculate, t calculat = 9.778, iar P(T<=t) one-tail =.08 E-3, deci este o valoare mult mai mică decât Așadar, ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale glicemiei la momentul 3 luni şi la momentul 6 luni sunt SEMNIFICATIVE STATISTIC, iar tratamentul prescris de medic pentru micşorarea glicemiei este în continuare eficient, aducând acest parametru aproape în limite normale după 6 luni de tratament glicemia se micşorează în continuare, de la valoarea medie de 9.86 după 3 luni de tratament la o valoare medie după 6 luni de 9.4. CAZUL III. Se doreşte compararea valorilor unui parametru între mai mult de eşantioane. În acest caz avem următoarele soluţii: să luăm eşantioanele două câte două, şi să comparăm valorile parametrului analizat între acestea folosind testul t (ceea ce ar putea conduce la un număr însemnat de comparaţii atunci când se lucrează cu relativ multe eşantioane de exemplu, la 5 eşantioane ar însemna 0 combinaţii posibile şi în general la nn eşantioane ar însemna CC nn combinaţii posibile), sau să realizăm o comparare globală între cele nn eşantioane folosind un test de semnificaţie adecvat, respectiv testul ANOVA. Testul ANOVA (Analysis of Variance) a fost proiectat pentru a studia diferenţa globală între toate loturile incluse în studiu, determinată prin intermediul analizei varianţei în două moduri: între loturi şi în interiorul fiecărui lot [5]. Ipoteza nulă de la care se porneşte este aceea că mediile pentru fiecare lot în parte sunt egale, iar loturile provin din aceeaşi populaţie de origine. Eventualele diferenţe sunt determinate de fluctuaţiile de eşantionaj. Conform acestei ipoteze, toate loturile provin din aceeaşi populaţie de bază origine, iar varianţa, la rândul ei, provine din surse: - varianţa între loturi, V(BL); - varianţa în interiorul fiecărui lot, V(WL). Varianţele specificate se calculează în modul următor: A) Varianţa între loturi V(BL): Se calculează cu formula [6]: VV(BBBB) = kk nn kk ii= ii (mm ii MM) unde: - k este numărul de loturi luate în consideraţie, pentru care se calculează valorile medii; - n i este dimensiunea fiecăruia dintre cele k loturi; - m i este valoarea medie a parametrului urmărit, calculată la nivelul fiecărui lot; - M este media globală a parametrului. În fapt, această varianţă este de fapt suma abaterilor pătrate ale mediilor la nivelul fiecărui lot faţă de media generală a parametrului, raportată la numărul de grade de libertate k. 4 Compararea seturilor de date (II)

144 B) Varianţa în interiorul fiecărui lot V(WL): Se calculează cu formula [6]: VV(WWWW) = NN kk (nn jj ) SS jj jj= unde: - N este suma dimensiunilor celor k loturi comparate; - k este numărul de loturi luate în consideraţie; - (n j ) este numărul de grade de libertate la nivelul fiecărui lor, astfel încât numărul total de grade de libertate cu care se lucrează va fi calculat cu formula: γ = (n ) + (n ) + + (n k ) = n + n + +n k k = N k - SS jj este deviaţia standard calculată la nivelul fiecărui lot, cu formula: SS jj = nn jj După ce au fost calculate aceste varianţe, se defineşte raportul: FF = VV(BBBB) VV(WWWW) şi se compară acest raport cu valorile teoretice obţinute din tabele, pentru care ipoteza nulă este adevărată, pentru un interval de încredere stabilit P = 0.95 sau P = 0.99 corespunzător pragului de semnificaţie cu un coeficient de securitate de 95% (sau 99%). Apar aşadar două situaţii posibile: - F calculat > F(P) tabel Ipoteza nulă este respinsă: diferenţa între medii este semnificativă statistic; - F calculat < F(P) tabel Ipoteza nulă este acceptată: diferenţa între medii este aleatoare, şi nu are o semnificaţie specială. Testul ANOVA, la rândul său, se poate folosi în mai multe variante: - Varianta clasică (cea prezentată anterior); - Varianta multivariată (MANOVA) în cazul în care există mai mulţi factori de grupare a variabilelor; - Varianta pentru perechi atunci când se lucrează cu eşantioane dependente. Testul ANOVA, însă, se foloseşte numai dacă este verificată condiţia de egalitate a varianţelor între grupuri care se verifică prin testul F de omogenitate a varianţelor [5]. ANOVA nu determină însă decât dacă există sau nu diferenţe semnificative statistic între toate mediile valorilor parametrului numeric analizat corespunzătoare grupurilor generate de parametrul calitativ, dar nu indică exact între ce grupuri apar diferenţele semnificative statistic între medii. Pentru a se stabili acest lucru, se poate apela la aşa-numitele teste post-hoc, iar în particular la următoarele teste: kk nn jj (xx iijj mm jj ) ii jj = Compararea seturilor de date (II) 43

145 - Testele de comparaţie multiplă pairwise LSD şi Bonferroni, care verifică diferenţele între fiecare pereche de medii şi generează o matrice în care sunt marcate cu mediile semnificativ diferite cu un prag de semnificaţie de 0.05: Testul LSD realizează comparaţii perechi între mediile grupurilor, fără a ajusta rata de eroare în cazul comparaţiilor multiple. Testul Bonferroni funcţionează analog, dar controlează rata globală de eroare prin limitarea ratei de eroare a fiecărui test sub o anumită valoare de prag, determinată experimental. - Testele de rang multiplu SNK (Student Newman-Keuls), care identifică grupurile de medii omogene. Testul SNK realizează toate comparaţiile perechi între medii, identifică subgrupurile de medii omogene şi ordonează crescător mediile în cadrul acestora. În cazul în care eşantioanele au dimensiuni egale, compară de asemenea şi perechile de medii din interiorul subgrupurilor omogene. Exemplu: Pe acelaşi tabel de date ca în cazul anterior (LP5.xlsx) dorim să stabilim dacă există diferenţe semnificative statistic între valorile glicemiei la momentul 0, la momentul 3 luni şi la momentul 6 luni. Se selectează comanda Data / Data Analysis / ANOVA: Single Factor, care este cea mai simplă dintre metodele de analiză a varianţei puse la dispoziţie de Excel: Figura 8-4. Fereastra corespunzătoare testului ANOVA 44 Compararea seturilor de date (II) Se specifică şirul de celule în care se află valorile parametrului analizat (glicemia) care, în această situaţie, trebuie să acopere toate cele 3 coloane cu determinările succesive ale parametrului (la momentul 0, la 3 luni şi la 6 luni). Se indică modul de grupare a datelor în cazul nostru pe coloane, deoarece lucrăm cu eşantioane perechi. Se bifează când în prima celulă din şir se află numele variabilei. Se precizează locul de afişare a rezultatelor pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou.

146 Testul ANOVA furnizează următoarele rezultate: Figura 8-5. Modul de prezentare a rezultatelor testului ANOVA - Suma valorilor, valoarea medie şi varianţa pentru parametrul analizat în fiecare dintre cele 3 eşantioane; - Valoarea varianţei inter-grup şi a varianţei intra-grup, precum şi a varianţei globale, care este suma acestora; - Valoarea raportului celor două varianţe F, F = ; - Valoarea critică a raportului celor două varianţe, F crit, pentru care coeficientul de încredere p = 0.05; pentru valori ale statisticii F mai mari decât valoarea critică, coeficientul de încredere p va fi mai mic sau egal decât 0.05, iar când F scade sub această valoare critică coeficientul de încredere p devine mai mare decât 0.05, diferenţele între medii fiind nesemnificative statistic; - Valoarea coeficientului de încredere p, p = 7.04 E-30 < 0.05, care indică confirmarea ipotezei alternative. În cazul nostru, deoarece p este mai mic decât 0.05, urmează că ipoteza nulă este infirmată, deci diferenţele între valorile medii ale glicemiei în cele 3 eşantioane sunt semnificative statistic fapt verificat de altfel şi prin exemplele anterioare, în care am folosit testul t pentru perechi pentru a compara valorile glicemiei la momentul 0 şi după 3 luni, şi apoi între 3 şi 6 luni. Compararea seturilor de date (II) 45

147 9 REGRESIE - CORELAŢIE Noţiuni prezentate: Regresie liniară şi corelaţie În ştiinţele experimentale şi, în particular, în medicină şi biologie, interesează nu numai variaţia unui singur parametru, ci şi a doi parametri, cantitativi, despre care presupunem că se influenţează unul pe altul. De exemplu, dorim să ştim dacă există într-o grupă de subiecţi o relaţie între greutate şi înălţime, între tensiunea arterială şi valoarea colesterolului, etc. Această relaţie, de o natură particulară, se numeşte corelaţie statistică, şi joacă un rol important în ştiinţele vieţii, şi în particular în medicină. Cel mai simplu caz de corelaţie este corelaţia liniară, unde una dintre mărimi variază proporţional cu alta, ambele mărimi fiind numerice sau cantitative [6]. Pentru a se determina o expresie precisă a influenţei pe care unul dintre parametri îl exercită asupra celuilalt în cazul unei variaţii proporţionale a acestora, statisticienii folosesc noţiunea de covarianţă. Astfel, pentru un eşantion dintr-o populaţie dată, se calculează: mediile aritmetice ale celor doi parametri analizaţi, x şi y, precum şi abaterile de la medie ale valorilor individuale, x x şi y y. Variaţia proporţională a celor doi parametri x, y este exprimată din punct de vedere matematic prin faptul că suma produselor abaterilor de la medie ale celor doi parametri este un număr pozitiv: ( x x)( y y) > 0. Analog, variaţia invers proporţională a celor doi parametri x, y este exprimată prin faptul că suma produselor abaterilor de la medie ale celor doi parametri este un număr negativ: ( x x) ( y y) < 0. iar absenţa oricărei influenţe între cei doi parametri este exprimată prin faptul că această expresie este egală sau tinde spre 0: ( x x)( y y) 0. Pentru a se da o semnificaţie mai generală acestei sume, ea se raportează la numărul de cazuri N, definindu-se astfel noţiunea de covarianţă, COV(x, y) [6]: ( x x)( y y) P =. N 46 Regresie. Corelaţie

148 care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi parametri cantitativi. Din punct de vedere grafic, această dependenţă proporţională între două variabile este caracterizată printr-o dreaptă, care se numeşte dreaptă de regresie şi de asemenea poate fi descrisă precis din punct de vedere matematic. Ecuaţia generală a dreptei de regresie [6], cu notaţiile de mai sus, va fi: y y = ax ( x x), unde ( x x)( y y) a x = = CCCCCC(xx,yy) ( x x) σσ. xx a x se numeşte coeficientul liniar de regresie al lui y în raport cu x, care măsoară panta dreptei D pe orizontala Ox. Indică de câte ori în medie y este mai mare sau mai mic decât x. Este pozitiv sau negativ după cum dreapta are o pantă ascendentă sau descendentă de la stânga la dreapta. În mod simetric (schimbând x cu y şi y cu x) se defineşte dreapta de regresie a lui x în raport cu y, care corespunde ecuaţiei: ( y y)( x x) x x = a y ( y y), unde a y = = CCCCCC(xx,yy) ( y y) σσ. yy a y se numeşte coeficientul liniar de regresie al lui x în y, care măsoară panta dreptei D pe verticala Oy. Indică de câte ori în medie x este mai mare sau mai mic decât y. Pe baza acestor doi coeficienţi liniari de regresie ai lui y în x, respectiv x în y, se defineşte produsul r = a x a y (media geometrică a celor două pante de regresie); acest parametru se numeşte coeficientul corelaţiei liniare, sau coeficientul de corelaţie Pearson. Formula de calcul a coeficientului de corelaţie liniară va fi [6]: rr = aa xx aa yy rr CCCCCC(xx, yy) CCCCCC(xx, yy) = CCCCCC(xx, yy) (xx xx) (yy yy) rr = = σσ xx σσ yy (xx xx) (yy yy) Coeficienţii de corelaţie Pearson reprezintă măsura intensităţii legăturii liniare între două variabile şi au valori cuprinse între - şi. Valorile apropiate de 0 indică absenţa corelaţiei între variabilele respective, iar valorile apropiate de sau de - indică prezenţa unei corelaţii puternice între variabile. Valorile negative indică prezenţa unei corelaţii invers proporţionale (atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile scad corespunzător), iar valorile pozitive indică prezenţa unei corelaţii σσ xx σσ yy Regresie. Corelaţie 47

149 direct proporţionale (atunci când valorile uneia dintre variabile cresc, valorile celeilalte variabile cresc şi ele). Colton (974) a indicat următoarele reguli empirice pentru interpretarea coeficienţilor de corelaţie: Un coeficient de corelaţie între 0,00 şi 0,5, semnifică o corelaţie nulă sau foarte slabă, Un coeficient de corelaţie între 0,5 şi 0,50 semnifică o corelaţie acceptabilă, Un coeficient de corelaţie între 0,50 şi 0,75 semnifică o corelaţie moderată spre bună, Un coeficient de corelaţie peste 0,75 semnifică o corelaţie foarte bună. Exemple:. Determinaţi coeficienţii de corelaţie între Vârstă, Greutate şi Glicemie la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în vreun fel valorile Glicemiei. Una dintre condiţiile necesare pentru a putea calcula coeficienţii de corelaţie este ca variabilele pentru care dorim să îi calculăm să fie situate în coloane învecinate condiţie realizată în cazul tabelului nostru altfel, coloanele respective ar trebui copiate şi rearanjate separat. Se selectează comanda Data / Data Analysis / Correlation: Se specifică şirul de celule în care se află valorile variabilelor pentru care dorim să calculăm coeficienţii de corelaţie. Se specifică modul de grupare a valorilor în coloane în cazul de faţă. Se bifează când în prima celulă din fiecare coloană se află numele variabilei. Se precizează locul de afişare a rezultatelor pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou. Figura 9-. Fereastra corespunzătoare calculului coeficienţilor de corelaţiei 48 Regresie. Corelaţie

150 Rezultatele sunt afişate după cum urmează: Figura 9-. Modul de prezentare a rezultatului corelaţiei Se generează de fapt Matricea Coeficienţilor de Corelaţie, ce conţine coeficienţii de corelaţie Pearson între toate perechile posibile de variabile selectate prin comandă. În cazul nostru, corelaţia între greutate şi vârstă este , deci pozitivă, acceptabilă, dar corelaţiile între glicemie şi vârstă (0.0697), respectiv glicemie şi greutate (0.0660) sunt practic nule.. Determinaţi coeficienţii de covarianţă între Vârstă, Greutate şi Glicemie la momentul 0, pentru a putea afla dacă vârsta sau greutatea influenţează în vreun fel valorile Glicemiei. După cum am arătat, covarianţa este o măsură premergătoare calculului coeficienţilor de corelaţie între două variabile, definită ca media produselor deviaţiilor pentru fiecare pereche de puncte. Spre deosebire de coeficientul de corelaţie, coeficientul de covarianţă nu aparţine unui interval dat de valori, putând lua ca valoare orice număr real. Se selectează comanda Data / Data Analysis / Covariance: Se specifică şirul de celule în care se află valorile variabilelor pentru care dorim să calculăm coeficienţii de covarianţă. Se specifică modul de grupare a valorilor în coloane în cazul de faţă. Se bifează când în prima celulă din fiecare coloană se află numele variabilei. Se precizează locul de afişare a rezultatelor pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou. Figura 9-3. Fereastra corespunzătoare calculului covarianţei Covarianţa se foloseşte pentru a determina doar natura legăturii între cele variabile: valorile pozitive ale ei indică o legătură direct Regresie. Corelaţie 49

151 proporţională între variabile, valorile negative indică o legătură invers proporţională, iar valorile apropiate de 0 indică absenţa unei influenţe între cele două variabile. Rezultatele sunt afişate după cum urmează: Figura 9-4. Modul de prezentare a rezultatului calculului covarianţei Între toate cele 3 variabile există o legătură direct proporţională, mai accentuată între Greutate şi Vârstă (69.00), şi foarte slabă între Glicemie şi Vârstă (6.377), respectiv Greutate (7.7596). 3. Construiţi modelul de regresie liniară între Vârstă şi Glicemie la mom. 0, respectiv Greutate şi Glicemie la mom. 0, pentru a determina modul în care aceste variabile influenţează valorile Glicemiei. Comentaţi rezultatele obţinute şi realizaţi reprezentarea grafică corespunzătoare (de tip SCATTER). Se selectează comanda Data / Data Analysis / Regression: Se specifică şirul de celule în care se află valorile variabilei dependente/ influenţate - Glicemia. Se specifică şirul de celule în care se află valorile variabilei independente/ care influenţează - Vârsta. Se bifează când în prima celulă din fiecare coloană se află numele variabilei. Se vor calcula şi intervalele de încredere 95% în jurul dreptei de regresie. 50 Regresie. Corelaţie Se precizează locul de afişare a rezultatelor pe foaia de calcul curentă, pe o nouă foaie de calcul sau chiar într-un registru de calcul nou. Figura 9-5. Fereastra corespunzătoare regresiei

152 Rezultatele sunt afişate după cum urmează: Figura 9-6. Modul de prezentare a rezultatului regresiei (vârstă vs. glicemie) Regression Statistics: - Multiple R: este coeficientul de corelaţie calculat anterior, între Vârstă şi Glicemie; - R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă proporţia din variaţia variabilei Y (Glicemie) care este explicată de influenţa liniară a variabilei X ( foarte mic în cazul nostru); - Adjusted R Square: reprezintă Coeficientul de Determinare corectat; - Standard Error: eroarea medie înregistrată la predicţia valorilor medii ale variabilei Y (Glicemie) prin ecuaţia de regresie liniară (7.98 de asemeni foarte mică, dar nu pentru că modelul de regresie este bun, ci pentru că acesta este total inadecvat). ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care afirmă că panta dreptei de regresie este egală cu 0 (deci nu există nici un fel de corelaţie între cele variabile). Pentru a se verifica testul respectiv, se calculează statistica F= şi nivelul său de semnificaţie p= Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta dreptei de regresie este semnificativ diferită de 0, şi prin urmare există o relaţie liniară între X şi Y. Dacă p>0.05 înseamnă că ipoteza nulă este CONFIRMATĂ, panta dreptei de regresie este 0 şi nu există nici o relaţie semnificativă între X şi Y cazul de faţă, p= Regression: reprezintă variaţia lui Y explicată de X (= ) - Residual: reprezintă variaţia lui Y neexplicată de X (= , mult mai mare decât celălalt coeficient) - Total: reprezintă variaţia totală a lui Y, suma între Regression şi Residual. - Coefficients: reprezintă coeficienţii dreptei de regresie. Ecuaţia dreptei de regresie are forma generală y=ax+b, unde: Regresie. Corelaţie 5

153 - a = reprezintă PANTA dreptei; cu cât este mai mare, cu atât semnifică o dreaptă mai înclinată, (dar nu neapărat o legătură mai puternică); când panta are o valoare pozitivă, atestă o corelaţie direct proporţională între cele variabile, în timp ce atunci când are o valoare negativă, atestă o corelaţie invers proporţională între cele variabile. - b = reprezintă INTERCEPTUL CU AXA OY: punctul în care dreapta intersectează axa verticală. Reprezentarea grafică se realizează folosind comanda SCATTER, în care pe axa Orizontală se pune variabila independentă, iar pe cea Verticală variabila dependentă (influenţată de cealaltă): Glicemie Corelatia intre Varsta si Glicemie Varsta Figura 9-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie Pentru a se figura pe acest grafic ecuaţia dreptei de regresie, se selectează punctele din norul de puncte, după care se activează meniu-ul personalizat (click dreapta) din care se alege opţiunea Add trendline. Se bifează tipul de regresie dorit Linear, şi opţiunile - Display Equation on chart: pentru afişarea pe grafic a ecuaţiei dreptei de regresie, - Display R-squared value on chart: pentru afişarea pe grafic a coeficientului de determinare. Figura 9-8. Modul de setare pentru afişarea dreptei de regresie 5 Regresie. Corelaţie

154 Graficul care se obţine va fi: Glicemie Corelatia intre Varsta si Glicemie y = 0.046x R² = Varsta Figura 9-9. Reprezentarea grafică a dreptei de regresie Se vede clar din ecuaţia dreptei de regresie că practic Vârsta nu influenţează deloc Glicemia, dreapta fiind aproape paralelă cu axa orizontală. Construim similar modelul de regresie liniară între Greutate şi Glicemie la momentul 0. Rezultatele obţinute vor fi: Figura 9-0. Modul de prezentare a rezultatului regresiei (greutate vs. glicemie) Coeficientul de corelaţie între Greutate şi Glicemie la momentul 0 este cel deja cunoscut, R = , fiind de asemenea foarte mic. Testul ANOVA de caracterizare a pantei dreptei de regresie furnizează de asemenea un coeficient de încredere p = > 0.05, care conduce la concluzia că panta dreptei de regresie este aproape egală cu 0, iar ecuaţia dreptei de regresie, aşa cum rezultă din calcule, va fi y = x , adică o dreaptă de regresie din nou aproape paralelă cu axa orizontală fapt deja anticipat de valoarea coeficientului de corelaţie şi de rezultatul testului ANOVA. Regresie. Corelaţie 53

155 Aceste elemente sunt de asemenea confirmate de reprezentarea grafică corespunzătoare: Glicemie Corelatia intre Greutate si Glicemie la mom. 0 y = x R² = Greutate Figura 9-. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie) 54 Regresie. Corelaţie

156 0 ANALIZA SUPRAVIEŢUIRII Noţiuni prezentate: Analiza supravieţuirii prin metoda Kaplan Meier. Suntem adesea interesaţi în studiul intervalului de timp până la apariţia unui eveniment de interes. De exemplu, timpul scurs până la însănătoşire în cazul aplicării unui nou tratament sau timpul de utilizare a unui cateter sau chiar timpul scurs de la îmbolnăvire până la deces cercetare des întâlnită în studiul afecţiunilor terminale. Observăm natura pozitivă sau negativă a evenimentului urmărit. Cum putem examina acest interval de timp, cum extragem informaţii din datele culese şi cum interpretăm rezultatele obţinute, sunt probleme la care vom răspunde în acest capitol [9]. Avem nevoie mai întâi de informaţii de tipul timp (o coloană de date) şi o altă coloană ce defineşte realizarea sau nu a evenimentului urmărit. Aceste date sunt corespunzătoare fiecărui pacient în parte. Trebuie să răspundem la întrebări de genul: care este supraviețuirea în prima lună de tratament, sau care este supravieţuirea medie, sau în cât timp am pierdut 50% din pacienţi? Evident toate întrebările sunt legate de conceptul de timp. Am putea în primă etapă să folosim noţiunile specifice din statistica descriptivă deci, am putea caracteriza populaţia prin indicatorii statistici de localizare, împrăştiere, distribuţie de frecvenţă. În realitate problema se complică. Sunt dese situaţiile în care pe parcursul studiului se pierd pacienţi din diferite motive (schimbare de adresă, abandon, deces din alte cauze etc.). Astfel suntem nevoiţi să eliminăm datele incomplete pe perioada de analiză. Dacă pierdem cantităţi importante de informaţie putem compromite întregul studiu. Datele pierdute se numesc date cenzurate. Acestea conţin informaţie parţială. De asemenea pot apărea cazuri noi care ar trebui incluse în lot. Dacă am transla toate înregistrările la o origine de timp comună am putea ţine cont de informaţia chiar parţial introdusă. Ar trebui să folosim într-un mod corect această informaţie care ne-ar aduce, evident, un plus de cunoştinţe. Analiza de tip Kaplan-Meier permite exact acest tip de lucru cu date cenzurate şi/sau noi. Practic profităm de toată informaţia pe care o avem pe parcursul intervalului de timp investit în cercetare [9]. Metoda Kaplan Meier este o tehnică statistică neparametrică ce determină probabilităţile de supravieţuire în timp, acceptă lucrul cu date Analiza supravieţuirii 55

157 cenzurate şi permite introducerea de noi cazuri în perioada de cercetare [9, 3]. Curba Kaplan Meier reprezintă evoluţia probabilităţii de supravieţuire în timp. Ca metodă de calcul într-un mod vag exprimată, aceasta reprezintă numărul de cazuri în viaţă raportat la numărul total de cazuri de la începutul studiului. Dacă pierdem pacienţi în perioada de studiu, atunci pe fiecare subinterval vom avea probabilităţile condiţionate calculate conform formulei sus menţionate. Va trebui să calculăm probabilitatea pe subinterval şi vom face apel la teoria probabilităţilor. Evenimentele au loc la momentele notate T < T < < T i < < T n. Momentul de start este T 0 definit de scopul studiului. Aici trebuie să se acorde o atenţie deosebită deoarece, poate exista o mare relativitate în stabilirea momentului de start (de ex.: în cancerul de sân, care este momentul de determinare a prezenţei neoplaziei?). Toate cazurile luate în studiu trebuie să fie tratate uniform pentru a nu introduce erori. Funcţia de supravieţuire sau rata de supravieţuire este definită de probabilitatea ca o persoană (sau caz de studiu) să supravieţuiască mai mult de n unităţi de timp Ps ( T > Ti ). Aceste unităţi de timp sunt chiar valorile T, T, T n [9, 3]. Se poate calcula uşor probabilitatea pe fiecare interval T i-, T i. Aceasta este însă o probabilitate condiţionată. Practic în intervalul T i- T i, avem o anumită compoziţie a lotului de studiu. La momentul T i- avem în viaţă N i- pacienţi. Aceştia sunt supuşi riscului de a deceda. În intervalul precizat o parte din pacienţi va fi eliminată din studiu (cenzuraţi), notaţi cu C i, iar o parte va deceda, notaţi D i. Putem calcula numărul de pacienţi supuşi riscului la momentul T i. Vom scădea pe cei decedaţi şi pe cei cenzuraţi. N i = N i Di Ci. Probabilitatea de deces pe acest interval, condiţionată de faptul că pacienţii au supravieţuit până la începutul intervalului este ( ) Di Pd T > Ti T > Ti =, T este timpul de supravieţuire, ce caracterizează N i studiul [3]. Astfel probabilitatea de supravieţuire condiţionată este: Di Ps ( T > Ti T > Ti ) = Pd( T > Ti T > Ti ) =. N i Această probabilitate se poate calcula pe fiecare interval care prezintă evenimente de tip deces sau cenzură. Trebuie în final să calculăm probabilitatea necondiţionată: Ps ( T > Ti ). Făcând apel la teoria probabilităţilor avem: P( A B) P( A B) = - formula de calcul a probabilităţii condiţionate [7]. P( B) 56 Analiza supravieţuirii

158 Evenimentul A poate fi de exemplu, timpul de supravieţuire mai mare ca T i (T>T i), iar evenimentul B poate reprezenta T>T i-. Observăm că probabilitatea de intersecţie a evenimentelor P( A B) = P( T > Ti T > Ti ) este tocmai P(A), deoarece evenimentul A este mai restrictiv decât B. P( T > Ti ) În acest caz avem: P ( T > Ti T > Ti ) =. Obţinem probabilitatea P( T > Ti ) de supravieţuire pentru intervalul i ca un produs de forma: Ps T T ) = Ps( T > T T > T ) Ps( T T ). ( > i i i > i Înlocuind în continuare probabilitatea de supravieţuire de la momentul T i- cu o formulă asemănătoare celei de sus, obţinem un produs al probabilităţilor condiţionate. În final ultima valoare va fi probabilitatea de supravieţuire la momentul 0 (aceasta este considerata de valoare, Ps ( T > T 0 ) = ). Este justificat astfel şi pseudonimul: product limit estimate. Ps( T > Ti ) = Ps( T > Ti T > Ti )... Ps( T > T T > T ) Ps( T > T0 ) Fiind un produs de probabilităţi putem uşor observa că în timp, forma grafică va fi de tip descrescător. Practic vom determina pe fiecare interval numărul de pacienţi la risc (N i), numărul de decese (D i) şi numărul de pacienţi eliminaţi (sau cenzuraţi, C i). Se poate calcula apoi probabilitatea condiţionată şi în final prin produsul acestora se află funcţia de supravieţuire în fiecare punct în timp, unde se întâlnesc evenimente [3]. Se poate astfel determina curba de supravieţuire. În continuare se calculează cuartilele prin metoda grafică prin trasarea de drepte paralele cu abscisa în punctele de probabilităţi egale cu 0.75, 0.50 respectiv 0.5. Exemplu (date generice). Avem următoarele date prezente în tabelul de mai jos. Acestea descriu evenimentele de tip deces respectiv cenzură. Să se determine prin metoda Kaplan Meier curba de supravieţuire şi să se calculeze cuartilele. Tabelul 0-. Date necesare în calculul supravieţuirii (metoda Kaplan-Meier) An Cenzuri Eveniment urmărit Total Analiza supravieţuirii 57

159 Numărul total de pacienţi este +=43. În tabelul următor sunt prezentate calculele necesare realizării curbei Kaplan Meier. Tabelul 0-. Date necesare realizării curbei Kaplan Meier An Cenzuri Eveniment Pacienţi la Prob. Prob. de supravieţuire urmărit risc condiţionată 43 -/43=97.67% 97.67% 43--=4 -/4=95.% *95.=9.9% 3 4--=37 -/37=94.59% 9.9*94.59=87.89% =33-3/33=90.9% 87.89*90.9=79.90% =7 -/7=96.30% 79.90*96.30=76.94% =3-4/3=8.6% 76.94*8.6=63.56% =6-3/6=8.5% 63.56*8.5=5.64% 6-4-3=9 -/9=77.78% 5.64*77.78=40.7% 3 9--=5 -/5=60.00% 40.7*60=4.0% 4 5--= -/=50.00% 4.0*0.50=.05% Total În continuare se poate reprezenta grafic curba de supravieţuire. Pentru aceasta vom folosi graficul de tip scatter (XY). Datele le vom aranja ca în tabelul de mai jos: Tabelul 0-3. Valorile probabilităţii de supravieţuire An Supravieţuire % 97.67% 9.9% 3 9.9% % % % % % Vom obţine graficul: % % % % 5.64% 40.7% % 3 4.0% 4 4.0% 4.05% 58 Analiza supravieţuirii

160 Citim din grafic cuartilele: Supravieţuire de 75% avem la 8 ani. Supravieţuire de 50% avem la ani. Supravieţuire de 5% avem la 3 ani. Figura 0-. Curba Kaplan Meier EXERCIŢIU. Calculaţi cuartilele şi reprezentaţi grafic curba Kaplan Meier pentru datele prezentate în tabelul de mai jos. An Cenzuri Eveniment urmărit Total 5 0 Răspuns: Supravieţuire de 75% avem la 6 ani. Supravieţuire de 50% avem la 0 ani. Supravieţuire de 5% avem la 3 ani. Analiza supravieţuirii 59

161 BAZE DE DATE MICROSOFT ACCES. NOŢIUNI GENERALE Noţiuni prezentate: elemente introductive; deschiderea şi crearea unei baze de date; sortarea şi filtrarea datelor. Elemente introductive Bazele de date Access [8] sunt fişiere care conţin obiecte de diverse tipuri [9]: tabele pentru stocarea datelor; form-uri (ferestre) pentru editarea pe ecran a datelor din tabele; rapoarte pentru tipărirea datelor; query-uri (interogări) pentru selecţia şi combinarea datelor; macro-uri şi module care conţin programe scrise pentru a rezolva diverse probleme. O bază de date Access poate conţine mai multe tabele, de exemplu în baza de date a unei clinici pot exista: o tabelă cu datele personale ale pacienţilor (nume, prenume, adresă, nr. de telefon, etc. şi o tabelă cu istoricul medical al acestora (dată internare, afecţiune, tratament, etc.). In imaginea de mai jos este arătată o tabelă care conţine informaţii despre angajaţii unei companii. Figura -. Tabel cu date în Microsoft Access 60 Baze de date Microsoft Access. Noţiuni generale.

162 Deschiderea unei baze de date Pentru a putea lucra cu o bază de date, ea trebuie deschisă în prealabil. Deschiderea unei baze de date Access se poate face în mai multe moduri. ) Una din variante este de a alege Open din meniul principal (vezi figura de mai jos). ) Altă metodă este de a alege o bază de date deschisă anterior din lista Recent Documents. 3) O altă posibilitate este prin dublu-clic pe fişierul bază de date (acesta este un fişier cu extensia accdb sau mdb (versiuni anterioare de Access). Figura -. Modul de deschidere a unei baze de date în Microsoft Access Crearea unei noi baze de date O modalitate simplă de a crea o bază de date este de a utiliza un template. Acesta reprezintă o bază de date deja creată, cu o structură preexistentă, destinată unui anumit tip de aplicaţie. Utilizarea templateurilor reduce mult timpul necesar creării unei baze de date, care ulterior poate fi adaptată cerinţelor specifice. A doua variantă este crearea bazei de date de la zero prin intermediul comenzii New / Blank Database / Create. Baza de date este creată ca un container, care conţine iniţial un singur tabel, cu numele generic Table şi la care ulterior putem adăuga alte tabele, în funcţie de necesităţile pe care le avem. Un tabel într-o bază de date este asemănător ca structură cu un tabel în Excel şi conţine o colecţie de informaţii împărţite în categorii precis caracterizate şi neredundante (care apar doar o singură dată). Baze de date Microsoft Access. Noţiuni generale. 6

163 Pentru a se defini un tabel într-o bază de date [8] trebuie parcurse două etape:. Definirea structurii tabelului: Înseamnă caracterizarea categoriilor de informaţii pe care le va conţine tabelul respectiv numite în teoria bazelor de date CÂMPURI. Câmpurile unei baze de date sunt foarte asemănătoare ca şi concept cu coloanele unui tabel în Excel, dar, în timp ce în Excel pentru caracterizarea unei coloane este de obicei suficient să îi stabilim un nume, în Access (şi în orice limbaj de lucru cu baze de date) pentru a realiza acest lucru trebuie să fim mai riguroşi. Astfel, pentru a caracteriza un câmp într-un tabel care aparţine unei baze de date trebuie indicate în mod obligatoriu următoarele elemente referitoare la acesta: Numele câmpului: reprezintă descrierea informaţiilor care vor fi memorate în câmpul respectiv (Ex. Nume şi prenume, Vârstă, Data naşterii, etc.); poate avea maximum 64 de caractere, inclusiv caractere speciale: spaţiu _, virgulă,, punct şi virgulă ;, semnul întrebării? sau semnul exclamării!, dar nu şi punct.. În cazul câmpurilor cu nume compuse (care conţin în structura lor caractere speciale dintre cele menţionate mai sus), acestea vor fi apelate prin comenzi sau expresii Access fiind incluse în paranteze pătrate [ ]: ex. [nume, prenume]. În fapt, referirea completă la numele unui câmp dintr-un tabel al unei baze de date se face precizând înaintea sa şi numele tabelului din care acesta provine, separat printr-un punct: ex. persoane.[nume, prenume]. Figura -3. Definirea structurii tabelului unei baze de date 6 Baze de date Microsoft Access. Noţiuni generale.

164 Tipul de dată al câmpului: se alege dintr-o listă de tipuri de dată predefinite, în funcţie de natura informaţiilor care vor fi memorate în câmpul respectiv. Pe lângă acestea, mai pot fi precizate (opţional) şi alte proprietăţi ale câmpului, cum ar fi: dimensiune, indexare, obligativitatea unui conţinut, etc. (vezi figura de mai jos). Toate aceste elemente referitoare la definirea câmpurilor unui tabel într-o bază de date se definesc vizualizând conţinutul tabelului în modalitatea View / Design View. Tipurile de dată disponibile în Access pentru câmpurile unui tabel sunt următoarele: Tabelul -. Tipurile de dată disponibile în Microsoft Access Tip Descriere Text Şiruri de caractere (litere şi cifre) cu o lungime maximă de 55 caractere Memo Şiruri de caractere (litere şi cifre) cu o lungime maximă de caractere Number Valoare numerică întreagă sau reală, în funcţie de proprietatea FieldSize DateTime Dată calendaristică (zi, lună, an) şi moment de timp (oră, minut, secundă) Currency Valoare numerică care reprezintă o sumă de bani, folosită în special în calcule financiare, unde nu sunt permise rotunjiri. AutoNumber Valoare numerică autogenerată, unică pt. fiecare înregistrare din tabelă Yes/No Valoare logică (booleană) cu două posibilităţi: da, nu (adevărat, fals) OLE Obiect generic inserat în baza de date (document Word, imagine, film, etc.) Hyperlink Adresă către o pagină Web din Internet Calculated Valoare autogenerată în urma efectuării unor calcule asupra valorilor din celelalte câmpuri ale tabelului Lookup Wizard Valoare care se selectează dintr-o listă de valori posibile, specificate manual sau preluate din alte tabele ale bazei de date Attachment Tipul de dată optim pentru a stoca imagini digitale şi orice alt fel de fişiere binare.. Definirea conţinutului tabelului: înseamnă introducerea efectivă a informaţiilor care vor fi stocate în tabelul respectiv numite în teoria bazelor de date ÎNREGISTRĂRI. Înregistrările într-o bază de date sunt foarte asemănătoare cu liniile unui tabel în Excel şi conţin valori particulare pentru câmpurile (coloanele) tabelului; ca şi principiu general, este bine ca într-un tabel înregistrările să nu se repete şi să existe şi un mecanism de identificare a lor în mod unic pentru a nu se putea confunda unele cu altele. Baze de date Microsoft Access. Noţiuni generale. 63

165 Încărcarea efectivă a tabelului cu înregistrări se realizează vizualizând conţinutul acesteia în modalitatea View / Datasheet View (vezi figura de mai jos) [0]. Figura -4. Încărcarea cu date a unui tabel Microsoft Access Exemplu: Vom crea un tabel care să conţină informaţii generale despre pacienţii luaţi în evidenţa unui spital. În structura acestui tabel dorim să introducem următoarele câmpuri: NUME, PRENUME DATA NASTERII VARSTA SEX DOMICILIU JUDET LOCALITATE CAS ANAMNEZĂ INALTIME GREUTATE BMI GLICEMIE COLESTEROL SUSPECT DIABET COLESTEROL MARIT Descriem în continuare cum se poate defini fiecare câmp în parte:. Câmpul NUME, PRENUME: deoarece va conţine numele şi prenumele persoanelor care urmează a fi luate în evidenţă, tipul de dată cel mai adecvat este tipul Text. 64 Baze de date Microsoft Access. Noţiuni generale.

166 Dintre proprietăţile auxiliare ale acestuia, este bine să stabilim şi dimensiunea câmpului (proprietatea Field Size, vezi figura) pentru a nu se aloca o dimensiune mult mai mare decât este necesar. Am stabilit dimensiunea câmpului la 50 de caractere, spaţiu suficient pentru a tipări nume şi prenume de persoane dacă nu am fi personalizat această proprietate, dimensiunea implicită a câmpului ar fi fost cea maximă, adică 55 caractere. Figura -5. Definirea proprietăţilor auxiliare a unui câmp. Câmpul DATA NASTERII: tipul de dată adecvat este DateTime. Figura -6. Definirea proprietăţilor auxiliare a unui câmp de tip DateTime Există mai multe formate de dată calendaristică, care pot fi accesate şi modificate prin proprietatea «Format» (vezi figura). Formatul implicit este «Short Date», dar dacă este cazul, acesta poate fi înlocuit cu una dintre celelalte şase alternative. Baze de date Microsoft Access. Noţiuni generale. 65

167 3. Câmpul VARSTA: va fi de tip Number. Pentru câmpurile numerice este util de particularizat două proprietăţi: Field Size şi Format. Proprietatea Field Size stabileşte tipul şi mărimea valorilor numerice care vor putea fi introduse în câmpul respectiv, conform următorului tabel: Byte Numere ÎNTREGI, între 0 şi 55 Integer Numere ÎNTREGI, între şi Long Integer Numere ÎNTREGI, între şi Decimal Numere REALE, între 0^8 şi 0^8, cu precizie de 8 zecimale Single Numere REALE, între E38 şi.4098 E 45 (valori negative) şi între.4098 E 45 şi E38 (valori pozitive), cu precizie de 7 zecimale Double Numere REALE, între E308 şi E 34 (valori negative) şi între E 34 şi E308 (valori pozitive), cu precizie de 5 zecimale În cazul nostru, deoarece este vorba de vârsta pacienţilor, tipul Byte este suficient pentru a introduce valori în acest câmp (vezi figura de mai jos). Figura -7. Definirea proprietăţilor auxiliare a unui câmp de tip Number Proprietatea Format stabileşte modul de afişare a valorilor numerice cu care se lucrează. Dacă nu se personalizează, opţiunea implicită este General Number (vezi figura de mai jos). 66 Baze de date Microsoft Access. Noţiuni generale.

168 Figura -8. Definirea modului de afişare a unui câmp de tip Number 4. Câmpul SEX: Va avea doar două valori posibile, M (pentru masculin) şi F (pentru feminin). Ca principiu de lucru în proiectarea bazelor de date, se urmăreşte în general ca informaţia să fie introdusă în maniera cea mai concisă posibil, folosindu-se prescurtări sau coduri numerice ori de câte ori este posibil pentru a se micşora la maximum timpul de introducere a datelor şi a se minimiza riscul de eroare. Tot din aceleaşi considerente, deşi am fi tentaţi să definim acest câmp de tip Text, eventual cu dimensiunea, un tip de dată încă mai adecvat ar fi Lookup Wizard, care elimină complet riscul de eroare, deoarece nu permite utilizatorului decât să selecteze una dintre cele două valori posibile stabilite în faza de proiectare a bazei de date, respectiv M şi F (vezi figura). Etapele de personalizare [] a unui câmp de tip Lookup Wizard :. Se stabileşte locul de unde să fie încărcate valorile predefinite ale câmpului dintr-un alt tabel, sau introduse manual. Figura -9. Crearea câmpului de tip Lookup Wizard Baze de date Microsoft Access. Noţiuni generale. 67

169 . Se stabilesc valorile care vor fi afişate în lista derulantă şi eventual se modifică dimensiunile fizice ale acesteia. De obicei este suficientă utilizarea unei singure coloane de valori. Figura -0. Stabilirea valorilor listei derulante a câmpului de tip Lookup Wizard 3. Se stabileşte, dacă este cazul, o etichetă pentru câmpul de tip Lookup (de obicei aceasta se lasă identică cu numele câmpului). Este de asemeni utilă limitarea valorilor posibile care vor fi tipărite în câmp la cele din lista derulantă (pentru a se reduce la maximum riscul de introducere a valorilor eronate) şi interzicerea introducerii de valori multiple (un alt principiu de lucru în proiectarea bazelor de date este acela de a memora, pe cât posibil, valori singulare în câmpurile unui tabel când este totuşi necesară introducerea de valori multiple fiind mai bine să se adauge câmpuri suplimentare la tabel). Figura -. Stabilirea etichetei câmpului de tip Lookup Wizard 68 Baze de date Microsoft Access. Noţiuni generale.

170 4. Rezultatul acestei operaţiuni: La introducerea înregistrărilor, în coloana Sex avem în dreptul fiecărei înregistrări o listă derulantă de tip ComboBox cu valorile posibile, dintre care se va selecta valoarea dorită. Figura -. Vizualizarea listei derulante pentru câmpul de tip Lookup Wizard 5. Câmpurile DOMICILIU, JUDET: se pot defini tot de tip Text sau Lookup Wizard; la DOMICILIU valorile posibile vor fi U (pentru mediul urban) şi R (pentru mediul rural), iar la JUDET se va încărca lista tuturor judeţelor din România. 6. Câmpul LOCALITATE: este de tip Text, cu dimensiunea de 5 caractere (spaţiu suficient pentru a scrie nume de localităţi din România). 7. Câmpul CAS: prin acest câmp dorim să bifăm pacienţii care beneficiază de asigurare de sănătate; prin urmare, tipul de dată cel mai adecvat este Yes/No. În funcţie de natura informaţiilor dintr-un câmp de tip Yes/No, se poate opta între 3 formatări disponibile de afişare a datelor: True/False, Yes/No sau On/Off, deşi acestea, indiferent de formatul selectat, vor fi introduse în acelaşi mod prin bifarea unui control de tip CheckBox (vezi figura). Figura -3. Setarea formatului de data de tip Yes/No Baze de date Microsoft Access. Noţiuni generale. 69

171 8. Câmpul ANAMNEZA: În acest câmp va fi descrisă anamneza bolii; deoarece este necesar un spaţiu mai mare, pentru introducerea unor caracterizări potenţial complexe, tipul de dată cel mai adecvat va fi Memo. Fiind vorba de un câmp de tip text, cu lungime mare, nu este necesară specificarea altor proprietăţi suplimentare. 9. Câmpul INALTIME: Se va introduce înălţimea pacienţilor, exprimată în metri prin urmare, tipul de dată adecvat va fi Number, şi, pentru a putea lucra cu numere reale, este obligatoriu să folosim un format adecvat de exemplu, formatul Double în proprietatea Field Size şi să precizăm numărul de cifre cu care dorim să exprimăm partea zecimală a valorilor introduse, în proprietatea Decimal Places de exemplu cifre (vezi figura). Figura -4. Setarea proprietăţilor auxiliare pentru câmpul de tip numeric 0. Câmpurile GREUTATE, GLICEMIE, COLESTEROL: se vor introduce valori numerice, întregi, prin urmare tipul cel mai potrivit de dată este Number cu formatul Long Integer pentru a putea introduce valori suficient de mari dacă este cazul. De multe ori, în cazul în care se lucrează cu valori numerice (dar şi cu valori de tip Text), în ideea de a se controla rata erorilor care pot apare la încărcarea datelor în tabel se introduce în descrierea câmpurilor o regulă de validare (prin personalizarea proprietăţii Validation Rule ), astfel încât să nu fie acceptate în câmpul respectiv decât valorile care satisfac acea regulă de validare în cazul în care regula nu este satisfăcută, fiind afişat un mesaj de atenţionare, stabilit prin personalizarea proprietăţii Validation Text. Astfel, convenim că greutatea unei persoane nu poate depăşi valoarea 000 kg. Regula de validare şi textul de validare vor fi definite conform figurii de mai jos: 70 Baze de date Microsoft Access. Noţiuni generale.

172 Figura -5. Setarea proprietăţilor auxiliare pentru câmpul de tip numeric Rezultatul definirii acestei reguli de validare este indicat în figura de mai jos şi se manifestă în etapa de introducere a datelor, atunci când sunt introduse valori care nu satisfac regula de validare definită: Figura -6. Mesaj de nerespectarea setării de validare Convenim că glicemia unei persoane se exprimă în mg/dl, ceea ce înseamnă că plaja de variaţie a sa va fi între 0 şi 000. Regula de validare şi textul de validare vor fi definite conform figurii de mai jos: Figura -7. Setarea regulii de validare pentru glicemie Baze de date Microsoft Access. Noţiuni generale. 7

173 . Câmpul BMI: Se vor introduce valorile BMI, calculate pe baza înălţimii şi a greutăţii pacienţilor. Se cunoaşte formula de calcul a Indicelui de Masă Corporală (BMI): BMI = Greutatea (kg) / (Înălţime (m) x Înălţime (m)). O posibilitate este de a calcula valorile manual, pentru fiecare pacient în parte, şi de a le introduce în câmpul BMI de tip Number, dar mult mai comod este să calculăm automat aceste valori, definind câmpul BMI de tip Calculated şi introducând în proprietatea Expression formula de calcul a acestuia, construită pe baza valorilor existente în celelalte câmpuri ale tabelului (vezi figura). Figura -8. Setarea expresiei de calcul a BMI Editarea de expresii [0] nu este foarte dificilă în Access, realizânduse într-o fereastră de construcţie, numită Expression Builder, care permite combinarea în expresii matematice a câmpurilor unui tabel indicate prin numele lor, scris între paranteze pătrate [ ], precum şi a funcţiilor, constantelor şi operatorilor disponibili în program (vezi figura). Figura -9. Editarea expresiilor cu Expression Builder, 7 Baze de date Microsoft Access. Noţiuni generale.

174 . Câmpul SUSPECT DIABET: Se va completa cu DA dacă glicemia înregistrată a persoanei este peste valoarea 0 şi cu NU în caz contrar; poate fi definit ca un câmp de tip text care se completează manual pentru fiecare pacient în parte, sau poate fi definit tot ca un câmp de tip Calculated, care se va completa automat prin evaluarea funcţiei din figura de mai jos. Figura -0. Definirea câmpului de tip Calculated Pentru calcularea sa am folosit funcţia IIF() disponibilă în Access, care are sintaxa: IIF (expresie, adevărat, fals), cu următoarea semnificaţie: Expresie: este o expresie matematică, ce va fi evaluată: în cazul nostru am folosit expresia [glicemie] > 0; Adevărat: este o valoare sau o expresie care va fi returnată în cazul în care expresia evaluată iniţial este adevărată: în cazul nostru dorim să afişăm textul DA; Fals: este o valoare sau o expresie care va fi returnată în cazul în care expresia evaluată iniţial este falsă: în cazul nostru dorim să afişăm textul NU. 3. Câmpul COLESTEROL MARIT: Se va completa cu DA dacă colesterolul înregistrat al persoanei este peste valoarea 00 şi cu NU în caz contrar; cel mai eficient este să definim şi acest câmp tot de tip Calculated şi să îl calculăm folosind funcţia IIF (vezi figura de mai jos). Figura -. Definirea câmpului de tip Calculated Baze de date Microsoft Access. Noţiuni generale. 73

175 Sortarea înregistrărilor Sortarea are ca efect aranjarea înregistrărilor într-o ordine astfel încât valorile din câmpul după care se face sortarea să se afle în ordinea dorită [8]. Sortarea se poate face în ordine crescătoare sau descrescătoare astfel []:. se selectează câmpul după care se va face sortarea (criteriu sau cheie a sortării),. se declanşează sortarea în ordinea dorită (vezi figura de mai jos). Figura -. Sortarea înregistrărilor In figura de mai jos sunt ilustrate butoanele utilizate pentru sortarea crescătoare, descrescătoare şi pentru eliminarea sortării şi revenirea la ordinea iniţială. Figura -3. Tabel cu date în Microsoft Acces Filtrarea înregistrărilor Filtrarea permite afişarea doar a înregistrărilor care satisfac un criteriu (condiţie) de filtrare. Selectând câmpul după care se doreşte filtrarea şi apoi alegând Filter va fi afişat dialogul cu opţiunile de filtrare. Aici sunt listate valorile distincte din 74 Baze de date Microsoft Access. Noţiuni generale.

176 câmpul selectat. Prin bifarea sau debifarea lor, realizăm filtrarea înregistrărilor pe baza valorilor respective. O altă metodă de filtrare presupune activarea comenzii Text Filters sau Number Filters din meniul de filtrare. În continuare, trebuie ales un operator de tipul: Equals (egal cu), Does Not Equal (diferit de), Less Than (mai mic decât), Greater Than (mai mare decât), Between (în intervalul). Se va introduce apoi operandul, adică valoare asupra căreia acţionează operatorul selectat (vezi figura de mai jos). Figura -4. Filtrarea înregistrărilor Figura -5. Tabel cu date în Microsoft Access Pentru eliminarea filtrului definit la nivelul unui câmp al unui tabel se foloseşte butonul Toggle Filter din meniu-ul superior. Figura -6. Eliminarea filtrului definit Baze de date Microsoft Access. Noţiuni generale. 75

177 Alte operaţii referitoare la înregistrările unui tabel (Secţiunile Records şi Find) Figura -7. Secţiunile Records şi Find a) Adăugarea de înregistrări noi: În momentul în care se începe editarea conţinutului unei înregistrări într-un tabel, după aceasta se adaugă automat o linie nouă, vidă, pe care urmează a se introduce o nouă înregistrare. Comanda New din meniu-ul superior are exact acelaşi efect,, cu singura deosebire că, în plus, cursorul se mută pe linia nou-introdusă în tabel pentru a se începe editarea acesteia. b) Ştergerea unei înregistrări: Se selectează înregistrarea (linia) din tabel pe care dorim să o ştergem, după care se foloseşte comanda Delete,. În acest moment va apare un mesaj de confirmare a ştergerii (vezi figura), prin care suntem avertizaţi că, din momentul în care efectuăm ştergerea datele nu vor mai putea fi recuperate, pentru a se evita eventualele ştergeri accidentale. Figura -8. Confirmarea ştergerii unei înregistrări c) Salvarea înregistrărilor: Se foloseşte dacă dorim în mod explicit să salvăm doar conţinutul tabelului curent din baza de date, folosind comanda Save. În mod normal, salvarea globală a fişierului care conţine întreaga bază de date, folosind comanda generală de salvare,, presupune şi salvarea modificărilor din tabelele bazei de date, deci poate fi folosită ca înlocuitor al comenzii specializate de salvare fără nici un fel de dificultăţi. 76 Baze de date Microsoft Access. Noţiuni generale.

178 d) Poziţionarea pe o anumită înregistrare din tabel: Se realizează folosind comanda Go To,, cu opţiunile: First: ne poziţionăm pe prima înregistrare din tabel Last: ne poziţionăm pe ultima înregistrare din tabel Previous: ne poziţionăm pe înregistrarea anterioară celei curente; Next: ne poziţionăm pe înregistrarea care o urmează pe cea curentă; New: se adaugă o nouă înregistrare, vidă, la finalul tabelului şi ne poziţionăm pe ea. e) Select all: Este o opţiune a comenzii Select, prin care se selectează întregul conţinut al tabelului echivalentă cu combinaţia de taste CTRL+A sau cu click pe pătratul din colţul din stânga-sus al tabelului (similar cu comanda de selectare a unui tabel în Excel) vezi figura. Figura -9. Modul de afişare a selecţiei totale f) Căutarea unei valori specifice într-un tabel: Se realizează folosind comanda Find, după care se precizează modul în care urmează a se realiza căutarea respectivă: În secţiunea Find What : se indică valoarea pe care dorim să o căutăm; În secţiunea Look In : se indică locul în care se va realiza căutarea în câmpul selectat al tabelului, Current field, sau în întregul tabel, Current document ; În secţiunea Match : se indică modul în care se va realiza căutarea se caută potrivirile exacte ale valorilor din câmpuri cu valoarea căutată, Whole Field, câmpurile care încep cu valoarea căutată, Start of Field, sau câmpurile care conţin în interiorul lor valoarea căutată, Any Part of Field. Baze de date Microsoft Access. Noţiuni generale. 77

179 Figura -30. Setarea ferestrei Find g) Înlocuirea unei valori specifice într-un tabel cu o valoare nouă: Se realizează folosind comanda Replace, aceleaşi informaţii ca la comanda Fiind., specificând Figura -3. Setarea ferestrei Replace h) Realizarea de calcule cu valorile dintr-un tabel: Se foloseşte comanda Totals,, care adaugă la finalul tabelului o linie de totaluri în care se pot calcula rezultatele următoarelor funcţii: Pentru câmpuri de tip Text, Memo sau Yes/No: Se calculează funcţia COUNT, adică numărul înregistrărilor care au valori nevide în câmpul respectiv (de tip Text sau Memo) sau care au controlul de tip CheckBox bifat (câmpuri de tip Yes/No); Pentru câmpuri de tip Number: Se calculează oricare dintre următoarele funcţii disponibile: SUM (suma valorilor din câmpul respectiv), 78 Baze de date Microsoft Access. Noţiuni generale.

180 AVERAGE (valoarea medie), COUNT (numărul valorilor nevide), MAXIMUM (valoarea maximă), MINIMUM (valoarea minimă), STANDARD DEVIATION (deviaţia standard), VARIANCE (varianţa). Pentru câmpuri de tip Date/Time: Se calculează oricare dintre funcţiile COUNT, AVERAGE, MINIMUM sau MAXIMUM. Aceste calcule se realizează în mod implicit pentru toate înregistrările tabelului, dar dacă definim filtre pe câmpurile acestuia, calculele vor fi reactualizate doar pentru înregistrările care îndeplinesc criteriile de filtrare specificate. EXERCIŢII. Sa se creeze o bază de date Access cu o tabelă având următoarea structură: ID - Long Integer; CNP - Text (3); Nume - Text (0); Prenume - Text (0); DataNasterii - DateTime; Sex - Text (); Casatorit - Boolean Greutate - Numeric, Single; Diagnostic - Memo.. Să se încarce structura creată cu 0 înregistrări. 3. Să se deschidă baza de date pers.accdb. 4. Să se sorteze înregistrările din pers.accdb, tabela Pers, după valorile din câmpul Ocupatie, în ordine crescătoare (A->Z). 5. Să se sorteze înregistrările din pers.accdb, tabela Pers, după valorile din câmpul Inaltime, în ordine descrescătoare. 6. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să fie afişate doar persoanele casnice şi pensionarii. 7. Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să fie afişate doar persoanele cu înălţimea mai mare decât Să se filtreze înregistrările din pers.accdb, tabela Pers, astfel încât să fie afişate doar persoanele cu greutatea în intervalul [70,80]. Baze de date Microsoft Access. Noţiuni generale. 79

181 BAZE DE DATE MICROSOFT ACCESS. RELAŢIONAREA TABELELOR Noţiuni prezentate: Relaţii între tabele Bazele de date folosite în practică sunt adesea containere foarte vaste de informaţie care conţin sute de mii sau milioane de înregistrări, structurate pe zeci sau sute de câmpuri. De aceea este esenţială identificarea unor metode cât mai eficiente pentru manevrarea rapidă a acestor colecţii de date. Astfel s-a născut conceptul de modelare a unei baze de date cu instrumente de natură matematică, care constă în specificarea unei structuri logice după care informaţia din aceasta să fie organizată, în vederea creării, actualizării şi consultării sale cât mai simple şi rapide. Cele mai cunoscute modele de baze de date sunt modelul ierarhic, modelul reţea, modelul relaţional şi modelul obiectual în prezent, primele două nu se mai utilizează, cel mai eficient şi răspândit model de baze de date fiind modelul relaţional [8]. Acest model, creat în 970 de matematicianul E.F.Codd, se bazează pe noţiunea matematică de relaţie n-ară şi are în vedere fracţionarea tabelelor de date în tabele mai mici, care să conţină în general informaţii omogene şi din care să poată fi reconstituit în orice moment tabelul iniţial fără nici un risc de amestecare a informaţiilor. De exemplu, un tabel cu informaţii despre pacienţii unui spital ar trebui să conţină următoarele categorii de informaţii: datele administrative ale pacientului: date personale de identificare şi date financiare (situaţia asigurării sale de sănătate) datele medicale permanente: înregistrările unor parametri biologici constanţi pe parcursul vieţii individului şi care nu sunt afectaţi de starea de sănătate sau de boală a acestuia: rasă, înălţime, grupă de sânge, măsurători antropometrice (ex. măsurători faciale în ortodonţie) date medicale variabile: înregistrările unor parametri biologici care sunt afectaţi de starea de boală a pacientului, fiind chiar un indicator al gravităţii acesteia şi al eficienţei tratamentului administrat: rezultatele examenului fizic, analize de laborator, imagini (radiografii, RMN-uri, CT-uri, scintigrame), înregistrări ale semnalelor biologice (EKG, ECG, etc.). În majoritatea situaţiilor sunt necesare chiar mai multe determinări pentru aceşti parametri, tocmai pentru a se putea cuantifica evoluţia bolii. 80 Baze de date Microsoft Access. Relaţionarea tabelelor.

182 date privind spitalizarea şi costurile acesteia date privind tratamentul administrat: medicamente, doze, perioade, costuri, furnizori. Este clar că utilizarea unui singur tabel care să conţină toate aceste informaţii este foarte dificilă, astfel încât se recomandă structurarea datelor în mai multe tabele, care să conţină informaţiile similare. De exemplu, datele administrative ale pacienţilor pot fi stocate într-un tabel denumit Pacienţi, datele medicale permanente într-un tabel separat denumit Med_permanente, iar datele medicale variabile, în funcţie de natura lor, în tabele separate numite Examen_fizic, Laborator, Imagistica, Tratament etc. Vorbim astfel despre baze de date relaţionale. Problema majoră care apare este însă aceea de a pune în legătură informaţiile/înregistrările din aceste tabele astfel încât să ştim, fără nici o posibilitate de eroare, cărei înregistrări din tabelul Pacienţi îi corespunde o înregistrare din tabelul Med_permanente, din tabelul Examen_fizic şi aşa mai departe. Această sincronizare se face prin crearea unei relaţii între tabele, două câte două. În general relaţiile între tabele sunt direcţionate dinspre un tabel, care se va numi primar, către celălalt, care se va numi legat. Condiţia pentru a putea crea o astfel de relaţie este existenţa unui câmp comun în cele două tabele pe baza căruia înregistrările vor fi sincronizate, şi care să identifice aceste înregistrări, denumit cheie de legătură. De obicei, pentru a se asigura unicitatea, câmpul comun va conţine un cod numeric de identificare în cazul unor liste de persoane acesta fiind codul numeric personal (CNP) sau, în spitale, codul foii de observaţie. De exemplu, în cazul tabelelor propuse mai sus, Pacienţi şi Med_permanente, câmpul comun este ID, un cod numeric de identificare a persoanei/pacientului (vezi figura de mai jos). Pentru a asigura unicitatea, câmpul ID va fi declarat drept cheie primară (primary key) dar numai în situaţiile în care se doreşte ca valorile din acest câmp să apară o singură dată în tabel, identificând astfel în mod unic înregistrările. Figura -. Definirea chei primare (primary key) Baze de date Microsoft Access. Relaţionarea tabelelor. 8

183 Relaţiile între tabele sunt de mai multe tipuri: Unu la Unu (One-to-One): unei înregistrări din primul tabel îi corespunde o singură înregistrare din al doilea tabel - vezi exemplul cu tabelele Pacienţi şi Med_permanente de mai sus; în acest caz este necesar ca, atât la nivelul tabelului primar cât şi la nivelul tabelului legat, cheia de legătură (respectiv câmpul ID) să fie cheie primară adică în ambele tabele să existe câte o singură înregistrare care să aibă o valoare dată pentru cheia de legătură. Unu la Mai Multe (One-to-Many): unei înregistrări din primul tabel îi corespund mai multe înregistrări din al doilea tabel acesta este cazul tabelelor Pacienţi şi Examen_fizic: tabelul Pacienţi este tabel primar, în care cheia de legătură ID este cheie primară, deoarece identifică în mod unic pacienţii, iar tabelul Examen_fizic este tabel legat, în care pentru acelaşi pacient, identificat prin cheia de legătură ID, au fost realizate pe parcursul internării mai multe examinări fizice ale căror rezultate au fost înregistrate astfel încât cheia de legătură nu poate fi definită drept primară, iar relaţia are rolul de a asocia fiecărui pacient toate examenele fizice care i-au fost efectuate. Mai Multe la Mai Multe (Many-to-Many): nici una, una sau mai multe înregistrări din prima tabelă sunt puse în corespondenţă cu nici una, una sau mai multe înregistrări din a doua tabelă acesta este cazul tabelelor Examen_fizic şi Laborator: la mai multe examene fizice efectuate pentru acelaşi pacient, identificat prin intermediul codului său numeric ID se asociază mai multe seturi de analize de laborator pentru acel pacient, identificate tot prin codul numeric ID. În acest caz, nici în tabelul primar, Examen_fizic, şi nici în tabelul legat, Laborator, cheia de legătură nu poate fi definită drept cheie primară. În practică, acest tip de relaţie între tabele nu este recomandat şi se reduce la două relaţii de tip One-to-Many prin introducerea unui tabel auxiliar între cele două tabele, denumit tabel de joncţiune, astfel încât vom defini câte o relaţie de tip One-to-Many între tabelul primar şi tabelul de joncţiune, respectiv între tabelul legat şi tabelul de joncţiune. Presupunem că avem o bază de date denumită Medicale.accdb, care conţine trei tabele după modelul de mai sus: Tabelul Pacienti, cu structura: ID NUME, PRENUME VARSTA SEX CAS Number Text Number Text Yes/No 8 Baze de date Microsoft Access. Relaţionarea tabelelor.

184 Tabelul Med_permanente, cu structura: ID Number INALTIME Number GREUTATE Number GRUPA DE SANGE Text Tabelul Examen_fizic, cu structura: ID Number TEMPERATURA Number CEFALEE Yes/No AMETEALA Yes/No DURERI DE GAT Yes/No Cheia de legătură între cele trei tabele va fi câmpul ID, tabelul primar fiind Pacienti. Între tabelele Pacienti şi Med_permanente vom defini o relaţie de tip One-to-One, iar între tabelele Pacienti şi Examen_fizic vom defini o relaţie de tip One-to-Many. Din acest motiv, în tabelele Pacienti şi Med_permanente, cheia de legătură ID este definită drept cheie primară, iar în tabelul Examen_fizic aceasta este doar cheie de legătură (fără a fi primară). Pentru definirea unei baze de date noi se foloseşte comanda File / New / Blank Database / Create, iar primul tabel, Pacienti, se defineşte în mod obişnuit (vezi capitolul anterior). Câmpul ID se defineşte drept cheie primară folosind comanda Primary Key (vezi figura). Figura -. Definirea Primary key Pentru adăugarea celorlalte două tabele în baza de date Medicale se foloseşte din meniul superior comanda Create / Table, după care tabelele se definesc similar. Baze de date Microsoft Access. Relaţionarea tabelelor. 83

185 Pasul următor îl reprezintă crearea relaţiilor. Pentru aceasta, mai întâi se închid toate cele trei tabele. Apoi, din secţiunea Database Tools se selectează comanda Relationships şi se încarcă toate cele trei tabele în zona de editare a relaţiei, folosind butonul Add (vezi figura). Figura -3. Încărcarea tabelelor bazei de date Se iniţiază crearea relaţiilor dintre tabele selectându-se cu mouse-ul câmpul comun din tabelul primar, după care acesta se trage cu mouse-ul (prin drag&drop) peste câmpul corespunzător din tabelul legat. Tipul relaţiei este stabilit în mod automat, în funcţie de modul în care sunt definite câmpurile între care se stabileşte relaţia (One-to-One dacă ambele câmpuri sunt definite drept chei primare, şi One-to-Many dacă doar câmpul din tabelul primar este definit drept cheie primară) []. Figura -4. Editarea relaţiilor 84 Baze de date Microsoft Access. Relaţionarea tabelelor.

186 În continuare se setează proprietăţile relaţiei (vezi figura). - Opţiunea Enforce Referential Integrity permite activarea unui sistem de verificare a consistenţei conţinutului celor două tabele aflate în relaţie, respectiv, dacă pentru fiecare înregistrare din tabelul părinte există o înregistrare corespondentă în tabelul legat şi reciproc; - Cascade Update Related Fields face ca modificarea conţinutului unui câmp aflat la în tabelul părinte (ID) să se propage şi în tabelul legat; - Cascade Delete Related Records propagă ştergerea înregistrărilor dintrun tabel către celălalt tabel la înregistrările corespondente. Definirea efectivă a relaţiei se realizează folosind butonul Create, după care relaţia este prezentată grafic între cele două tabele ca în figura de mai jos. Figura -5. Setarea proprietăţilor relaţiei Relaţia de tip One-to-Many se creează în aceeaşi manieră (vezi figura). Figura -6. Editarea relaţiei Dacă, la crearea relaţiilor, nu se bifează proprietatea Enforce Referential Integrity, acestea vor fi figurate doar generic, fără etichetele respectiv -. Baze de date Microsoft Access. Relaţionarea tabelelor. 85

187 Odată ce relaţiile sunt active, o înregistrare poate fi expandată prin intermediul nodului + astfel încât să fie afişată şi înregistrarea / înregistrările corespondente din celălalt tabel (vezi figura de mai jos). Figura -7. Module de afişare a înregistrărilor corespondente din mai multe tabele Editarea relaţiilor după ce acestea au fost definite se realizează prin selectarea lor, după care se foloseşte, din secţiunea Design, comanda Edit Relationships. Pentru ştergerea unei relaţii între două tabele aceasta se selectează, după care se foloseşte din secţiunea Home / Records comanda Delete. EXERCIŢII. Să se adauge în tabelele Pacienti şi Med_permanente un câmp nou numit CNP de tip Text. Să se creeze o relaţie de tip One-to-One între cele două tabele pe baza câmpului CNP.. Să se seteze ambele opţiuni Cascade Update Related Fields şi Cascade Delete Related Records după care să se verifice efectul activării acestor opţiunii. 3. Să se şteargă relaţia dintre cele două tabele. 86 Baze de date Microsoft Access. Relaţionarea tabelelor.

188 3 INTEROGĂRI SQL ÎN MICROSOFT ACCES Noţiuni prezentate: Interogări (queries) SQL O interogare (query) este un obiect Access care se construieşte în jurul unei instrucţiuni SQL, SQL (Structured Query Language) fiind un limbaj pentru accesarea bazelor de date relaţionale []. Interogările scrise în acest limbaj sunt folosite pentru extragerea de informaţii din baza de date. Pentru crearea unei interogări, în secţiunea Create, se activează butonul Query Design. Există mai multe modalităţi de a crea un query dar vom prezenta în continuare editarea directă, textuală, a query-urilor în modul SQL View. Figura 3-. Crearea interogărilor SQL Editarea se face într-o fereastră separată (vezi figura), în care interogarea se tipăreşte de la tastatură, cu respectarea unor reguli de sintaxă bine definite. Figura 3-. Editarea sintaxei interogării SQL Execuţia query-ului creat se face prin apăsarea butonului Run. Interogări SQL în Microsoft Access 87

189 Într-o fereastră de editare se poate tipări o singură interogare la un moment dat pentru tipărirea unei noi interogări trebuind activată o nouă fereastră de editare, tot cu ajutorul comenzilor Create / Query Design. Interogările SQL sunt în principal de patru tipuri: - Extragere de informaţii din baza de date: folosind comanda SELECT [3]: SELECT câmpuri FROM table_name WHERE condiţie - Adăugare de noi înregistrări într-un tabelă folosind comanda INSERT: INSERT INTO tabel (câmp, câmp,...) VALUES (valoare, valoare,...) - Modificarea conţinutului înregistrărilor unui tabel: folosind comanda UPDATE: UPDATE tabel SET câmp=valoare,câmp=valoare,...where condiţie - Ştergerea înregistrărilor dintr-un tabel: folosind comanda DELETE: DELETE FROM tabel WHERE condiţie Extragerea de informaţii dintr-o bază de date: SELECT Sintaxa generală şi simplificată a comenzii SELECT este: SELECT <listă de câmpuri> FROM <nume tabel> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC], unde: - <listă de câmpuri>: se foloseşte pentru a specifica unul sau mai multe câmpuri / coloane din tabel care vor fi selectate şi afişate prin comanda de interogare; - FROM <nume tabel>: reprezintă numele tabelului din care se aleg informaţiile care vor fi extrase şi afişate; - WHERE <condiţie>: se foloseşte pentru a indica un criteriu de filtrare a înregistrărilor / liniilor tabelului, astfel încât vor fi selectate doar înregistrările care îndeplinesc acel criteriu; - ORDER BY <lista de câmpuri> [ASC /DESC]: se foloseşte pentru a defini un criteriu de ordonare a înregistrărilor selectate din tabel, după valorile specificate în lista de câmpuri; ordinea implicită în care sunt aşezate înregistrările este cea crescătoare, [ASC], iar dacă dorim ca înregistrările să fie aşezate în ordine descrescătoare trebuie să folosim parametrul [DESC]. Observaţie: Utilizarea tuturor acestor parametri într-o interogare nu este obligatorie, în schimb ordinea de utilizare a lor trebuie să fie cea din sintaxa de mai sus în cazul în care ordinea este inversată, interogarea generând un mesaj de eroare []. 88 Interogări SQL în Microsoft Access

190 În cele ce urmează vom lucra cu tabelul PERSOANE, pe care l-am creat în capitolul. a) Selectarea unuia sau mai multor câmpuri dintr-un tabel al unei baze de date: Se realizează folosind comanda SELECT sub forma: SELECT <listă de câmpuri> FROM <nume tabel>, unde: - Câmpurile se precizează indicând exact numele lor, separate prin virgulă; - Dacă se lucrează cu câmpuri având numele format dintr-un singur cuvânt (nume simple), este suficient să precizăm în comanda SELECT doar numele acestora: Exemplu: Pentru a afişa, din tabelul PERSOANE, vârsta, sexul şi anamneza pacienţilor, interogarea va avea sintaxa: SELECT VARSTA, SEX, ANAMNEZA FROM PERSOANE - Dacă se lucrează cu câmpuri având numele format din mai multe cuvinte şi eventual alte semne de punctuaţie (nume compuse), în mod obligatoriu acestea vor trebui incluse între paranteze pătrate: Exemplu: Pentru a afişa, din tabelul PERSOANE, numele şi prenumele, data naşterii şi vârsta pacienţilor, interogarea va avea sintaxa: SELECT [NUME, PRENUME], [DATA NASTERII], VARSTA FROM PERSOANE - Regula sintactică completă pentru a specifica numele unui câmp al unui tabel presupune, în general, şi indicarea numelui tabelului din care provine acesta, într-o construcţie de forma: nume tabel.[nume câmp] Unele dintre aceste elemente sunt facultative, după cum am descris în situaţiile anterioare, dar comenzile SELECT complete ar fi fost: SELECT PERSOANE.[VARSTA], PERSOANE. [SEX], PERSOANE.[ANAMNEZA] FROM PERSOANE respectiv SELECT PERSOANE.[NUME, PRENUME], PERSOANE.[DATA NASTERII], PERSOANE.[VARSTA] FROM PERSOANE Interogări SQL în Microsoft Access 89

191 - Dacă dorim să selectăm şi să afişăm toate câmpurile dintr-un tabel, nu este necesar să indicăm numele lor în mod explicit, fiind suficient să folosim semnul *: SELECT * FROM PERSOANE b) Selectarea înregistrărilor care îndeplinesc o anumită condiţie dintr-un tabel al unei baze de date Se realizează folosind comanda SELECT sub forma: SELECT <listă de câmpuri> FROM <nume tabel> WHERE <condiţie>, unde condiţia este o expresie în Access, scrisă folosind regulile de editare ale acesteia, care depind în principal de tipul de dată al câmpurilor utilizate. Forma generală a unei condiţii în Access este: [nume câmp] operator <expresie> sau, în cazul în care se doreşte combinarea mai multor condiţii, <condiţie > AND <condiţie > AND AND <condiţie n> când se doreşte ca aceste condiţii să fie îndeplinite simultan, respectiv <condiţie > OR <condiţie > OR OR <condiţie n> când se doreşte ca măcar una dintre aceste condiţii să fie îndeplinită, fiecare dintre condiţiile specificate, <condiţie >, <condiţie >, <condiţie n> fiind de forma indicată mai sus: [nume câmp] operator <expresie>. Reguli pentru construirea de expresii folosind câmpuri de tip Text sau Memo: - Valoarea căutată în câmpul respectiv se va specifica întotdeauna între ghilimele, - Pentru a se căuta potrivirile exacte se foloseşte operatorul = Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume este popescu, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [NUME, PRENUME] = POPESCU - Pentru a se căuta potrivirile parţiale se foloseşte operatorul LIKE şi simbolurile de tip wildcard : *, care înlocuieşte orice şir de caractere, de lungime neprecizată, respectiv?, care înlocuieşte un singur caracter: Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume începe cu litera P, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [NUME, PRENUME] LIKE P* 90 Interogări SQL în Microsoft Access

192 Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume NU începe cu litera P, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [NUME, PRENUME] NOT LIKE P* Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume se termină cu literele escu, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [NUME, PRENUME] LIKE *ESCU Pentru a afişa, din tabelul PERSOANE, pacienţii al căror nume începe cu literele D, E, F sau G, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [NUME, PRENUME] LIKE [D-G]* (când dorim să indicăm un caracter care aparţine unui şir de caractere, este suficient să precizăm şirul respectiv între paranteze pătrate [], iar dacă şirul conţine caractere consecutive, se vor indica doar primul şi ultimul caracter, iar între ele se pune semnul -). - Pentru a se căuta potrivirile multiple, se poate folosi operatorul IN, urmat o listă de şiruri de caractere, ceea ce înseamnă că vor fi selectate toate înregistrările care conţin în câmpul specificat unul dintre şirurile de caractere indicate în listă: Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care au în anamneză febra sau cefalee, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE ANAMNEZA IN ( FEBRA, CEFALEE ) sau SELECT * FROM PERSOANE WHERE ANAMNEZA = FEBRA OR ANAMNEZA = CEFALEE Reguli pentru construirea de expresii folosind câmpuri de tip Number sau AutoNumber: - Valoarea căutată în câmpul respectiv se va specifica direct, fără ghilimele; - Operatorii disponibili sunt: =, <>, <, <=, >, >=, BETWEEN: Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta de 30 de ani, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE VARSTA=30 Interogări SQL în Microsoft Access 9

193 Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta peste 30 de ani, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE VARSTA >=30 Pentru a afişa, din tabelul PERSOANE, pacienţii cu vârsta între 30 şi 35 de ani, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE VARSTA BETWEEN 30 AND 35 sau SELECT * FROM PERSOANE WHERE VARSTA >= 30 AND VARSTA <= 35 Reguli pentru construirea de expresii folosind câmpuri de tip Date/Time: - Valoarea căutată în câmpul respectiv se va specifica între semnele # #; - Operatorii disponibili sunt = şi BETWEEN, la care se pot adăuga funcţiile care utilizează date calendaristice, respectiv: YEAR(dată calendaristică) returnează anul din data calendaristică introdusă; MONTH(dată calendaristică) returnează luna din data calendaristică introdusă; DAY(dată calendaristică) returnează ziua din data calendaristică introdusă; DATE() returnează data curentă a sistemului; NOW() returnează data şi ora curentă a sistemului. Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut pe 0 iunie 000, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [DATA NASTERII] = #6/0/000# Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în luna iunie 000, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE [DATA NASTERII] BETWEEN #6//000# AND #6/30/000# Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în anul 000, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE YEAR([DATA NASTERII]) = Interogări SQL în Microsoft Access

194 Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în luna iunie, indiferent de an, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE MONTH([DATA NASTERII]) = 6 Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut într-o zi de 3, indiferent de lună şi an, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE DAY([DATA NASTERII]) = 3 Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în anul curent, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE YEAR([DATA NASTERII]) = YEAR(DATE()) Reguli pentru construirea de expresii folosind câmpuri de tip Yes/No: - Valoarea căutată în câmpul respectiv se va specifica direct; indiferent de formatul indicat pentru câmp, valorile YES, TRUE şi ON sunt echivalente, la fel ca şi valorile NO, FALSE şi OFF; - Operatorii disponibili sunt = şi <>. Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care au asigurare de sănătate, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE CAS = YES Pentru a afişa, din tabelul PERSOANE, pacienţii care nu au asigurare de sănătate, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE CAS = NO Condiţiile de filtrare a înregistrărilor dintr-un tabel pot fi combinate fără nici un fel de restricţii, şi se pot referi la mai multe câmpuri ale tabelului; de asemenea, ele pot fi combinate şi cu selectarea anumitor câmpuri din tabel, nefiind obligatorie afişarea tuturor câmpurilor atunci când selectăm înregistrări dintr-un tabel. Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii de sex feminin şi cu vârsta peste 30 de ani, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE SEX= F AND VARSTA>30 Interogări SQL în Microsoft Access 93

195 Pentru a afişa, din tabelul PERSOANE, numele pacienţilor de sex feminin şi cu vârsta peste 30 de ani, interogarea va avea sintaxa: SELECT [NUME, PRENUME] FROM PERSOANE WHERE SEX= F AND VARSTA>30 c) Afişarea în ordine a înregistrărilor selectate dintr-un tabel: Se realizează folosind comanda SELECT sub forma: SELECT <listă de câmpuri> FROM <nume tabel> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC] Exemplu: Pentru a afişa, din tabelul PERSOANE, toţi pacienţii în ordine alfabetică, interogarea va avea sintaxa: SELECT * FROM PERSOANE ORDER BY [NUME, PRENUME] Pentru a afişa, din tabelul PERSOANE, pacienţii cu asigurare de sănătate în ordinea crescătoare a vârstelor, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE CAS = YES ORDER BY VARSTA Pentru a afişa, din tabelul PERSOANE, pacienţii cu asigurare de sănătate în ordinea descrescătoare a vârstelor, interogarea va avea sintaxa: SELECT * FROM PERSOANE WHERE CAS = YES ORDER BY VARSTA DESC d) Copierea informaţiilor selectate prin SELECT într-un tabel nou al bazei de date curente: Se realizează adăugând o nouă clauză la comanda SELECT, sub forma: SELECT <listă de câmpuri> INTO <tabel nou> FROM <nume tabel> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC], unde: Observaţie: Câmpurile autocalculate nu pot fi inserate în tabele noi folosind clauza INTO. 94 Interogări SQL în Microsoft Access

196 Exemplu: Pentru a copia, din tabelul PERSOANE, numele, data naşterii şi anamneza tuturor pacienţilor de sex feminin, în ordine crescătoare a vârstelor, într-un alt tabel din baza de date curentă, denumit FEMEI, interogarea va avea sintaxa: SELECT [NUME, PRENUME], [DATA NASTERII], ANAMNEZA INTO FEMEI FROM PERSOANE WHERE SEX= F ORDER BY VARSTA e) Folosirea comenzii SELECT împreună cu funcţii de agregare, pentru realizarea de calcule într-o bază de date: Comanda SELECT poate fi folosită indicând, în locul listei de câmpuri, o listă de funcţii (identice cu cele din comanda Totals, de realizare de calcule pentru conţinutul unui tabel), cu acelaşi rezultat de realizare a calculelor respective. Funcţiile disponibile sunt [0]: COUNT() determină numărul de înregistrări din tabel care îndeplinesc o anumită condiţie; AVG() determină valoarea medie dintr-un câmp numeric al unei baze de date; MIN() determină valoarea minimă dintr-un câmp numeric al unei baze de date; MAX() determină valoarea maximă dintr-un câmp numeric al unei baze de date; STDEV() determină deviaţia standard a unui câmp numeric al unei baze de date; VAR() determină varianţa unui câmp numeric al unei baze de date; SUM() determină suma valorilor unui câmp numeric al unei baze de date. Exemplu: Pentru a calcula, în tabelul PERSOANE, numărul pacienţilor de sex feminin, interogarea va avea sintaxa: SELECT COUNT( ) FROM PERSOANE WHERE SEX= F Pentru a calcula, în tabelul PERSOANE, vârsta medie, minimă şi maximă ale pacienţilor de sex feminin, interogarea va avea sintaxa: SELECT AVG(VARSTA), MIN(VARSTA), MAX(VARSTA) FROM PERSOANE WHERE SEX= F Interogări SQL în Microsoft Access 95

197 Pentru a calcula, în tabelul PERSOANE, deviaţia standard, varianţa şi suma vârstelor pacienţilor de sex feminin, interogarea va avea sintaxa: SELECT STDEV(VARSTA), VAR(VARSTA), SUM(VARSTA) FROM PERSOANE WHERE SEX= F f) Folosirea comenzii SELECT pentru extragerea de informaţii din două tabele ale aceleiaşi baze de date, care sunt legate printr-o relaţie: Pentru această operaţie este necesar să folosim comanda SELECT adăugând clauza JOIN, după cum urmează: SELECT <listă de câmpuri> FROM <nume tabel> INNER JOIN <nume tabel> ON <regula de corespondenţă> WHERE <condiţie> ORDER BY <lista de câmpuri> [ASC /DESC] În fapt, există trei variante de combinare a înregistrărilor din două tabele care sunt legate printr-o relaţie [8]: INNER JOIN: combină înregistrările din cele două tabele ori de câte ori acestea au aceeaşi valoare în câmpul comun al celor două tabele; LEFT JOIN: foloseşte acelaşi principiu, doar că include toate înregistrările din primul tabel, chiar dacă pentru unele dintre ele nu există valori cu care să se potrivească în câmpul comun din al doilea tabel; RIGHT JOIN: foloseşte acelaşi principiu, doar că include toate înregistrările din al doilea tabel, chiar dacă pentru unele dintre ele nu există valori cu care să se potrivească în câmpul comun din primul tabel. Prin urmare, INNER JOIN este varianta adecvată de combinare a înregistrărilor dacă cele două tabele sunt legate printr-o relaţie de tip oneto-one, în timp ce LEFT JOIN şi RIGHT JOIN sunt variantele adecvate de combinare a înregistrărilor dacă cele două tabele sunt legate printr-o relaţie de tip one-to-many; de obicei este de preferat combinarea înregistrărilor prin LEFT JOIN celei prin RIGHT JOIN, pentru a nu se pierde înregistrările din tabelul primar pentru care nu există corespondenţe în tabelul legat, dar există şi situaţii speciale în care varianta RIGHT JOIN este mai potrivită în funcţie de modul de proiectare a tabelelor şi de obiectivele concrete pe care le urmărim la unificarea lor. <Regula de corespondenţă> indică numele câmpului comun al celor două tabele, în care se vor căuta valorile identice după care să se facă potrivirea înregistrărilor. 96 Interogări SQL în Microsoft Access

198 Deoarece în această situaţie comanda SELECT foloseşte câmpuri din două tabele diferite ale unei baze de date, pentru a nu avea erori este esenţial să utilizăm numele complete ale câmpurilor cu care se lucrează, precizând şi tabelul din care provin acestea. În rest, celelalte clauze ale comenzii SELECT se pot folosi la fel ca în exemplele anterioare. Exemplu: Avem tabelele PACIENTI şi MED_PERMANENTE, legate printr-o relaţie de tip one-to-one. Dorim să afişăm numele, vârsta, înălţimea şi greutatea persoanelor cu grupa de sânge B; interogarea va avea sintaxa: SELECT PACIENTI.[NUME, PRENUME], PACIENTI.VARSTA, MED_PERMANENTE.INALTIME, MED_PERMANENTE.GREUTATE FROM PACIENTI INNER JOIN MED_PERMANENTE ON PACIENTI.ID = MED_PERMANENTE.ID WHERE MED_PERMANENTE.[GRUPA DE SANGE] = B Avem tabelele PACIENTI şi EXAMEN_FIZIC, legate printr-o relaţie de tip one-to-many. Dorim să afişăm numele, vârsta, şi temperatura persoanelor cu cefalee; interogarea va avea sintaxa: SELECT PACIENTI.[NUME, PRENUME], PACIENTI.VARSTA, EXAMEN_FIZIC.TEMPERATURA FROM PACIENTI LEFT JOIN EXAMEN_FIZIC ON PACIENTI.ID = EXAMEN_FIZIC.ID WHERE EXAMEN_FIZIC.CEFALEE = YES Interogări SQL în Microsoft Access 97

199 4 FORMURI ŞI RAPOARTE ÎN MICROSOFT ACCESS Noţiuni prezentate: formuri; rapoarte Formuri Cu toate că tabelele prezintă în totalitate datele conţinute în baza de date, ele sunt un mod anost şi nefinisat de afişare. Pentru un aspect profesional al interfeţei cu utilizatorul trebuie să folosim Formuri. Acestea pot fi proiectate după dorinţă, pot conţine texte explicative şi pot afişa doar acele informaţii care sunt necesare. Formurile pot executa şi anumite calcule pe baza datelor introduse. Pentru crearea unui form, vom folosi una din opţiunile din meniul Create, secţiunea Forms [4]. Există câteva tipuri de formulare predefinite (Form, Split Form, Multiple Items) dar şi posibilitatea de a crea un design de la zero pentru noul form (Form Design). Figura 4-. Meniul corespunzător creării formurilor Formularul va fi populat cu diverse obiecte numite controale (vezi figura de mai jos). Figura 4-. Obiecte (controale) necesare în crearea formurilor Aceste controale pot fi: casete de introducere a textului sau a valorilor numerice (text box), text static (label), butoane virtuale care declanşează o anumită acţiune (button), opţiuni care pot fi bifate (option button sau check box), etc. 98 Formuri şi rapoarte în Microsoft Access

200 De exemplu, formularul din imaginea de mai jos (Fişa medicală) conţine o serie de texte statice (label) care indică informaţia conţinută în text box-urile alăturate. În modul Design, conţinutul formularului şi dispunerea obiectelor în formular pot fi schimbate. Pot fi adăugate noi obiecte sau pot fi eliminate obiecte existente. De asemenea, pentru fiecare obiect pot fi afişate şi modificate proprietăţile acestuia, utilizând fereastra Property Sheet (vezi figura de mai jos). Acesta conţine de exemplu: numele obiectului (Name), sursa informaţiilor afişate de acest control (Control Source), formatul de afişare (Format), număr de zecimale afişate în cazul valorilor numerice (Decimals), dimensiunile controlului (Width, Height), etc. Figura 4-3. Modul Design a unui form (exemplu) In modul rulare, form-ul arată ca în figura de mai jos. Obiectele Nume, Ocupaţie, Greutate, Înălțime, sunt conectate cu câmpurile cu aceeaşi denumire din baza de date. În partea de jos a ferestrei există un control standard care afişează numărul curent al înregistrării afişate, numărul total de înregistrări şi oferă posibilitatea deplasării pe înregistrarea precedentă sau următoare sau pe prima, respectiv ultima înregistrare din tabelă. De asemenea controlul conţine un buton care oferă posibilitatea adăugării de noi înregistrări. Conţinutul acestora va fi introdus în casete de text din formular. Formuri şi rapoarte în Microsoft Access 99

201 Figura 4-4. Modul de rulare a unui form (exemplu) Observaţi câmpul IMC (indexul de masă corporală) din formular. Acesta conţine o valoare care nu se găseşte în baza de date ci este o valoare calculată ca greutate/pătratul înălțimii (figura de mai jos). Figura 4-5. Modul de afişare a unui câmp cu valoare calculată (Expression Builder) Această formulă se introduce în proprietatea Control Source aflată în lista de proprietăţi a casetei de text IMC. Formula poate fi editată în 00 Formuri şi rapoarte în Microsoft Access

202 fereastra Expression Builder folosind denumiri de câmpuri, operatori aritmetici şi logici, constante, etc. Figura 4-6. Modul de editare al formulei Rapoarte Rapoartele sunt modalitatea prin care informaţii din baza de date sau legate de acestea pot fi puse într-o formă potrivită pentru tipărire. Putem alege cum să fie tipărită informaţia, ce câmpuri să facă parte din raport, fonturi, dimensiuni, spaţiere, linii, casete, desene şi alte elemente grafice, etc. Rapoartele şi formurile se creează într-un mod foarte similar, introducând controale care for afişa informaţiile dorite. Un raport poate fi vizualizat în 3 moduri diferite: Design View: se poate observa şi modifica structura raportului; Print Preview: afişează raportul aşa cum va apărea după tipărire; Layout View: mod asemănător cu Print Preview dar se pot face modificări. Pe lângă caracteristicile prezente în form-uri, rapoartele mai prezintă o serie de facilităţi suplimentare: grupuri şi secţiuni; antele şi subsoluri de pagină; setarea marginilor, dimensiunii şi orientării paginii. Pentru crearea unui raport se merge la secţiunea Create şi se alege unul din butoanele pentru crearea rapoartelor. Design View - permite crearea unui raport de la zero; Report Wizard asistent pentru crearea unui raport specificând câmpurile, gruparea şi sortarea dorite; Formuri şi rapoarte în Microsoft Access 0

203 Report pentru crearea unui raport simplu pe baza tabelului sau a query-ului curent selectat. În figura de mai jos, observaţi structura unui raport în Design View, cu patru secţiuni: antetul raportului, antetul de pagină, conţinutul, subsolul paginii şi subsolul raportului. EXERCIŢII Figura 4-7. Structura (secţiunile) unui raport. Să se creeze un formular care să conţină câmpurile Nume, Ocupaţie, Greutate, Înălțime, reprezentând numele, ocupaţiile, greutăţile şi înălţimile persoanelor din baza de date.. Să se adauge două câmpuri în formular, LnG, Isq reprezentând valorile calculate Ln(Greutate) şi Înălțime^. 3. Să se adauge o imagine în colţul de sus stânga al formularului. 4. Să se adauge, folosind formularul, o nouă înregistrare în baza de date. 5. Să se creeze un raport cu acelaşi conţinut cu al formularului. 0 Formuri şi rapoarte în Microsoft Access

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice "Îmbunătăţirea proceselor şi activităţilor educaţionale în cadrul programelor de licenţă şi masterat în domeniul

More information

Modalitǎţi de clasificare a datelor cantitative

Modalitǎţi de clasificare a datelor cantitative Modalitǎţi de clasificare a datelor cantitative Modul de stabilire a claselor determinarea pragurilor minime şi maxime ale fiecǎrei clase - determinǎ modul în care sunt atribuite valorile fiecǎrei clase

More information

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A.

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A. Excel Advanced Curriculum Școala Informală de IT Tel: +4.0744.679.530 Web: www.scoalainformala.ro / www.informalschool.com E-mail: info@scoalainformala.ro Cuprins 1. Funcții Excel pentru avansați 2. Alte

More information

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin Structura și Organizarea Calculatoarelor Titular: BĂRBULESCU Lucian-Florentin Chapter 3 ADUNAREA ȘI SCĂDEREA NUMERELOR BINARE CU SEMN CONȚINUT Adunarea FXP în cod direct Sumator FXP în cod direct Scăderea

More information

Subiecte Clasa a VI-a

Subiecte Clasa a VI-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul numarului intrebarii

More information

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila MS POWER POINT s.l.dr.ing.ciprian-bogdan Chirila chirila@cs.upt.ro http://www.cs.upt.ro/~chirila Pornire PowerPoint Pentru accesarea programului PowerPoint se parcurg următorii paşi: Clic pe butonul de

More information

Reţele Neuronale Artificiale în MATLAB

Reţele Neuronale Artificiale în MATLAB Reţele Neuronale Artificiale în MATLAB Programul MATLAB dispune de o colecţie de funcţii şi interfeţe grafice, destinate lucrului cu Reţele Neuronale Artificiale, grupate sub numele de Neural Network Toolbox.

More information

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC Anul II Nr. 7 aprilie 2013 ISSN 2285 6560 Referent ştiinţific Lector univ. dr. Claudiu Ionuţ Popîrlan Facultatea de Ştiinţe Exacte Universitatea din

More information

Procesarea Imaginilor

Procesarea Imaginilor Procesarea Imaginilor Curs 11 Extragerea informańiei 3D prin stereoviziune Principiile Stereoviziunii Pentru observarea lumii reale avem nevoie de informańie 3D Într-o imagine avem doar două dimensiuni

More information

CERERI SELECT PE O TABELA

CERERI SELECT PE O TABELA SQL - 1 CERERI SELECT PE O TABELA 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890 11 1325

More information

Update firmware aparat foto

Update firmware aparat foto Update firmware aparat foto Mulţumim că aţi ales un produs Nikon. Acest ghid descrie cum să efectuaţi acest update de firmware. Dacă nu aveţi încredere că puteţi realiza acest update cu succes, acesta

More information

Itemi Sisteme de Operare

Itemi Sisteme de Operare Itemi Sisteme de Operare 1. Pentru a muta un dosar (folder) de pe partiţia C: pe partiţia D: folosim: a. New Folder b. Ctrl + C din bara de instrumente şi Copy; c. Ctrl + X şi Ctrl + V; d. Edit Paste;

More information

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban Reflexia şi refracţia luminii. Aplicaţii. Sumar 1. Indicele de refracţie al unui mediu 2. Reflexia şi refracţia luminii. Legi. 3. Reflexia totală 4. Oglinda plană 5. Reflexia şi refracţia luminii în natură

More information

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows Ghid identificare versiune AWP, instalare AWP 4.5.4 şi verificare importare certificat în Store-ul de Windows Data: 28.11.14 Versiune: V1.1 Nume fişiser: Ghid identificare versiune AWP, instalare AWP 4-5-4

More information

UTILIZAREA FOILOR DE CALCUL TABELAR - EXCEL

UTILIZAREA FOILOR DE CALCUL TABELAR - EXCEL UTILIZAREA FOILOR DE CALCUL TABELAR - EXCEL 1. Deschiderea aplicaţiei Excel - Start Programs Microsoft Excel; - Dublu clic pe pictograma de pe ecran sub care scrie Microsoft Excel; Pe ecranul monitorului

More information

ISBN-13:

ISBN-13: Regresii liniare 2.Liniarizarea expresiilor neliniare (Steven C. Chapra, Applied Numerical Methods with MATLAB for Engineers and Scientists, 3rd ed, ISBN-13:978-0-07-340110-2 ) Există cazuri în care aproximarea

More information

Metrici LPR interfatare cu Barix Barionet 50 -

Metrici LPR interfatare cu Barix Barionet 50 - Metrici LPR interfatare cu Barix Barionet 50 - Barionet 50 este un lan controller produs de Barix, care poate fi folosit in combinatie cu Metrici LPR, pentru a deschide bariera atunci cand un numar de

More information

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N Pentru a putea vizualiza imaginile unei camere web IP conectată într-un router ZTE H218N sau H298N, este necesară activarea serviciului Dinamic DNS oferit de RCS&RDS, precum și efectuarea unor setări pe

More information

Versionare - GIT ALIN ZAMFIROIU

Versionare - GIT ALIN ZAMFIROIU Versionare - GIT ALIN ZAMFIROIU Controlul versiunilor - necesitate Caracterul colaborativ al proiectelor; Backup pentru codul scris Istoricul modificarilor Terminologie și concepte VCS Version Control

More information

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: "9",

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: 9, La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - (ex: "9", "125", 1573" - se va scrie fara ghilimele) Parola: -

More information

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm Preparatory Problems 1Se dau punctele coliniare A, B, C, D în această ordine aî AB 4 cm, AC cm, BD 15cm a) calculați lungimile segmentelor BC, CD, AD b) determinați distanța dintre mijloacele segmentelor

More information

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962)

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962) ARBORI AVL (denumiti dupa Adelson-Velskii si Landis, 1962) Georgy Maximovich Adelson-Velsky (Russian: Гео ргий Макси мович Адельсо н- Ве льский; name is sometimes transliterated as Georgii Adelson-Velskii)

More information

Nume şi Apelativ prenume Adresa Număr telefon Tip cont Dobânda Monetar iniţial final

Nume şi Apelativ prenume Adresa Număr telefon  Tip cont Dobânda Monetar iniţial final Enunt si descriere aplicatie. Se presupune ca o organizatie (firma, banca, etc.) trebuie sa trimita scrisori prin posta unui numar (n=500, 900,...) foarte mare de clienti pe care sa -i informeze cu diverse

More information

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Proiect nr. 154/323 cod SMIS 4428 cofinanțat de prin Fondul European de Dezvoltare Regională Investiții pentru viitorul

More information

Editarea și formatarea foilor de calcul Tema 2

Editarea și formatarea foilor de calcul Tema 2 Editarea și formatarea foilor de calcul Tema 2 Tema 2 EDITAREA ȘI FORMATAREA FOILOR DE CALCUL Unități de învățare: Lucru cu foile de calcul și cu elementele acestora Serii de date Formatarea foilor de

More information

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC)

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) Semnale şi sisteme Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) http://shannon.etc.upt.ro/teaching/ssist/ 1 OBIECTIVELE CURSULUI Disciplina îşi propune să familiarizeze

More information

Laborator 2. Definirea tablourilor şi a funcţiilor (în linia de comandă) în Matlab 7.0

Laborator 2. Definirea tablourilor şi a funcţiilor (în linia de comandă) în Matlab 7.0 Laborator Definirea tablourilor şi a funcţiilor (în linia de comandă) în Matlab 70 Bibliografie 1 NH Bingham, John M Fry, Regression Linear Models in Statistics, Springer, New York, 010 M Ghinea, V Fireţeanu,

More information

GHID DE TERMENI MEDIA

GHID DE TERMENI MEDIA GHID DE TERMENI MEDIA Definitii si explicatii 1. Target Group si Universe Target Group - grupul demografic care a fost identificat ca fiind grupul cheie de consumatori ai unui brand. Toate activitatile

More information

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND Textul si imaginile din acest document sunt licentiate Attribution-NonCommercial-NoDerivs CC BY-NC-ND Codul sursa din acest document este licentiat Public-Domain Esti liber sa distribui acest document

More information

INTEROGĂRI ÎN SQL SERVER

INTEROGĂRI ÎN SQL SERVER INTEROGĂRI ÎN SQL SERVER Principala operaţie efectuată într-o bază de date este operaţia de extragere a datelor, care se realizează cu ajutorul unei clauze SELECT. SELECT Clauza SELECT are o sintaxă foarte

More information

X-Fit S Manual de utilizare

X-Fit S Manual de utilizare X-Fit S Manual de utilizare Compatibilitate Acest produs este compatibil doar cu dispozitivele ce au următoarele specificații: ios: Versiune 7.0 sau mai nouă, Bluetooth 4.0 Android: Versiune 4.3 sau mai

More information

În continuare vom prezenta unele dintre problemele de calcul ale numerelor Fibonacci.

În continuare vom prezenta unele dintre problemele de calcul ale numerelor Fibonacci. O condiţie necesară şi suficientă ca un număr să fie număr Fibonacci Autor: prof. Staicu Ovidiu Ninel Colegiul Economic Petre S. Aurelian Slatina, jud. Olt 1. Introducere Propuse de Leonardo Pisa în 1202,

More information

Lucrarea de laborator nr. 4

Lucrarea de laborator nr. 4 Metode merice - Lucrarea de laborator 4 Lucrarea de laborator nr. 4 I. Scopul lucrării Elemente de programare în MAPLE II. III. Conţinutul lucrării 1. Atribuirea. Decizia. Structuri repetitive. 2. Proceduri

More information

2. Setări configurare acces la o cameră web conectată într-un echipament HG8121H cu funcție activă de router

2. Setări configurare acces la o cameră web conectată într-un echipament HG8121H cu funcție activă de router Pentru a putea vizualiza imaginile unei camere web IP conectată într-un echipament Huawei HG8121H, este necesară activarea serviciului Dinamic DNS oferit de RCS&RDS, precum și efectuarea unor setări pe

More information

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M )

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M ) FLEXIMARK FCC din oțel inoxidabil este un sistem de marcare personalizată în relief pentru cabluri și componente, pentru medii dure, fiind rezistent la acizi și la coroziune. Informații Included in FLEXIMARK

More information

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii www.pwc.com/ro Aspecte controversate în Procedura Insolvenţei şi posibile soluţii 1 Perioada de observaţie - Vânzarea de stocuri aduse în garanţie, în cursul normal al activității - Tratamentul leasingului

More information

Auditul financiar la IMM-uri: de la limitare la oportunitate

Auditul financiar la IMM-uri: de la limitare la oportunitate Auditul financiar la IMM-uri: de la limitare la oportunitate 3 noiembrie 2017 Clemente Kiss KPMG in Romania Agenda Ce este un audit la un IMM? Comparatie: audit/revizuire/compilare Diferente: audit/revizuire/compilare

More information

Prelucrarea numerică a semnalelor

Prelucrarea numerică a semnalelor Prelucrarea numerică a semnalelor Assoc.Prof. Lăcrimioara GRAMA, Ph.D. http://sp.utcluj.ro/teaching_iiiea.html 27 februarie 2017 Lăcrimioara GRAMA (sp.utcluj.ro) Prelucrarea numerică a semnalelor 27 februarie

More information

Proceduri stocate. Crearea procedurilor stocate. Varianta 1 În Management Studio se dă clic pe New Query ca în imaginea de mai jos: Fig.

Proceduri stocate. Crearea procedurilor stocate. Varianta 1 În Management Studio se dă clic pe New Query ca în imaginea de mai jos: Fig. Proceduri stocate Crearea procedurilor stocate. Varianta 1 În Management Studio se dă clic pe New Query ca în imaginea de mai jos: Fig. 1 Odată cu deschiderea editorului SQL, apare și bara de instrumente

More information

Olimpiad«Estonia, 2003

Olimpiad«Estonia, 2003 Problema s«pt«m nii 128 a) Dintr-o tabl«p«trat«(2n + 1) (2n + 1) se ndep«rteaz«p«tr«telul din centru. Pentru ce valori ale lui n se poate pava suprafata r«mas«cu dale L precum cele din figura de mai jos?

More information

MODULUL 4.1 BAZELE UTILIZĂRII APLICAŢIILOR DE CALCUL TABELAR; APLICAŢIA CALC DIN OPENOFFICE.

MODULUL 4.1 BAZELE UTILIZĂRII APLICAŢIILOR DE CALCUL TABELAR; APLICAŢIA CALC DIN OPENOFFICE. MODULUL 4.1 BAZELE UTILIZĂRII APLICAŢIILOR DE CALCUL TABELAR; APLICAŢIA CALC DIN OPENOFFICE. 1 CUPRINS 4. CALCUL TABELAR CU OPENOFFICE.ORG CALC.----------------------------------------------- 3 4.1. Operaţii

More information

Actualizarea firmware-ului pentru aparatul foto digital SLR

Actualizarea firmware-ului pentru aparatul foto digital SLR Actualizarea firmware-ului pentru aparatul foto digital SLR Vă mulţumim că aţi ales un produs Nikon. Acest ghid descrie cum să realizaţi actualizarea firmwareului. Dacă nu sunteţi sigur că puteţi realiza

More information

FORȚA Femei Ocupate, Resursă pentru o Țară Activă POSDRU/144/6.3/S/ Suport de curs OPERATOR INTRODUCERE, VALIDARE SI PRELUCRARE DATE MODULUL 5

FORȚA Femei Ocupate, Resursă pentru o Țară Activă POSDRU/144/6.3/S/ Suport de curs OPERATOR INTRODUCERE, VALIDARE SI PRELUCRARE DATE MODULUL 5 FORȚA Femei Ocupate, Resursă pentru o Țară Activă POSDRU/144/6.3/S/128914 Suport de curs OPERATOR INTRODUCERE, VALIDARE SI PRELUCRARE DATE MODULUL 5 CALCUL TABELAR FUNDATIA PENTRU FORMARE PROFESIONALA

More information

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog Laborator 1 Programare declarativă O paradigmă de programare în care controlul fluxului de execuție este lăsat la latitudinea implementării limbajului, spre deosebire de programarea imperativă în care

More information

Funcţii grup şi clauzele GROUP BY, HAVING. Operatorii ROLLUP şi CUBE.

Funcţii grup şi clauzele GROUP BY, HAVING. Operatorii ROLLUP şi CUBE. Baze de date-anul 2 Laborator 4 SQL Funcţii grup şi clauzele GROUP BY, HAVING. Operatorii ROLLUP şi CUBE. I. [Funcţii grup şi clauza GROUP BY] Clauza GROUP BY este utilizată pentru a diviza liniile unui

More information

Managementul referinţelor cu

Managementul referinţelor cu TUTORIALE DE CULTURA INFORMAŢIEI Citarea surselor de informare cu instrumente software Managementul referinţelor cu Bibliotecar Lenuţa Ursachi PE SCURT Este gratuit Poţi adăuga fişiere PDF Poţi organiza,

More information

Laborator 2 - Statistică descriptivă

Laborator 2 - Statistică descriptivă Laborator 2 - Statistică descriptivă Statistica descriptivă are rolul de a descrie trăsăturile principale ale unor eşantioane şi constă în determinarea unor măsuri simple şi analize grafice ale datelor

More information

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive.

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive. . egimul de curent continuu de funcţionare al sistemelor electronice În acest regim de funcţionare, valorile mărimilor electrice ale sistemului electronic sunt constante în timp. Aşadar, funcţionarea sistemului

More information

R O M Â N I A CURTEA CONSTITUŢIONALĂ

R O M Â N I A CURTEA CONSTITUŢIONALĂ R O M Â N I A CURTEA CONSTITUŢIONALĂ Palatul Parlamentului Calea 13 Septembrie nr. 2, Intrarea B1, Sectorul 5, 050725 Bucureşti, România Telefon: (+40-21) 312 34 84; 335 62 09 Fax: (+40-21) 312 43 59;

More information

Propuneri pentru teme de licență

Propuneri pentru teme de licență Propuneri pentru teme de licență Departament Automatizări Eaton România Instalație de pompare cu rotire în funcție de timpul de funcționare Tablou electric cu 1 pompă pilot + 3 pompe mari, cu rotirea lor

More information

Creare baza de data Deschidem aplicaţia Microsoft Access. Lansarea în execuţie a programului se face urmând calea:

Creare baza de data Deschidem aplicaţia Microsoft Access. Lansarea în execuţie a programului se face urmând calea: Baze de date Pentru început este bine să înţelegem noţiunile de bază din Access: modul de organizare a unei baze de date, a noţiunilor de tabel, înregistrare, câmp, tip de dată al câmpului, proprietăţi

More information

Baza de date: tabele, date. Componentele unei B.D.: tabele, constrangeri, relatii. Entitati ale unei B.D.: formulare, interogari, rapoarte

Baza de date: tabele, date. Componentele unei B.D.: tabele, constrangeri, relatii. Entitati ale unei B.D.: formulare, interogari, rapoarte 1. Introducere ~ Microsoft Access ~ Baze de Date Baza de date: tabele, date. Componentele unei B.D.: tabele, constrangeri, relatii. Entitati ale unei B.D.: formulare, interogari, rapoarte 2. Crearea unei

More information

Figura x.1 Ecranul de pornire al mediului de dezvoltare

Figura x.1 Ecranul de pornire al mediului de dezvoltare x. Mediul de dezvoltare MICROSOFT VISUAL C++ În cadrul acestui capitol vom prezenta Microsoft Visual C++, din cadrul suitei Microsoft Visual Studio 2012, care este un mediu de programare care suportă dezvoltarea

More information

CERERI SELECT PE MAI MULTE TABELE

CERERI SELECT PE MAI MULTE TABELE SQL - 2 CERERI SELECT PE MAI MULTE TABELE 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890

More information

Metoda de programare BACKTRACKING

Metoda de programare BACKTRACKING Metoda de programare BACKTRACKING Sumar 1. Competenţe............................................ 3 2. Descrierea generală a metodei............................. 4 3......................... 7 4. Probleme..............................................

More information

Lucrări practice 1. Generalități

Lucrări practice 1. Generalități Lucrări practice 1. Generalități Lucrările practice prezentate aici vin să completeze cunoştinţele predate la curs, accentuând aspectele practice care implică prelucrarea propriu-zisă a unor date experimentale.

More information

Ghid pentru configurarea şi utilizarea aplicaţiei clicksign Demo

Ghid pentru configurarea şi utilizarea aplicaţiei clicksign Demo Ghid pentru configurarea şi utilizarea aplicaţiei clicksign Demo 2.6.9.223 Cuprins 1 Cadru general...2 2 Obţinerea unui certificat digital...3 3 Configurarea aplicaţiei clicksign...5 4 Utilizarea aplicaţiei

More information

ARHITECTURA SISTEMELOR DE CALCUL ŞI SISTEME DE OPERARE. LUCRĂRILE DE LABORATOR Nr. 6, 7 şi 8 REPREZENTAREA INFORMAŢIILOR NUMERICE ÎNTREGI ŞI REALE.

ARHITECTURA SISTEMELOR DE CALCUL ŞI SISTEME DE OPERARE. LUCRĂRILE DE LABORATOR Nr. 6, 7 şi 8 REPREZENTAREA INFORMAŢIILOR NUMERICE ÎNTREGI ŞI REALE. ARHITECTURA SISTEMELOR DE CALCUL ŞI SISTEME DE OPERARE LUCRĂRILE DE LABORATOR Nr. 6, 7 şi 8 REPREZENTAREA INFORMAŢIILOR NUMERICE ÎNTREGI ŞI REALE. I. SCOPUL LUCRĂRILOR Lucrările prezintă reprezentarea

More information

Mecanismul de decontare a cererilor de plata

Mecanismul de decontare a cererilor de plata Mecanismul de decontare a cererilor de plata Autoritatea de Management pentru Programul Operaţional Sectorial Creşterea Competitivităţii Economice (POS CCE) Ministerul Fondurilor Europene - Iunie - iulie

More information

CURS 2. Reprezentarea numerelor intregi si reale. Sistem de numeraţie

CURS 2. Reprezentarea numerelor intregi si reale. Sistem de numeraţie Sistem de numeraţie CURS 2 Reprezentarea numerelor intregi si reale F.Boian, Bazele matematice ale calculatoarelor, UBB Cluj-Napoca, 2002 How computers see numbers and letters http://faculty.etsu.edu/lutter/courses/phys4007/p4007append_f.pdf

More information

Capitolul 4 SUBCERERI. F. Radulescu. Curs: Baze de date - Limbajul SQL

Capitolul 4 SUBCERERI. F. Radulescu. Curs: Baze de date - Limbajul SQL Capitolul 4 SUBCERERI 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890 11 1325 VASILE 2

More information

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip Mods euro truck simulator 2 harta romaniei by elyxir Mods euro truck simulator 2 harta romaniei by elyxir.zip 26/07/2015 Download mods euro truck simulator 2 harta Harta Romaniei pentru Euro Truck Simulator

More information

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales MANAGEMENTUL CALITĂȚII - MC Proiect 5 Procedura documentată pentru procesul ales CUPRINS Procedura documentată Generalități Exemple de proceduri documentate Alegerea procesului pentru realizarea procedurii

More information

Metoda BACKTRACKING. prof. Jiduc Gabriel

Metoda BACKTRACKING. prof. Jiduc Gabriel Metoda BACKTRACKING prof. Jiduc Gabriel Un algoritm backtracking este un algoritm de căutare sistematică și exhausivă a tuturor soluțiilor posibile, dintre care se poate alege apoi soluția optimă. Problemele

More information

Baze de date distribuite și mobile

Baze de date distribuite și mobile Universitatea Constantin Brâncuşi din Târgu-Jiu Facultatea de Inginerie Departamentul de Automatică, Energie şi Mediu Baze de date distribuite și mobile Lect.dr. Adrian Runceanu Curs 3 Model fizic şi model

More information

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; }

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; } Arbori Arborii, ca şi listele, sunt structuri dinamice. Elementele structurale ale unui arbore sunt noduri şi arce orientate care unesc nodurile. Deci, în fond, un arbore este un graf orientat degenerat.

More information

The First TST for the JBMO Satu Mare, April 6, 2018

The First TST for the JBMO Satu Mare, April 6, 2018 The First TST for the JBMO Satu Mare, April 6, 08 Problem. Prove that the equation x +y +z = x+y +z + has no rational solutions. Solution. The equation can be written equivalently (x ) + (y ) + (z ) =

More information

6. Bucle. 6.1 Instrucţiunea while

6. Bucle. 6.1 Instrucţiunea while 6. Bucle În capitolul trecut am văzut cum putem selecta diferite instrucţiuni pentru execuţie folosind instrucţiunea if. O buclă este o structură de control care provoacă executarea unei instrucţiuni sau

More information

SGBD Access 2010: Query

SGBD Access 2010: Query SGBD Access 2010: Query Interogarea (Query) este un obiect ce permite vizualizarea informaţiilor obţinute prin selectarea şi prelucrarea datelor din unul sau mai multe tabele (sau interogări) Rezultatul

More information

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET CAIETUL DE SARCINI Organizare evenimente VS/2014/0442 Euro network supporting innovation for green jobs GREENET Str. Dem. I. Dobrescu, nr. 2-4, Sector 1, CAIET DE SARCINI Obiectul licitaţiei: Kick off,

More information

1. Creaţi un nou proiect de tip Windows Forms Application, cu numele MdiExample.

1. Creaţi un nou proiect de tip Windows Forms Application, cu numele MdiExample. Aplicaţia MdiExample Aplicaţia implementează: Deschiderea şi închiderea ferestrelor child. Minimizarea şi maximizarea ferestrelor. Aranjarea ferestrelor. Tratarea mesajului de atenţionare la ieşirea din

More information

Proceduri de analizã a datelor

Proceduri de analizã a datelor Proceduri de analizã a datelor Liste Prin listã se întelege o serie de linii succesive într-o foaie de calcul, fiecare coloanã din listã continând date cu aceeasi semnificatie logicã. De exemplu, o listã

More information

Modificarea interliniei în Word. Setarea interliniei (line spacing)

Modificarea interliniei în Word. Setarea interliniei (line spacing) Modificarea interliniei în Word Cea mai rapidă modalitate de a schimba cantitatea de spațiu dintre liniile de text sau între paragrafe pentru un document întreg este să utilizați opțiunea de Paragraph

More information

Ioan Bandu EXCEL Suport online de curs şi laborator pentru anul 1. anul universitar Pagina 1 din 294

Ioan Bandu EXCEL Suport online de curs şi laborator pentru anul 1. anul universitar Pagina 1 din 294 Ioan Bandu Camelia Margea Romeo Margea EXCEL 2007 Suport online de curs şi laborator pentru anul 1 anul universitar 2012-2013 Pagina 1 din 294 CUPRINS CAPITOLUL 1 GESTIONAREA FOILOR DE CALCUL TABELAR.

More information

Documentaţie Tehnică

Documentaţie Tehnică Documentaţie Tehnică Verificare TVA API Ultima actualizare: 27 Aprilie 2018 www.verificaretva.ro 021-310.67.91 / 92 info@verificaretva.ro Cuprins 1. Cum funcţionează?... 3 2. Fluxul de date... 3 3. Metoda

More information

F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5.

F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5. Capitolul 8 Data mining date corelate Reprezentarea datelor Vom continua să considerăm modelul de date coşuri de produse şi vom vizualiza datele ca o matrice booleană unde: linii=coşuri şi coloane=articole.

More information

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date.

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. 9. Memoria Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. Primul nivel conține memorie de program cache (L1P) și memorie de date cache (L1D). Al doilea

More information

Candlesticks. 14 Martie Lector : Alexandru Preda, CFTe

Candlesticks. 14 Martie Lector : Alexandru Preda, CFTe Candlesticks 14 Martie 2013 Lector : Alexandru Preda, CFTe Istorie Munehisa Homma - (1724-1803) Ojima Rice Market in Osaka 1710 devine si piata futures Parintele candlesticks Samurai In 1755 a scris The

More information

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs Acta Technica Napocensis: Civil Engineering & Architecture Vol. 57, No. 1 (2014) Journal homepage: http://constructii.utcluj.ro/actacivileng Updating the Nomographical Diagrams for Dimensioning the Concrete

More information

Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple. Memoria cache Memoria virtuală

Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple. Memoria cache Memoria virtuală Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple Memoria cache Memoria virtuală 1 Memorii RAM: datele sunt identificate cu ajutorul unor adrese unice Memorii asociative:

More information

MICROSOFT ACCESS 2007 (DE CĂUTAT???)

MICROSOFT ACCESS 2007 (DE CĂUTAT???) Access 2007 Modul A Pagina 1 MICROSOFT ACCESS 2007 (DE CĂUTAT???) 1. CONCEPTE GENERALE PRIVIND BAZELE DE DATE Evoluţia diferitelor metode şi tehnici de organizare a datelor pe suporturi de memorie externă

More information

Lucrarea nr.1. Crearea unui document Word

Lucrarea nr.1. Crearea unui document Word Lucrarea nr.1 Crearea unui document Word Scopul lucrării Lucrarea are drept scop inițiere și familiarizarea studenților cu interfața editorului de text Microsoft Word 2007. Modul de lucru Word este un

More information

Curs PowerPoint Lectia 3 Lectia 3 Formatare text si imagini

Curs PowerPoint Lectia 3 Lectia 3 Formatare text si imagini Lectia 3 Formatare text si imagini 3.1 Formatarea si introducerea textului Adaugarea textului intr-un diapozitiv Textul este introdus prin actionarea tastaturii: in momentul in care se ajunge la capatul

More information

Managementul Proiectelor Software Metode de dezvoltare

Managementul Proiectelor Software Metode de dezvoltare Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Managementul Proiectelor Software Metode de dezvoltare 2 Metode structurate (inclusiv metodele OO) O mulțime de pași și

More information

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB Grafuri bipartite Lecție de probă, informatică clasa a XI-a Mihai Bărbulescu b12mihai@gmail.com Facultatea de Automatică și Calculatoare, UPB Colegiul Național de Informatică Tudor Vianu București 27 februarie

More information

Proiectarea bazelor de date. PL/SQL Înregistrări și Colecții # 13. Adrian Runceanu

Proiectarea bazelor de date. PL/SQL Înregistrări și Colecții # 13. Adrian Runceanu Proiectarea bazelor de date # 13 PL/SQL Înregistrări și Colecții 2016 Adrian Runceanu www.runceanu.ro/adrian Curs 13 Înregistrări și Colecții Proiectarea bazelor de date 2 Înregistrări și Colecții în PL/SQL

More information

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC Anul III Nr. 21 iunie 2014 ISSN 2285 6560 Referent ştiinţific Lector univ. dr. Claudiu Ionuţ Popîrlan Facultatea de Ştiinţe Exacte Universitatea din

More information

Ghid de utilizare a Calculatorului valorii U

Ghid de utilizare a Calculatorului valorii U Ghid de utilizare a Calculatorului valorii U la Apelul de Propuneri de Proiecte Nr.3 pentru Instituțiile din Sectorul Public pentru investiții în Eficiență Energetică și Surse de Energie Regenerabilă Versiunea

More information

Statistică descriptivă Calculul parametrilor. Călinici Tudor 2015

Statistică descriptivă Calculul parametrilor. Călinici Tudor 2015 Statistică descriptivă Calculul parametrilor Călinici Tudor 2015 Obiective educaționale Definirea și calculul valorii prevalenței, sensibilității, specificității, valorii predictive pozitive, valorii predictive

More information

Microsoft Excel Platforma 4

Microsoft Excel Platforma 4 UTILIZAREA FUNCȚIILOR MICROSOFT EXCEL Având la dispoziție suportul de curs, parcurgeți spre rezolvare următoarele exerciții propuse: Exercițiul 1 Ne propunem să realizăm o evidență a angajaților unei societăți

More information

NEC. Ghid de rezervări

NEC. Ghid de rezervări NEC Ghid de rezervări Action codes B efectuează rezervare finală (booking) B? afișează un model de rezervare (booking sample) BA disponibilitatea unei rezervări ( booking enquiry) BC disponibilitatea unei

More information

Curs 4 Word curs 4 Word

Curs 4 Word curs 4 Word Curs 4 Word 2007 Cuprins Cum sa realizati o bibliografie in Word?...2 Inserarea citarilor...2 Realizarea bibliografiei...2 Modificarea stilului unei referinte...3 Administrarea referintelor in baza de

More information

[{CYCLE NOCYCLE}] [{CACHE

[{CYCLE NOCYCLE}] [{CACHE Laborator 10 1. Secvenţe Secvenţa este un obiect al bazei de date ce permite generarea de întregi unici pentru a fi folosiţi ca valori pentru cheia primară sau coloane numerice unice. Secvenţele sunt independente

More information

KAJOT V.RO BLACK PLANET JOC DE NOROC CU RISC LIMITAT

KAJOT V.RO BLACK PLANET JOC DE NOROC CU RISC LIMITAT KAJOT V.RO BLACK PLANET JOC DE NOROC CU RISC LIMITAT România CONTINE URMATOARELE JOCURI: AFRICAN WILD DIAMONDS CHERRY KISS WILD LADY JOKER BAR REELS OF RA RETRO WHEELS ROUTE 81 SIMPLY GOLD XXL SIMPLY 6

More information

Ministerul Educaţiei Naţionale şi Cercetării Ştiinţifice Olimpiada de Tehnologia Informaţiei etapa judeţeană 2 aprilie 2016

Ministerul Educaţiei Naţionale şi Cercetării Ştiinţifice Olimpiada de Tehnologia Informaţiei etapa judeţeană 2 aprilie 2016 Subiect - Proba proiect 100 puncte GOOD FOOD Notă: Toate resursele le găsiţi în folder-ul Resurse aflat pe desktop. Creați un folder cu denumirea X, în care X este ID-ul de concurs și salvați în folder-ul

More information

LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE

LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE BOBST EXPERTFOLD 80 ACCUBRAILLE GT Utilajul ACCUBRAILLE GT Bobst Expertfold 80 Aplicarea codului Braille pe cutii a devenit mai rapidă, ușoară și mai eficientă

More information

TEHNOLOGII INFORMAŢIONALE PENTRU AFACERI

TEHNOLOGII INFORMAŢIONALE PENTRU AFACERI TEHNOLOGII INFORMAŢIONALE PENTRU AFACERI Laboratorul 5 Procesorul de texte Microsoft Word 2007, partea I După cum am fost deja obişnuiţi, Microsoft oferă o serie de îmbunătăţiri noilor versiuni ale aplicaţiilor

More information

METODE ȘI MODELE ECONOMETRICE UTILIZATE ÎN ANALIZA INFLUENȚEI FACTORIALE ASUPRA CREȘTERII PRODUSULUI INTERN BRUT

METODE ȘI MODELE ECONOMETRICE UTILIZATE ÎN ANALIZA INFLUENȚEI FACTORIALE ASUPRA CREȘTERII PRODUSULUI INTERN BRUT The 11th International Conference of the SEA Advances in Science, Innovation and Management METODE ȘI MODELE ECONOMETRICE UTILIZATE ÎN ANALIZA INFLUENȚEI FACTORIALE ASUPRA CREȘTERII PRODUSULUI INTERN BRUT

More information

ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR

ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR ANALIZA FUNCŢIONALĂ, O METODĂ DE MODELARE ÎN PROIECTAREA UTILAJELOR Prof. univ. dr. ing. Florin CHICHERNEA Universitatea Transilvania

More information

Modulul 3 Procesare de text

Modulul 3 Procesare de text Modulul 3 Procesare de text Acest capitol asigură cunoştinţele necesare în lucrul cu o aplicaţie de editare text. Modulul asigură informaţiile necesare în conformitate cu programa analitica pentru Modului

More information