TEZĂ DE DOCTORAT. Ing. ALEXANDRINA MIRELA PATER. Conducător ştiinţific: Prof. Univ. Dr. Ing. IONEL JIAN TIMIŞOARA

Size: px
Start display at page:

Download "TEZĂ DE DOCTORAT. Ing. ALEXANDRINA MIRELA PATER. Conducător ştiinţific: Prof. Univ. Dr. Ing. IONEL JIAN TIMIŞOARA"

Transcription

1 UNIVERSITATEA POLITEHNICA TIMIŞOARA FACULTATEA DE AUTOMATICĂ ŞI CALCULATOARE Ing. ALEXANDRINA MIRELA PATER TEZĂ DE DOCTORAT Conducător ştiinţific: Prof. Univ. Dr. Ing. IONEL JIAN TIMIŞOARA

2 ING. ALEXANDRINA MIRELA PATER CONTRIBUŢII LA DEZVOLTAREA ALGORTIMILOR DE EXTRAGERE A DATELOR DIN BAZELE DE DATE MULTI-NIVEL Conducător ştiinţific: Prof. Univ. Dr. Ing. IONEL JIAN 2

3 CUPRINS 1. INTRODUCERE Descoperirea cunoştinţelor şi Data Mining Model Data Mining Cerinţele şi provocările extragerii de date Extragerea de date privită din perspectiva bazelor de date TEHNICI DE EXTRAGERE DE DATE (DATA MINING) Noţiuni de bază Clasificarea şi regresia Clasificarea bazată pe arbori de decizie Definiţie Inducţia arborelui de decizie Extragerea regulilor din arbore Algoritmi de decizie Avantajele şi dezavantajele arborilor de decizie Reţele neuronale Avantaje şi dezavantaje ale reţelelor neuronale Algoritmul celor mai apropiaţi k vecini (k-nearest neighbors) Avantaje şi dezavantaje ale algoritmului k-nn Gruparea Algoritmi bazaţi pe măsuri de similaritate Algoritmi cu reţele neuronale Avantaje şi dezavantaje ale metodei SOM Alte tehnici Data Mining Concluzii DESCOPERIREA REGULILOR DE ASOCIERE Definiţii şi terminologie Descoperirea seturilor frecvente de articole (large itemsets) Algoritmi pentru descoperirea regulilor de asociere Definirea problemei Algoritmul APRIORI Funcţia AprioriGen Funcţia Subset

4 Avantaje şi dezavantaje ale algoritmului APRIORI Algoritmul SAMPLING (de eşantionare) Exemplu de aplicare Avantaje şi dezavantaje ale algoritmului SAMPLING Algoritmul PARTITIONING (de partiţionare) Exemplu de aplicare Avantaje şi dezavantaje ale algoritmului PARTITIONING Studiu comparativ de performanţă Concluzii DESCOPERIREA REGULILOR DE ASOCIERE FOLOSIND EXTRAGEREA TIPARELOR FRECVENTE Introducere Proiectarea şi construirea arborelui tiparelor frecvente (FP-Tree) Definirea problemei Construirea arborelui FP-Tree Metoga FP-Growth de extragere a tiparelor frecvente folosind arborele FP-Tree Algoritmul AFOPT (Ascending Frequency Ordered Prefix Tree) Prezentarea problemei Algoritmul AFOPT Studiu comparativ de performanţă Concluzii DESCOPERIREA REGULILOR DE ASOCIERE GENERALIZATE (MULTI_NIVEL) Definiţii şi terminologie Algoritmi de extragere a regulilor de asociere multi-nivel Algoritmul ADAPTIVE APRIORI Avantajele algoritmului Algoritmul ML_T2L Exemplu de utilizare Avantajele algoritmului Dezavantajele algoritmului Algoritmul ADA-FP Descrierea algoritmului

5 Studiu comparativ de performanţă Avantajele ADA-FP faţă de ML_T2L Avantajele ADA-FP faţă de ADAPTIVE APRIORI Concluzii ALGORITMI DE EXTRAGERE A DATELOR DIN BAZE DE DATE MULTI-NIVEL Algoritmul Depth First Multi-Level APRIORI (DFMLA) Prezentarea algoritmului (DFMLA1) Versiune optimizată (DFMLA2) Studiu comparativ de performanţă Avantaje Dezavantaje Algoritmul MULTI-LEVEL FP-Growth (MLFP-Growth) Prezentarea algoritmului MLFP-Growth Metoda I: Obţinerea arborelui FP-Tree şi apoi aplicarea algoritmului FP-Growth direct pe nivelul conceptual k (MLFP-Growth I) Metoda II: Obţinerea arborelui FP-Tree pentru nivelul k din arborele nivelului l (l>k) (MLFP-Growth II) Studiu comparativ de performanţă Avantaje Dezavantaje Algoritmul Multi-Level AFOPT (ML-AFOPT) Prezentarea algoritmului Studiu comparativ de performanţă Avantaje Dezavantaje Algoritmul ML-ADA-AFOPT Prezentarea algoritmului Studiu comparativ de performanţă Concluzii CONCLUZII ŞI CONTRIBUŢII PERSONALE Contribuţii personale Concluzii finale Bibliografie

6 GLOSAR DM KDD FP-Tree FP-Growth AFOPT DBMS MLDB - Extragerea datelor (Data Mining) - Descoperirea de cunoştinţe din baze de date (Knowledge Discovery in Databases) - Arborele tiparelor frecvente (Frequent Pattern Tree) - Extragerea tiparelor frecvente folosind FP-Tree prin creşterea fragmentelor de tipare - Arborele tiparelor frecvente sortate în ordine crescătoare a frecvenţei de apariţie (Ascending Frequency Ordered Prefix-Tree) - Sisteme de gestiune a bazelor de date (DataBase Management Systems) - Baze de date multi-nivel (Multi-Level DataBase) 6

7 Lista de figuri Fig Etapele procesului de KDD (conform Fayyad et al. din 1996) Fig Model al procesului Data Minnig (conform Rainsford din 1993) Fig Set de date de antrenare Fig Exemplu de arbore de decizie Fig Arborele de decizie pentru cumpărătorii de calculatoare Fig Exemplu de reţea neuronală cu 6 noduri Fig Nod al reţelei neuronale Fig Clasificarea folosind 3-NN Fig Exemplu de clasificare k-nn Fig Clasificarea algoritmilor de grupare Fig Algoritmul APRIORI Fig Funcţia AprioriGen Fig Graniţa negativă Fig Algoritmul SAMPLING Fig Algoritmul PARTITIONING Fig Exemplu de aplicare a algoritmului PARTITIONING Fig Scalabilitatea raportată la suport pentru o baza de date D1 40K Fig Scalabilitatea raportată la număr de tranzacţii (25% suport) Fig Scalabilitatea APRIORI raportată la tranzacţii/suport Fig Construirea arborelui FP-Tree pentru Exemplul Fig Algoritmul de construire a arborelui FP-Tree Fig Arborele FP-Tree condiţional construit pentru m Fig Algoritmul FP-Growth Fig Arborele spaţiului de căutare Fig Arborele AFOPT Fig Parcurgerea subarborelui c Fig Reunirea fiilor nodului c cu nodurile fraţi ale lui c Fig Algoritmul AFOPT Fig Studiu comparativ între algoritmul FP-Growth şi algoritmul AFOPT Fig Exemplu de ierarhie taxonomică simplă Fig Exemplu de ierarhie taxonomică multiplă

8 Fig Exemplu de extragere de reguli de asociere multi-nivel Fig Baza de date exemplu Fig Arborele schemei de enumerare T marcat cu Sminsup/Pminsup Fig Algoritmul ML_T2L Fig Arborele ierarhiei conceptuale Fig Procedura ADA-FP-Growth Fig Baza de date ierarhică multi-nivel Fig Moştenirea unei reguli Fig Funcţia recursivă pentru verificarea descendenţilor Fig Comparaţie Multi-level APRIORI cu DFMLA Fig Comparaţie DFMLA1 cu DFMLA Fig Comparaţie ML_T2L1 cu FP-Growth Fig Baza de date ierarhică multi-nivel Fig Arborele FP-Tree al celui de-al 2-lea nivel conceptual Fig Crearea tabelei antet pentru nivelul k Fig Completarea arborelui FP-Tree al nivelului l Fig Arborele FP-Tree al nivelului k Fig Comparaţie MLFP-GrowthI (Metoda I) cu MLFP-GrowthII (Metoda II) Fig Arborele AFOPT Fig Construirea tabelei antet a nivelului k Fig Completarea tabelei antet Fig Arborele AFOPT completat al nivelului l Fig Arborele AFOPT al nivelului k Fig Timpii de execuţie ai algoritmului ML-AFOPT Fig Funcţia Meets_Min_Support Fig Funcţia Meets_Printing_Min_Support Fig Algoritmul ML-ADA-AFOPT Fig Studiu comparativ - algoritmii ML-AFOPT vs. ML-ADA-AFOPT Fig Studiu comparativ - algoritmii ML-AFOPT vs. ML-ADA-AFOPT Fig Studiu comparativ - algoritmii ML-ADA-AFOPT vs. FP-Growth şi ADA-FP Fig Studiu comparativ pentru de tranzacţii Fig Studiu comparativ pentru de tranzacţii

9 Lista de tabele Tabel Exemplu de date în format orizontal în regulile de asociere Tabel Exemplu de date în format vertical în regulile de asociere Tabel Notaţii utilizate Tabel Parametri utilizaţi pentru generarea setului de date Tabel Rezultate pentru baza de date D1 40K Tabel Rezultate pentru baza de date D2 150K Tabel Rezultate APRIORI raportate la tranzacţii/suport Tabel Baza de date D cu tranzacţii Tabel Extragerea tuturor tiparelor prin crearea bazelor condiţionale de (sub) tipare Tabel Tranzacţiile bazei de date D Tabel Articole (descriere) Tabel Tranzacţii Tabel Codificarea tranzacţiilor T[1] Tabel itemset-ul L[1,1] Tabel itemset-ul L[1,2] Tabel Tranzacţiile filtrate T[2] Tabel itemset-ul L[2,1] Tabel itemset-ul L[2,2] Tabel itemset-ul L[2,3] Tabel itemset-ul L[3,1] Tabel itemset-ul L[3,2] Tabel Codurile şi descrierea articolelor Tabel Tranzacţiile bazei de date Tabel Tranzacţiile şi codurile produselor Tabel Codurile şi descrierea categoriilor Tabel Baza de date tranzacţională

10 Tabel Crearea bazei condiţionale de tipare pentru nivelul k Tabel Rezultatele obţinute de algoritmii MLFP-GrowthI( Metoda I) şi MLFP-GrowthII (Metoda II) Tabel Tranzacţiile bazei de date Tabel Articolele bazei de date Tabel Articolele sortate ascendent Tabel Tranzacţiile adăugate Tabel Ordonarea tabelei antet a nivelului k Tabel Rezultatele obţinute de algoritmul ML-AFOPT Tabel Rezultatele obţinute de algoritmul ML-ADA-AFOPT (articole speciale rare) Tabel Rezultatele obţinute de algoritmul ML-ADA-AFOPT (articole speciale comune) Tabel Rezultatele obţinute pentru de tranzacţii Tabel Rezultatele obţinute pentru de tranzacţii

11 Prefaţă Datorită creşterii foarte mari din ultimi ani a dimensiunii bazelor de date, cât şi a aplicaţiilor de baze de date în domeniul comercial, industrial, administrativ şi altele, a crescut în egală măsură şi interesul utilizatorilor în extragerea automată a cunoştinţelor din acestea. Din acest motiv, mulţi cercetători au considerat descoperirea şi extragerea de cunoştinţe din bazele de date un domeniu provocator şi semnificativ de investigat. Sistemul de descoperire a cunoştinţelor (Knowledge Discovery System) care este capabil să opereze pe o bază de date de dimensiune mare este numit siatem de descoperire a cunoştinţelor din baze de date (Knowledge Discovery in Databases System KDD). KDD a fost concepută în anul 1989, pentru a desemna o zonă de cercetare bazată pe metode de Data Mining (DM), recunoaşterea formelor, învăţare automată şi tehnici de baze de date în contextul bazelor de date de dimensiuni mari. Data Mining poate fi definit în primă instanţă ca fiind totalitatea proceselor de căutare şi manipulare a datelor din bazele de date. KDD/Data Mining este un domeniu inter-disciplinar care dezvoltă algoritmi şi procese pentru descoperirea cunoştinţelor construind modele şi făcând preziceri din date structurate, semi-structurate sau ne-structurate. Progresul în tehnologia codurilor de bare a făcut posibil ca firmele de comercializare a produselor să colecteze şi să stocheze cantităţi imense de date despre produse şi vânzări, referite ca şi basket data (date despre coşul de cumpărături). Firmele mari, de succes, privesc aceste baze de date ca şi părţi esenţiale ale infrastructurii de marketing. Ele sunt interesate în introducerea unor procese de marketing conduse de informaţii, coordonate prin folosirea tehnologiilor de baze de date, care să permită agenţilor de marketing să dezvolte şi să implementeze programe şi strategii de marketing adaptate diverselor categorii de clienţi [DSA90]. Ţinând cont pe de o parte de domeniul vast al sistemelor de descoperire de cunoştinţe, precum şi de posibilele aplicaţii practice pe care le are descoperirea de reguli de asociere, în această lucrare s-au luat în considerare tehnicile de extragere a datelor cât şi cele de descoperire a tiparelor frecvente din bazele de date multi-nivel, care au un rol important în dezvoltarea sistemelor de descoperirea a regulilor de asociere [HK00]. Extragerea tiparelor frecvente joacă un rol esenţial în descoperirea regulilor de asociere [HPY00]. Descoperirea regulilor frecvente de asociere dintr-o bază de date de 11

12 dimensiuni mari este o problemă complexă, deoarece spaţiul de căutare creşte exponenţial cu numărul de atribute din baza de date şi cu obiectele bazei de date. Se ştie că, în general, bazele de date implicate în astfel de aplicaţii sunt de dimensiuni foarte mari. Din acest motiv este foarte important ca algoritmii utilizaţi în aplicaţii pentru extragerea de date din aceste baze de date să fie cât mai rapizi. Primii algoritmi propuşi pentru acest gen de aplicaţii au fost de natură iterativă, gen algoritmul APRIORI [AS94], care însă prezentau dezavantajul unor parcurgeri multiple ale bazei de date, operaţie foarte costisitoare din punct de vedere al timpului de execuţie. Pe parcursul studierii procesului de extragere de cunoştinţe (KD), cercetătorii au încercat prin diverse metode să îndepărteze dintre regulile generate pe cele neinteresante, propunând câteva măsuri de cuantificare a utilităţii sau gradului de interes pe care regula respectivă o prezintă [HF95]. Acest fapt, a condus cercetările spre căutarea unor metode de extragere a regulilor de asociere pe mai multe nivele conceptuale, ceea ce duce la descoperirea nu doar a unor reguli de asociere la fiecare nivel, dar şi extragerea unor reguli de asociere utile şi informative, datorită flexibilităţii concentrării atenţiei asupra seturilor diferite de date şi a posibilităţii aplicării unor praguri diferite ale suportului sau confidenţei pentru nivele diferite. Metodele de extragere de cunoştinţe de pe mai multe nivele conceptuale au fost, în general, dezvoltate prin extinderea tehnicilor existente pentru un singur nivel. În această lucrare s-a încercat dezvoltarea şi îmbunătăţirea metodelor existente, optimizarea algoritmilor apăruţi până la această oră prin variante noi adaptate la extragerea regulilor de asociere multi-nivel. Au fost adaptaţi o serie de algoritmi consideraţi performanţi la această oră, la bazele de date multi-nivel, deoarece acestea şi-au dovedit superioritatea în optimizarea exploatării şi au şi un potenţial ridicat de a fi însemnate deoarece sunt flexibile şi pot fi orientate spre diferite seturi de date. Pe baza experimentelor efectuate, s-a demonstrat că toţi algoritmii propuşi în această lucrare sunt mai eficienţi decât cei de la care s-a plecat, minimizând timpul de extragere a datelor şi regulilor de asociere dorite, prin micşorarea drastică a timpului necesar parcurgerii bazei de date de dimensiuni foarte mari. Folosind structurile existente FP-Tree [HP00] şi AFOPT [LLX+03] s-au propus algoritmi care să le utilizeze cât mai eficient, micşorând sau chiar evitând noi parcurgeri ale bazei de date. 12

13 1. INTRODUCERE 1.1. Descoperirea cunoştinţelor şi Data Mining Odată cu creşterea rapidă a numărului şi dimensiunii bazelor de date cât şi a aplicaţiilor de baze de date în domeniul comercial, industrial, administrativ şi altele, este necesar şi interesant să examinăm extragerea automată a cunoştinţelor din bazele de date de mari dimensiuni. Mulţi cercetători au considerat acest domeniu unul provocator şi semnificativ de investigat. Descoperirea de cunoştinţe din bazele de date (Knowledge Discovery in Databases KDD) sau extragerea de date (Data Mining DM) reprezintă efortul de a înţelege, analiza şi eventual de a utiliza o cantitate imensă de date disponibile [Fay + 96 ]. KDD a fost concepută în anul 1989, pentru a desemna o zonă de cercetare bazată pe metode de Data Mining, recunoaşterea formelor, învăţare automată şi tehnici de baze de date în contextul bazelor de date de dimensiuni mari. Prima conferinţă internaţională pe Knowledge Discovery şi Data Mining a avut loc în 1995 (KDD 95), în zilele de azi reprezentând un domeniu de vârf, în plin avânt. Descoperirea de cunoştinţe în bazele de date este considerat un proces însemnat de identificare a unor tipare de date valide, noi, potenţial folositoare, care pot fi înţelese, aşa cum este arătat de către Fayyad în [FPS + 96]. În opinia sa, există mai multe etape în procesul de descoperire de cunoştinţe: selectarea, preprocesarea, transformarea, extragerea datelor, interpretarea sau evaluarea rezultatelor, aşa cum este arătat în figura Datorită extragerii de cunoştinţe din bazele de date, acestea au devenit surse bogate şi sigure pentru generarea şi verificarea cunoştinţelor, iar cunoştinţele descoperite pot fi aplicate în managementul informatic, procesul de interogare, luarea deciziilor, controlul proceselor şi multe alte domenii de larg interes. Aşadar, extragerea de cunoştinţe este considerat unul dintre cele mai actuale şi importante domenii de cercetare în baze de date, conform multor cercetători din domeniul bazelor de date [Sil95,Sil96]. Data Mining poate fi definit în primă instanţă ca fiind totalitatea proceselor de căutare şi manipulare a datelor din bazele de date. Această exploatare a "zăcămintelor" de date are ca scop descoperirea unor corelaţii necunoscute sau puţin evidente între date. Marketingul modern foloseşte din ce în ce mai mult rezultate obţinute prin data mining. 13

14 Extragere de date Interpretare/ Evaluare Transformare Cunoştinţe Preprocesare Tipare Selectare Date Date ţintă Date preprocesate Date transformate Fig Etapele procesului de KDD (conform Fayyad et al. din 1996) Funcţia principală a DM este, deci, de a extrage modele de cunoştinţe din date. Pentru aceasta, DM utilizează o varietate de algoritmi din statistică, recunoaşterea formelor, clasificare, logică fuzzy, învăţare automată (machine learning), algoritmi genetici, reţele neuronale, vizualizarea datelor, etc. Varietatea de algoritmi poate fi grupată în principalele componente ale DM. Numărul acestor componente diferă de la un autor la altul, ele fiind în principal: modelul - care, ca orice model informatic, se reprezintă printr-o funcţie într-un spaţiu unidimensional sau multidimensional (un ansamblu de funcţii), depinzând de parametri. El poate fi reprezentat fie ca o funcţie liniară de parametri, fie ca o funcţie de probabilitate (de exemplu normală), fie ca o funcţie fuzzy, etc. Obţinerea modelului se realizează prin diferiţi algoritmi, cum ar fi cei de clasificare şi grupare (clusterizare); criteriile de preferinţă - care pot fi de natură diferită, unele dintre acestea bazânduse pe ordonare, altele pe interpolare sau cea mai bună aproximare; algoritmi de selecţie - care conduc la selectarea a trei elemente importante care apar în DM, şi anume: modelul (tiparul), care se selectează din baza de modele, datele, care se selectează din baza de date şi constituie parametri, şi criteriul sau criteriile de preferinţe, care se selectează din baza de criterii; 14

15 stabilirea abaterilor - care constă în general în algoritmi de determinare a deviaţiei şi stabilităţii; o categorie specifică de astfel de algoritmi sunt cei statistici, prin care se stabilesc abaterile modelului faţă de ideal. Bineînţeles că fiecare produs comercial utilizează mai mulţi algoritmi şi în fiecare dintre ei se regăsesc o parte sau toate componentele de mai sus în diferite proporţii. Deoarece extragerea de date (Data Mining) este partea centrală a procesului de descoperire de cunoştinţe din bazele de date (KDD), termenii data mining şi descoperirea de cunoştinţe din baze de date au fost utilizaţi alternativ de mulţi cercetători din domeniu. În ultimul timp însă, se face o distincţie clară între cei doi termeni. Distincţia care se face este referitoare la faptul că descoperirea de cunoştinţe din bazele de date (KDD) poate fi considerată ca procesul de extragere a informaţiilor folositoare şi interesante din baza de date. Aşa cum am arătat şi mai sus, (fig.1.1-1) acest proces include selectarea, pregătirea datelor, manipularea şi analiza rezultatelor. Pe de altă parte, extragerea datelor (Data Mining) este considerat procesul de aplicare a algoritmilor de descoperire a cunoştinţelor şi este o etapă a procesului KDD. Autorii care fac deosebire între DM si KDD consideră KDD ca fiind un proces iterativ şi interactiv complex, care include DM. Astfel, în cadrul KDD se considerã cã extragerea cunoştinţelor se realizează în următorii paşi (fig.1.1-1): învăţarea domeniului aplicaţiei - care constă în achiziţia unor cunoştinţe despre starea iniţială, precum şi despre scopul aplicaţiei; stabilirea setului de date - căruia i se va aplica procesul de extragere a cunoştinţelor; majoritatea autorilor atrag atenţia asupra acestei faze, numite şi faza de preprocesare; curăţirea şi selectarea datelor - care este un proces complex, specific depozitelor de date, în cadrul căruia se înlătură zgomotele, se reduc dimensiunile, se stabileşte modul de înlocuire a datelor care lipsesc, etc.; aplicarea procedurilor de DM - care este de fapt pasul cel mai important al procesului KDD; interpretarea rezultatelor din punct de vedere al utilizatorului - care este o fază de decizie; dacă acesta nu este mulţumit de rezultat, poate relua oricare dintre fazele precedente; 15

16 utilizarea cunoştinţelor descoperite - care este faza finală; această utilizare se realizează fie prin includerea lor în sisteme integrate de cunoştinţe fie, pur şi simplu, prin rapoarte simple adresate celor interesaţi. Aşadar, KDD/Data Mining este un domeniu inter-disciplinar care dezvoltă algoritmi şi procese pentru descoperirea cunoştinţelor (categorii, tipare, concepte, relaţii şi tendinţe), ne-structurate. Deoarece cercetătorii din domeniul KDD vin din cele mai diverse domenii, aşa cum era de aşteptat, KDD a împrumutat multe de la teoriile tradiţionale ale învăţării automate cât şi de la bazele de date. Învăţarea poate fi definită ca şi achiziţionarea de cunoştinţe fără o programare explicită. Învăţarea automată are ca scop automatizarea procesului de învăţare, aşa încât cunoştinţele să poată fi obţinute cu minim de efort din partea experţilor umani. Învăţarea automată, în mod tradiţional, este orientată pe învăţarea din seturi specificate şi în multe cazuri din date generate artificial. Extragerea de date (Data Mining) are ca scop să adapteze aceste paradigme ale învăţării automate la învăţarea din baze de date care conţin date din lumea reală. Învăţarea din baze de date are câteva avantaje: Datele sunt depozitate într-o manieră mai mult sau mai puţin structurată. De exemplu, într-o bază de date relaţională, datele sunt normalizate în relaţii, eliminând astfel redundanţa iar relaţiile pot fi combinate prin diferite căi pentru a regăsi seturile de date cerute din baza de date. Unele cunoştinţe din domeniu sunt deja codate în interiorul bazei de date. De exemplu, existenţa unei constrângeri de not null. De asemenea, cardinalitatea dintre legături (relaţii) este explicit specificată în interiorul structurii bazei de date, la fel şi constrângerile. Interogarea bazei de date la performanţe ridicate, precum şi existenţa unor unelte de manipulare a datelor şi a tranzacţiilor Numărul de baze de date pe care se aplică tehnici de minare este mare şi în creştere. Efortul consumat în dezvoltarea unor astfel de unelte este economic viabil Volumul de date este foarte mare. De exemplu, sistemul SKICAT a fost dezvoltat pentru a procesa trei terabytes de imagini grafice rezultate dintr-o 16

17 vedere a cerului. Din acest motiv, orice unealtă de extragere de date trebuie să se execute satisfăcător pe un volum mare de date Datele pot conţine zgomot. Uneltele de extragere de date trebuie să ofere un mecanism adecvat pentru găsirea rezultatelor suficient de corecte din date zgomotoase. Datele pot conţine informaţii incomplete. Nu toate informaţiile folositoare pentru descoperirea de cunoştinţe pot fi realmente depozitate în baza de date. De asemenea, pot fi prezente multe date redundante sau inutile. Aşadar uneltele de extragere de date trebuie să faciliteze atât selectarea datelor relevante cât şi învăţarea cu cunoştinţe incomplete. Datele nu au fost, în general, colectate cu scopul de descoperire a cunoştinţelor. Uneltele de descoperire a cunoştinţelor trebuie aşadar să acceseze date depozitate în forme variate. Un scop general al cercetării în domeniul descoperirii de cunoştinţa şi al extragerii de date este acela al utilizării avantajelor învăţării din baze de date ţinând cont de constrângerile impuse Model Data Mining În acest paragraf este prezentat un posibil model al procesului de extragere de date (Data Mining) propus de Rainsford în [RR96]. Pentru o bază de date, în general, numărul de reguli posibile ce pot fi extrase este mult mai mare decât numărul de tupluri din baza de date. Din acest motiv, descoperirea de cunoştinţe poate fi privit ca un proces cu multiple faze de selectare a regulilor interesante din totalul regulilor existente în interiorul bazei de date. Este aşadar un proces de reducere progresivă a totalului de reguli la un subset de reguli folositoare. 17

18 Aplicaţii Sisteme expert Inteligenţe artificiale Asigurarea integrităţii Optimizarea interogărilor semantice Sisteme suport de decizie Proiectarea bazei de date Baza de date Baza de cunoştinţe Creşte Set final de reguli Filtre date Domeniu/Cunoştinţe apriori Filtre Filtre Reguli tipare Reguli statistice Reguli Filtre semantice Control Control Control Control Tipare, Unelte de vizualizare şi selectare Specificarea regulilor şi tiparelor Parametri şi praguri Filtre şi Browseri Intrări utilizator Fig Model al procesului Data Minnig (conform Rainsford din 1993) Modelul descris în figura este bazat pe o rafinare obţinută cu multe din uneltele de cercetare curente, adică aceea a unui proces de reducere efectuat folosind o selecţie de filtre care reduc spaţiul de reguli pe baza datelor sursă, tiparelor de reguli, statisticilor şi semanticii. Există multe cazuri speciale când o fază a procesului de filtrare nu există sau nu este folosită în cadrul unei anumite unelte de cercetare, în aceste cazuri filtrul permite ca spaţiul de reguli să treacă ne-redus. Fiecare din fazele de filtrare poate consta din zero sau mai multe filtrări specificate de utilizator sau de sistemul de descoperire. Un controler central coordonează operaţia de filtrare. Aşa cum este arătat şi în figură, setul final de reguli poate fi interogat în baza de cunoştinţe existentă. Baza de cunoştinţe şi utilizatorul pot interacţiona la fiecare pas al 18

19 procesului de reducere a spaţiului de reguli. Filtrările au efect serios asupra ieşirilor în procesul de extragere de date. Filtrarea datelor este faza iniţială care implică selectarea datelor de interes pentru descoperirea cunoştinţelor. Utilizatorul poate direcţiona sistemul KDD la zone de interes folosind şabloane, unelte de vizualizare sau prin specificare unor strategii de eşantionare. Rezultatul acestei faze este reducerea setului de date de test şi reducerea corespunzătoare a spaţiului de reguli. Filtrarea tiparelor este a doua fază a procesului unde este specificat un tip de regulă specială de căutat. Acest tip poate fi specificat de limitări ale sistemului sau prin folosirea unor selecţii de modele sau tipuri de reguli. Tipul de tipar descoperit este limitat de sistemul KDD însuşi deoarece cele mai multe sisteme pot descoperi un număr limitat de tipuri de reguli. Tiparul poate fi în continuare limitat prin specificarea de către utilizator a existenţei unui atribut particular pe o parte sau pe cealaltă a regulii descoperite sau prin limitarea numărului de conjuncţii pe care o regulă le poate conţine. Efectul filtrului de tipare este aşadar de a reduce spaţiul de reguli la reguli de un anumit tip, de exemplu reguli de asociere care au un anumit termen ca şi componentă. Specificarea căutării unui tipar poate fi realizată intuitiv în forma unei cereri bazate pe şablon astfel: Găseşte toate regulile de asociere cu consecinţa LAPTE. În acest exemplu simplu de şablon, cuvintele scrise pot fi înlocuite în diferite forme cerute. Acesta poate fi implementat într-o interfaţă utilizând unelte cum ar fi liste, care simplifică interacţiunea utilizatorului cu sistemul. Cele mai multe sisteme KDD implementează câteva forme de şabloane pentru specificare tiparelor. Un exemplu este Nielsen Opportunity Explorer, o unealtă de descoperire de cunoştinţe care utilizează şabloane şi care a fost descris de Anand şi Kahn în [AK93]. În acest sistem şabloanele de descoperire a cunoştinţelor permit utilizatorului de asemenea să specifice atât tehnicile analitice care să fie aplicate (filtre statistice) cât şi datele pe care ele vor fi aplicate (filtre de date). 19

20 1.3. Cerinţele şi provocările extragerii de date În dezvoltarea tehnicilor de extragere de date se prefigurează o serie de trăsături şi cerinţe de bază ale unui sistem aplicat de extragere de cunoştinţe din bazele de date. 1. Tratarea diferitelor tipuri de date deoarece există o multitudine de date şi de baze de date, se aşteaptă de la un sistem de descoperire de cunoştinţe să poată trata cât mai multe tipuri diferite de date. Deoarece cele mai multe baze de date disponibile sunt relaţionale este crucial ca un sistem de descoperire de cunoştinţe să poată explora eficient datele relaţionale. Mai mult, multe sisteme de baze de date conţin tipuri de date complexe, cum ar fi date structurate şi obiecte complexe de date, date de tip hypertext şi multimedia, date spaţiale şi temporale, tranzacţii, şi altele. Un sistem de extragere de date trebuie să poată trata şi toate aceste tipuri complexe de date. În orice caz, cu toată această multitudine de tipuri de date şi ţinând cont de scopurile diferite ale unui sistem de extragere de date, este absurd să credem că acesta poate trata chiar toate tipurile de date. Sistemele de extragere de date sunt construite ca şi sisteme dedicate pentru descoperirea anumitor tipuri specifice de date în funcţie de destinaţia aplicaţiei respective, cum ar fi sisteme dedicate pentru extragerea de cunoştinţe din bazele de date relaţionale, din bazele de date tranzacţionale, din bazele de date spaţiale, din bazele de date multimedia, etc. 2. Eficienţa algoritmilor de extragere de date pentru a extrage informaţii din cantităţi enorme de date din bazele de date, algoritmii de descoperire de cunoştinţe trebuie să fie eficienţi şi să poată fi dezvoltaţi şi îmbunătăţiţi pentru bazele de date de dimensiuni mari. Astfel, timpul de execuţie al acestor algoritmi pe baze de date de dimensiuni mari, trebuie să fie previzibil şi acceptabil. 3. Utilitatea, exactitatea şi expresivitatea rezultatelor extragerii de date cunoştinţele descoperite trebuie să reflecte exact conţinutul bazei de date şi sa fie utile unor aplicaţii concrete. Imperfecţiunile trebuie să poată fi exprimate prin măsuri de incertitudine, sub formă de reguli de aproximare sau reguli cantitative. Aceasta, stă la baza unui studiu sistematic de măsurare a calităţii cunoştinţelor descoperite, inclusiv a interesului şi încrederii, prin construirea unor modele şi instrumente statistice, analitice şi simulative. 20

21 4. Exprimarea rezultatelor extragerii unor tipuri variate de date din cantităţi mari de date pot fi extrase diferite tipuri de cunoştinţe. Aceste cunoştinţe pot fi examinate din diferite puncte de vedere şi prezentate sub diferite forme. Pentru aceasta, ele trebuie utilizate în limbaje de programare de nivel înalt sau interfeţe grafice pentru utilizator, astfel încât să poată fi înţelese şi interpretate de nespecialişti, iar cunoştinţele descoperite să poată fi utilizate de utilizatori. Din acest motiv sistemele de descoperire de cunoştinţe trebuie să adopte tehnici de reprezentare cât mai expresivă a cunoştinţelor descoperite. 5. Extragerea de cunoştinţe interactivă la multiple nivele de abstractizare deoarece este foarte dificil de prezis cu exactitate ce se va extrage dintr-o bază de date, o cerere de extragere de date de înalt nivel trebuie tratată ca o sursă de explorări viitoare interesante. Trebuie dezvoltată o extragere de date interactivă pentru a permite utilizatorului să rafineze interactiv cererile de extragere de date, să concentreze dinamic schimbarea datelor, să adâncească progresiv procesul de extragere de date, şi să privească flexibil datele şi rezultatele extragerii de date, la nivele multiple de abstractizare şi din diferite unghiuri. 6. Extragerea de informaţii din diferite surse de date diversitatea reţelelor locale şi de largă răspândire, incluzând internetul, conectează o mulţime de surse de date din baze de date imense distribuite şi eterogene. Extragerea de date din diferite surse de date formatate sau neformatate cu diferite semantici generează noi provocări domeniului. Pe de altă parte, extragerea de date poate dezvălui regularităţi de nivel înalt în baze de date eterogene ce pot fi descoperite foarte greu printr-o interogare clasică a bazei de date. Mai mult, dimensiunea imensă a bazelor de date, larga distribuţie a datelor şi complexitatea calculelor unor metode de extragere de date, au dus la dezvoltarea unor algoritmi de extragere de date paraleli şi distribuiţi. 7. Asigurarea confidenţialităţii şi securitatea datelor în situaţia în care datele pot fi privite din diferite puncte de vedere şi la diferite nivele de abstractizare, apare necesitatea asigurării securităţii datelor şi protejarea împotriva violării confidenţialităţii datelor. Este important de studiat cazurile în care descoperirea de cunoştinţe poate duce la invadarea confidenţialităţii, şi ce măsuri de securitate pot fi luate pentru a preveni dezvăluirea de informaţii sensibile. 21

22 Unele dintre aceste cerinţe pot duce la rezultate conflictuale. De exemplu asigurarea securităţii datelor poate intra în conflict cu asigurarea extragerii interactive a cunoştinţelor de nivel multiplu din diferite puncte de vedere Extragerea de date privită din perspectiva bazelor de date În ultimii ani, capacitatea noastră de a genera şi stoca date a crescut enorm şi rapid. Răspândirea pe scară tot mai largă a utilizării codurilor de bare pentru cele mai multe produse comerciale şi informatizarea multor tranzacţii comerciale şi guvernamentale, cât şi progresul în domeniul apariţiei uneltelor de lucru avansate în colectarea de date, ne obligă să avem de-a face cu cantităţi tot mai imense de date de prelucrat. Milioane de baze de date sunt utilizate la ora actuală în aplicaţii de managementul afacerilor, administrare guvernamentală, gestionarea datelor ştiinţifice şi inginereşti, cât şi în multe alte tipuri de aplicaţii. Această explozie masivă de date în domeniul bazelor de date a generat o nevoie urgentă de creare de tehnici şi instrumente noi, inteligente care să transforme automat datele procesate în cunoştinţe şi informaţii utile. Aşadar, extragerea de date (Data Mining) a devenit un domeniu de cercetare de o deosebită importanţă [PSF91], [FPS + 96]. Extragerea de date (Data Mining - DM) denumită şi descoperirea de cunoştinţe din bazele de date (Knowledge Discovery in Databases KDD) reprezintă un proces însemnat de extragere a informaţiilor implicite, previzibile şi potenţial folositoare din bazele de date [PSF91]. În lucrările de specialitate apărute de-a lungul anilor, au fost folosiţi şi alţi termeni pentru a defini acest domeniu, cum ar fi: extragere de cunoştinţe din bazele de date, extragere de date, arheologia datelor, analiza datelor, etc. Prin descoperirea de cunoştinţe din bazele de date, se extrag informaţii şi cunoştinţe interesante, regulate, din mulţimi relevante de date din bazele de date care, apoi, sunt investigate din mai multe puncte de vedere, din diferite unghiuri, pentru a genera surse de cunoştinţa fiabile. Extragerea de cunoştinţe şi informaţii din bazele mari de date a fost recunoscut de mulţi cercetători ca fiind un domeniu de cercetare cheie care oferă multe si variate oportunităţi de investigare. Un interes foarte mare l-au arătat pentru acest domeniu de cercetare mulţi specialişti din diferite arii: sisteme de baze de date, statistică, inteligenţa 22

23 artificială, sisteme bazate pe cunoştinţe, învăţare automată, achiziţie de date, baze de date spaţiale, vizualizarea datelor, servicii on-line şi WWW, şi altele. Deoarece extragerea de date oferă multe posibilităţi de cercetare, aplicarea directă a metodelor şi tehnicilor dezvoltate în studierea învăţării automate, a statisticii şi a bazelor de date nu poate rezolva toate problemele apărute. Astfel, sunt necesare studii dedicate special pentru a inventa noi metode pentru extragerea de date şi pentru a dezvolta tehnici noi, integrate pentru o extragere de date eficientă şi efectivă. Din acest motiv, extragerea de date din bazele de date a devenit un domeniu de cercetare independent şi de sine stătător. Aşadar, în ultimii ani au fost dezvoltate o mulţime de tehnici şi sisteme pentru a realiza extragerea de date din bazele de date [CHY96]. Aceste tehnici pot fi clasificate după o serie de criterii, aşa cum urmează: În funcţie de tipul datelor cu care lucrează. Un sistem de extragere de date poate fi clasificat în funcţie de tipul de baze de date din care extrage datele. De exemplu, avem un sistem relaţional de extragere de date dacă descoperă cunoştinţe dintr-o bază de date relaţională, sau avem un sistem orientat pe obiect dacă extrage cunoştinţe dintr-o bază de date obiectuală. În general, un sistem de extragere de date poate descoperi cunoştinţe din mai multe tipuri de baze de date: o relaţionale, o tranzacţionale, o obiectuale, o deductive, o spaţiale, o temporale, o multimedia, o eterogene, o active, o moştenite, o Web. În funcţie de tipul cunoştinţelor extrase Există o serie de cunoştinţe tipice care pot fi extrase din bazele de bate: o Reguli de asociere o Reguli caracteristice 23

24 o Reguli de clasificare o Reguli discriminante o Grupări o Evoluţii Mai mult decât atât, datele extrase pot fi categorisite şi în funcţie de nivelul de abstractizare al cunoştinţelor descoperite, ce poate fi: o Cunoştinţe generalizate o Cunoştinţe de nivel primitiv o Cunoştinţe multi-nivel În funcţie de tehnicile utilizate. Sistemele de extragere de date pot utiliza mai multe tehnici pentru a-şi atinge scopul. De exemplu, în funcţie de metoda coordonatoare avem: o extragere determinată de date, o extragere determinată de interogări, o extragere determinată de date interactive În funcţie de abordarea fundamentală a extragerii de date avem: o extragere bazată pe generalizări o extragere bazată pe tipare o extragere bazată pe teorii statistice o extragere bazată pe teorii matematice Extragerea de date din baze de date este o problemă dependentă de aplicaţie, aşadar, diferite tipuri de aplicaţii vor necesita diferite tehnici de extragere de date. Extragerea de date din baze de date relaţionale sau tranzacţionale a atras recent foarte mult atenţia comunităţii cercetătorilor în domeniul bazelor de date. Problema este de a obţine un set puternic de reguli de asociere de forma X 1... X m Y 1... YB n, unde X i (pentru i {1,, m}) şi Y j (pentru j {1,, n}) sunt seturi de perechi atributvaloare, din seturi relevante de date din baza de date. De exemplu, putem găsi o regulă de asociere de forma un client care cumpără un anumit sortiment de lapte cumpără de asemenea şi un anumit sortiment de pâine la aceeaşi tranzacţie. 24

25 Deoarece extragerea de reguli de asociere de acest fel poate necesita parcurgerea unei baze de date tranzacţionale în mod repetat de nenumărate ori, pentru a găsi diferite tipare de asociere, timpul de procesare poate creşte enorm aşadar, îmbunătăţirea performanţei trebuie să fie o preocupare esenţială la extragerea acestor tipuri de reguli. În capitolul 3 sunt prezentaţi o serie algoritmi pentru extragerea regulilor de asociere şi câteva metode pentru îmbunătăţirea performanţelor acestora. Cele mai populare unelte de extragere de date şi de analiză a datelor asociate sistemelor de baze de date sunt uneltele de generalizare a datelor şi uneltele de rezumare a datelor care poartă diferite denumiri, cum ar fi: procesare analitică on-line (On-Line Analitycal Processing OLAP), baze de date multi-dimensionale, cuburi de date, abstractizarea datelor, generalizarea datelor, caracterizarea datelor, rezumarea datelor, etc. O altă aplicare importantă a extragerii de date este abilitatea de a crea clasificări în cantităţi enorme de date, adică de a crea reguli de clasificare. Clasificarea datelor presupune clasificarea lor pe baza valorilor atributelor lor. De exemplu, un distribuitor de maşini are nevoie de o clasificare a clienţilor în funcţie de preferinţele lor pentru maşini, astfel încât vânzătorul să ştie pe cine să abordeze, iar cataloagele cu noile modele de maşini să fie expediate direct spre acei clienţi care pot deveni potenţialii cumpărători. 25

26 2. TEHNICI DE EXTRAGERE DE DATE (DATA MINING) 2.1 Noţiuni de bază Datorită faptului că acest domeniu de cercetare este foarte provocator, aplicarea directă a metodelor şi tehnicilor dezvoltate în domeniile învăţării automate (machine learning), a statisticii, a bazelor de date, nu mai pot rezolva multitudinea de probleme cu care se confruntă. Este necesară dezvoltarea unor studii dedicate acestor probleme, dezvoltarea unor tehnici integrate pentru extragerea eficientă şi efectivă a datelor. Din acest motiv, extragerea de date a format un nou domeniu de cercetare independent [BRR01]. Tipurile de date pe care se pot aplica tehnicile Data Mining sunt: baze de date relaţionale, baze de date deductive, depozite de date (data warehouses), baze de date tranzacţionale, baze de date avansate şi depozite de informaţii cum ar fi: baze de date orientate pe obiect şi relaţional-obiectuale, baze de date spaţiale, baze de date text şi multimedia, etc. Folosind tehnicile de extragere de date pot fi descoperite diferite tipuri de informaţii cum ar fi: reguli de asociere, reguli caracteristice, reguli de clasificare, reguli discriminante sau analiza grupării, evoluţiei şi derivării datelor. Tehnicile Data Mining utilizează metode din domenii cum ar fi: baze de date, statistică, învăţare automată, recunoaşterea formelor şi vizualizare. Tehnicile şi uneltele bazelor de date (SQL) sunt utilizate pentru: depozitarea datelor, accesarea datelor sursă, selectarea şi integrarea datelor, procesarea datelor. Tehnicile statistice sunt utilizate pentru: explorarea datelor, preprocesarea datelor şi postprocesarea datelor, construirea unui model statistic, testarea modelului şi verificarea rezultatelor. Învăţarea automată oferă algoritmi folositori în extragerea datelor cum ar fi: inducţia arborilor decizionali, reţele neuronale, gruparea conceptuală, algoritmi genetici. Recunoaşterea formelor oferă metodologii şi tehnici pentru: clasificare, grupare, selectarea de caracteristici şi validarea rezultatelor. 26

27 Extragerea de date este o problemă dependentă de aplicaţie, astfel încât în funcţie de cerinţele acesteia pot fi folosite o serie de tipuri de tehnici de extragere a datelor. La ora actuală există mai multe metode de Data Mining. Alegerea metodei potrivite unei aplicaţii se face ţinând cont de date, de situaţie şi de obiectivele acesteia. Principalele tehnici de extragere de date sunt prezentate în continuare Clasificarea şi regresia Clasificarea este probabil cea mai utilizată tehnică de data mining. Clasificarea datelor este procesul prin care căutăm proprietăţi comune în seturi de obiecte din bazele de date şi le clasificăm în clase diferite în conformitate cu un model de clasificare. Clasificarea permite crearea modelelor pentru prezicerea membrilor unei clase. Estimarea şi predicţia pot fi considerate ca şi tipuri de clasificare. Obiectivul clasificării este în primul rând analiza datelor antrenate şi dezvoltarea unei descrieri exacte sau a unui model pentru fiecare clasă, folosind trăsăturile disponibile ale datelor. O astfel de descriere sau clasă este folosită apoi pentru a clasifica viitoarele date test într-o altă bază de date sau pentru a dezvolta o descriere mai bună (numită regulă de clasificare) pentru fiecare clasă din baza de date. Clasificarea este folosită cu succes în domenii ca: aprobări de credite, găsirea cumpărătorilor ţintă, diagnosticare medicală, analiza tratamentelor ineficiente, clasificarea tendinţelor financiare, detectarea erorilor în aplicaţiile industriale, etc. Regresia este utilizată la prezicerea unei valori a unei variabile continue pe baza valorilor altor variabile, presupunând un model de dependenţă liniar sau neliniar. Regresia logistică este utilizată pentru prezicerea valorii unei variabile binare. Regresia logistică este o unealtă de clasificare care este utilizată la precizarea valorii unei variabile, de exemplu: dacă o persoană este cumpărător sau nu, de asemenea este utilizată la prezicerea variabilelor continue, de exemplu: probabilitatea ca o persoană să facă cumpărături sau nu. Datele utilizate la construcţia unui model de clasificare sunt: Un set de înregistrări Toate înregistrările au acelaşi număr de câmpuri Un câmp conţine indicatorul clasei căreia aparţine înregistrarea 27

28 Restul câmpurilor sunt numite câmpuri independente şi descriu obiecte individuale care compun înregistrarea În figura este prezentat ca şi exemplu un set de date de antrenare al cumpărătorilor de calculatoare. Vârsta Student Venit Nivel_creditare nu mare normal <=30 da mic excelent da mediu normal >40 nu mediu excelent >40 nu mare excelent <=30 da mediu normal nu mic normal nu mare excelent <=30 da mic normal Fig Set de date de antrenare Clasificare datelor a fost îndelung studiată în statistică, învăţarea automată, reţele neuronale şi sisteme expert fiind o problemă importantă în extragerea datelor [FPS + 96]. La ora actuală există o serie de algoritmi de extragere a datelor importanţi pentru clasificare şi regresie, bazaţi pe: arbori de decizie, reţele neuronale, algoritmi genetici, algoritmul celor mai apropiaţi k vecini (k-nearest neighbors), modelul regulilor de asociere, etc Clasificarea bazată pe arbori de decizie Definiţie Un arbore de decizie (arbore de clasificare) este o structură folosită pentru a divide o colecţie mare de articole în seturi mai mici succesive aplicând o secvenţă de reguli simple de decizie. Această tehnică construieşte un arbore pentru a modela un proces de clasificare. O dată arborele construit, el este aplicat fiecărui articol (tuplu) al bazei de date 28

29 şi rezultatelor clasificării acelui articol. Tehnica are doi paşi de bază: construirea arborelui şi aplicarea arborelui la baza de date. Metoda de clasificare bazată pe arbori de decizie a fost foarte des folosită în studierea învăţării automate [Qui86]. Este o metodă de supervizare a învăţării care construieşte arbori de decizie dintr-un set de exemple. Clasificarea bazată pe arbori de decizie este o metodă pentru aproximarea funcţiilor ţintă cu valori discrete, în care funcţia de învăţare este reprezentată printr-un arbore de decizie. Calitatea arborelui depinde atât de acurateţea clasificării cât şi de dimensiunea arborelui. Metoda alege în primul rând un subset din exemplele antrenate pentru a forma un arbore de decizie. Dacă arborele creat nu oferă răspunsul corect pentru toate obiectele, se adaugă o selecţie a excepţiilor la arbore şi procesul continuă până când setul corect de decizie este găsit. Arborii de decizie execută mai multe teste şi apoi încearcă să ajungă la cea mai bună secvenţă pentru precizarea scopului. Fiecare test creează ramuri care conduc la mai multe testări, până când testarea se termină într-un nod frunză (Fig ). Arborii de decizie pot fi construiţi fie de sus în jos fie de la stânga la dreapta. Nodul de sus (marginea stângă) este nodul rădăcină. Nodurile descendente sunt noduri fii, iar nodurile de jos (marginea dreaptă) sunt noduri frunză. Calea unică de la nodul rădăcină la un nod frunză formează o regulă. ramuri Decizia 1 DA NU Decizia 2 Regula Decizia 3 DA NU DA NU Decizia 4 Decizia 5 DA NU DA NU frunze Fig Exemplu de arbore de decizie 29

30 Calea de la nodul rădăcină la nodul frunză ţintă, reprezentată cu linie punctată în fig , este regula care clasifică scopul. Regulile sunt exprimate sub formă de reguli ifthen. Un arbore de decizie este o structură în care: Nodurile interne indică un test pe un atribut Ramurile reprezintă rezultatul unui test Nodurile frunză reprezintă etichete ale claselor Inducţia arborelui de decizie Inducţia este procesul care creează arborele de decizie folosind un set de date antrenate. Ea cere un număr mic de treceri prin setul e antrenare [Qui86]. Crearea arborilor de decizie este de cele mai multe ori alcătuită din două faze: faza de construcţie (creştere) a arborelui (prin divizare splitting ) urmată de faza de tăiere (pruning). Faza de construire a arborelui este un proces iterativ care implică divizarea progresivă a datelor în subseturi. Prima iteraţie consideră că nodul rădăcină conţine toate datele. Următoarea iteraţie lucrează pe noduri derivate care vor conţine subseturi de date. La fiecare divizare, sunt analizate variabilele şi este aleasă cea mai bună divizare. O caracteristică importantă a divizării este faptul că ea este lacomă (greedy), ceea ce înseamnă că algoritmul nu verifică arborele înainte să vadă dacă o altă decizie ar produce un rezultat final mai bun. Faza de tăiere identifică şi mută ramurile care reflectă zgomote sau excepţii. Arborii de decizie sunt utilizaţi pentru clasificarea exemplelor necunoscute prin testarea valorilor atributelor exemplelor prin arborele de decizie. Algoritmii de construire a arborilor de decizie au de obicei reguli de oprire. Aceste reguli sunt bazate, în general, pe adâncimea maximă a arborelui, numărul minim de elemente dintr-un nod care este considerat pentru divizare sau numărul minim de elemente care trebuie să fie într-un nod nou. Utilizatorul poate modifica parametri asociaţi acestor reguli. Unii algoritmi încep prin construirea arborilor de decizie la adâncimea lor maximă. Un astfel de arbore poate preciza exact toate exemplele din setul de date de antrenare (exceptând înregistrările conflictuale). Folosind exemplul din fig al cumpărătorilor de calculatoare, se poate construi arborele de decizie astfel: 30

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice "Îmbunătăţirea proceselor şi activităţilor educaţionale în cadrul programelor de licenţă şi masterat în domeniul

More information

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962)

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962) ARBORI AVL (denumiti dupa Adelson-Velskii si Landis, 1962) Georgy Maximovich Adelson-Velsky (Russian: Гео ргий Макси мович Адельсо н- Ве льский; name is sometimes transliterated as Georgii Adelson-Velskii)

More information

Procesarea Imaginilor

Procesarea Imaginilor Procesarea Imaginilor Curs 11 Extragerea informańiei 3D prin stereoviziune Principiile Stereoviziunii Pentru observarea lumii reale avem nevoie de informańie 3D Într-o imagine avem doar două dimensiuni

More information

Versionare - GIT ALIN ZAMFIROIU

Versionare - GIT ALIN ZAMFIROIU Versionare - GIT ALIN ZAMFIROIU Controlul versiunilor - necesitate Caracterul colaborativ al proiectelor; Backup pentru codul scris Istoricul modificarilor Terminologie și concepte VCS Version Control

More information

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin Structura și Organizarea Calculatoarelor Titular: BĂRBULESCU Lucian-Florentin Chapter 3 ADUNAREA ȘI SCĂDEREA NUMERELOR BINARE CU SEMN CONȚINUT Adunarea FXP în cod direct Sumator FXP în cod direct Scăderea

More information

Metrici LPR interfatare cu Barix Barionet 50 -

Metrici LPR interfatare cu Barix Barionet 50 - Metrici LPR interfatare cu Barix Barionet 50 - Barionet 50 este un lan controller produs de Barix, care poate fi folosit in combinatie cu Metrici LPR, pentru a deschide bariera atunci cand un numar de

More information

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC)

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) Semnale şi sisteme Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) http://shannon.etc.upt.ro/teaching/ssist/ 1 OBIECTIVELE CURSULUI Disciplina îşi propune să familiarizeze

More information

Reţele Neuronale Artificiale în MATLAB

Reţele Neuronale Artificiale în MATLAB Reţele Neuronale Artificiale în MATLAB Programul MATLAB dispune de o colecţie de funcţii şi interfeţe grafice, destinate lucrului cu Reţele Neuronale Artificiale, grupate sub numele de Neural Network Toolbox.

More information

ISBN-13:

ISBN-13: Regresii liniare 2.Liniarizarea expresiilor neliniare (Steven C. Chapra, Applied Numerical Methods with MATLAB for Engineers and Scientists, 3rd ed, ISBN-13:978-0-07-340110-2 ) Există cazuri în care aproximarea

More information

Managementul Proiectelor Software Metode de dezvoltare

Managementul Proiectelor Software Metode de dezvoltare Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Managementul Proiectelor Software Metode de dezvoltare 2 Metode structurate (inclusiv metodele OO) O mulțime de pași și

More information

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales MANAGEMENTUL CALITĂȚII - MC Proiect 5 Procedura documentată pentru procesul ales CUPRINS Procedura documentată Generalități Exemple de proceduri documentate Alegerea procesului pentru realizarea procedurii

More information

Modalitǎţi de clasificare a datelor cantitative

Modalitǎţi de clasificare a datelor cantitative Modalitǎţi de clasificare a datelor cantitative Modul de stabilire a claselor determinarea pragurilor minime şi maxime ale fiecǎrei clase - determinǎ modul în care sunt atribuite valorile fiecǎrei clase

More information

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A.

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A. Excel Advanced Curriculum Școala Informală de IT Tel: +4.0744.679.530 Web: www.scoalainformala.ro / www.informalschool.com E-mail: info@scoalainformala.ro Cuprins 1. Funcții Excel pentru avansați 2. Alte

More information

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban Reflexia şi refracţia luminii. Aplicaţii. Sumar 1. Indicele de refracţie al unui mediu 2. Reflexia şi refracţia luminii. Legi. 3. Reflexia totală 4. Oglinda plană 5. Reflexia şi refracţia luminii în natură

More information

Auditul financiar la IMM-uri: de la limitare la oportunitate

Auditul financiar la IMM-uri: de la limitare la oportunitate Auditul financiar la IMM-uri: de la limitare la oportunitate 3 noiembrie 2017 Clemente Kiss KPMG in Romania Agenda Ce este un audit la un IMM? Comparatie: audit/revizuire/compilare Diferente: audit/revizuire/compilare

More information

GHID DE TERMENI MEDIA

GHID DE TERMENI MEDIA GHID DE TERMENI MEDIA Definitii si explicatii 1. Target Group si Universe Target Group - grupul demografic care a fost identificat ca fiind grupul cheie de consumatori ai unui brand. Toate activitatile

More information

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N Pentru a putea vizualiza imaginile unei camere web IP conectată într-un router ZTE H218N sau H298N, este necesară activarea serviciului Dinamic DNS oferit de RCS&RDS, precum și efectuarea unor setări pe

More information

M C I O H L BAZE DE CUNOŞTINŢE A H E O L N S I S T E M E D E R E P R E Z E N A R E Ş I P R O C E S A R E A A C U N O Ş T I N Ţ E L O R

M C I O H L BAZE DE CUNOŞTINŢE A H E O L N S I S T E M E D E R E P R E Z E N A R E Ş I P R O C E S A R E A A C U N O Ş T I N Ţ E L O R BAZE DE CUNOŞTINŢE S I S T E M E D E R E P R E Z E N A R E Ş I P R O C E S A R E A C U N O Ş T I N Ţ E L O R M C I O H L A H E O L N A TIPURI DE CUNOŞTINŢE Pentru a putea rezolva problemele complexe de

More information

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB Grafuri bipartite Lecție de probă, informatică clasa a XI-a Mihai Bărbulescu b12mihai@gmail.com Facultatea de Automatică și Calculatoare, UPB Colegiul Național de Informatică Tudor Vianu București 27 februarie

More information

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila MS POWER POINT s.l.dr.ing.ciprian-bogdan Chirila chirila@cs.upt.ro http://www.cs.upt.ro/~chirila Pornire PowerPoint Pentru accesarea programului PowerPoint se parcurg următorii paşi: Clic pe butonul de

More information

O ALTERNATIVĂ MODERNĂ DE ÎNVĂŢARE

O ALTERNATIVĂ MODERNĂ DE ÎNVĂŢARE WebQuest O ALTERNATIVĂ MODERNĂ DE ÎNVĂŢARE Cuvinte cheie Internet WebQuest constructivism suport educational elemente motivationale activitati de grup investigatii individuale Introducere Impactul tehnologiilor

More information

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: "9",

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: 9, La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - (ex: "9", "125", 1573" - se va scrie fara ghilimele) Parola: -

More information

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; }

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; } Arbori Arborii, ca şi listele, sunt structuri dinamice. Elementele structurale ale unui arbore sunt noduri şi arce orientate care unesc nodurile. Deci, în fond, un arbore este un graf orientat degenerat.

More information

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND Textul si imaginile din acest document sunt licentiate Attribution-NonCommercial-NoDerivs CC BY-NC-ND Codul sursa din acest document este licentiat Public-Domain Esti liber sa distribui acest document

More information

Subiecte Clasa a VI-a

Subiecte Clasa a VI-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul numarului intrebarii

More information

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC Anul II Nr. 7 aprilie 2013 ISSN 2285 6560 Referent ştiinţific Lector univ. dr. Claudiu Ionuţ Popîrlan Facultatea de Ştiinţe Exacte Universitatea din

More information

SISTEME INTELIGENTE DE SUPORT DECIZIONAL. Ș.l.dr.ing. Laura-Nicoleta IVANCIU. Curs 7 Sisteme inteligente de suport decizional bazate pe RNA

SISTEME INTELIGENTE DE SUPORT DECIZIONAL. Ș.l.dr.ing. Laura-Nicoleta IVANCIU. Curs 7 Sisteme inteligente de suport decizional bazate pe RNA SISTEME INTELIGENTE DE SUPORT DECIZIONAL Ș.l.dr.ing. Laura-Nicoleta IVANCIU Curs 7 Sisteme inteligente de suport decizional bazate pe RNA Cuprins RNA pentru aproximare de funcții Clasificatori cu RNA Studii

More information

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii www.pwc.com/ro Aspecte controversate în Procedura Insolvenţei şi posibile soluţii 1 Perioada de observaţie - Vânzarea de stocuri aduse în garanţie, în cursul normal al activității - Tratamentul leasingului

More information

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M )

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M ) FLEXIMARK FCC din oțel inoxidabil este un sistem de marcare personalizată în relief pentru cabluri și componente, pentru medii dure, fiind rezistent la acizi și la coroziune. Informații Included in FLEXIMARK

More information

INSTRUMENTE DE MARKETING ÎN PRACTICĂ:

INSTRUMENTE DE MARKETING ÎN PRACTICĂ: INSTRUMENTE DE MARKETING ÎN PRACTICĂ: Marketing prin Google CUM VĂ AJUTĂ ACEST CURS? Este un curs util tuturor celor implicați în coordonarea sau dezvoltarea de campanii de marketingși comunicare online.

More information

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows Ghid identificare versiune AWP, instalare AWP 4.5.4 şi verificare importare certificat în Store-ul de Windows Data: 28.11.14 Versiune: V1.1 Nume fişiser: Ghid identificare versiune AWP, instalare AWP 4-5-4

More information

Olimpiad«Estonia, 2003

Olimpiad«Estonia, 2003 Problema s«pt«m nii 128 a) Dintr-o tabl«p«trat«(2n + 1) (2n + 1) se ndep«rteaz«p«tr«telul din centru. Pentru ce valori ale lui n se poate pava suprafata r«mas«cu dale L precum cele din figura de mai jos?

More information

ACADEMIA DE STUDII ECONOMICE. Integrarea Sistemelor Informatice

ACADEMIA DE STUDII ECONOMICE. Integrarea Sistemelor Informatice ACADEMIA DE STUDII ECONOMICE FACULTATEA DE CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ Master Informatică Economică Integrarea Sistemelor Informatice Problemele integrării pentru big data Student

More information

Metoda BACKTRACKING. prof. Jiduc Gabriel

Metoda BACKTRACKING. prof. Jiduc Gabriel Metoda BACKTRACKING prof. Jiduc Gabriel Un algoritm backtracking este un algoritm de căutare sistematică și exhausivă a tuturor soluțiilor posibile, dintre care se poate alege apoi soluția optimă. Problemele

More information

Update firmware aparat foto

Update firmware aparat foto Update firmware aparat foto Mulţumim că aţi ales un produs Nikon. Acest ghid descrie cum să efectuaţi acest update de firmware. Dacă nu aveţi încredere că puteţi realiza acest update cu succes, acesta

More information

ANTICOLLISION ALGORITHM FOR V2V AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP V2V (VEHICLE-TO-VEHICLE)

ANTICOLLISION ALGORITHM FOR V2V AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP V2V (VEHICLE-TO-VEHICLE) ANTICOLLISION ALGORITHM FOR VV AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP VV (VEHICLE-TO-VEHICLE) 457 Florin MARIAŞIU*, T. EAC* *The Technical University

More information

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog Laborator 1 Programare declarativă O paradigmă de programare în care controlul fluxului de execuție este lăsat la latitudinea implementării limbajului, spre deosebire de programarea imperativă în care

More information

Propuneri pentru teme de licență

Propuneri pentru teme de licență Propuneri pentru teme de licență Departament Automatizări Eaton România Instalație de pompare cu rotire în funcție de timpul de funcționare Tablou electric cu 1 pompă pilot + 3 pompe mari, cu rotirea lor

More information

Nume şi Apelativ prenume Adresa Număr telefon Tip cont Dobânda Monetar iniţial final

Nume şi Apelativ prenume Adresa Număr telefon  Tip cont Dobânda Monetar iniţial final Enunt si descriere aplicatie. Se presupune ca o organizatie (firma, banca, etc.) trebuie sa trimita scrisori prin posta unui numar (n=500, 900,...) foarte mare de clienti pe care sa -i informeze cu diverse

More information

Managementul referinţelor cu

Managementul referinţelor cu TUTORIALE DE CULTURA INFORMAŢIEI Citarea surselor de informare cu instrumente software Managementul referinţelor cu Bibliotecar Lenuţa Ursachi PE SCURT Este gratuit Poţi adăuga fişiere PDF Poţi organiza,

More information

Metoda de programare BACKTRACKING

Metoda de programare BACKTRACKING Metoda de programare BACKTRACKING Sumar 1. Competenţe............................................ 3 2. Descrierea generală a metodei............................. 4 3......................... 7 4. Probleme..............................................

More information

O abordare Data Mining pentru detectarea accesului neautorizat la baza de date.

O abordare Data Mining pentru detectarea accesului neautorizat la baza de date. O abordare Data Mining pentru detectarea accesului neautorizat la baza de date. 1. Introducere 2. Lucrări asemănătoare 3. Modelul de clasificare 4. Dependenţele intre date 4.1 Terminologia dependenţei

More information

NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE

NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE Eugen DOBÂNDĂ NOTES ON THE MATHEMATICAL MODELING IN QUASI-DYNAMIC REGIME OF A CLASSES OF MICROHYDROTURBINE

More information

10. Modelarea şi eliminarea zgomotelor din imaginile digitale

10. Modelarea şi eliminarea zgomotelor din imaginile digitale Procesarea Imaginilor - Laborator 0: Modelarea şi eliminarea zgomotelor din imagini 0. Modelarea şi eliminarea zgomotelor din imaginile digitale 0.. Introducere Zgomotul este o informaţie nedorită care

More information

METODE FIZICE DE MĂSURĂ ŞI CONTROL NEDISTRUCTIV. Inspecţia vizuală este, de departe, cea mai utilizată MCN, fiind de obicei primul pas într-o

METODE FIZICE DE MĂSURĂ ŞI CONTROL NEDISTRUCTIV. Inspecţia vizuală este, de departe, cea mai utilizată MCN, fiind de obicei primul pas într-o Cuprins: 1. Introducere 2. Inspecţia vizuală 6. Testarea ultrasonică 7. Radiografia 3. Metoda lichidului penetrant 4. Inspecţia cu particule magnetice 5. Testarea folosind curenţii Eddy 1 Inspecţia vizuală

More information

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU Universitatea Constantin Brâncuşi din Târgu-Jiu Facultatea de Inginerie Departamentul de Automatică, Energie şi Mediu BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU 2 Curs 1 Noţiuni introductive despre teoria

More information

Capitolul 7. Data mining. F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5.

Capitolul 7. Data mining. F. Radulescu. Curs: Utilizarea bazelor de date, anul IV C5. Capitolul 7 Data mining 1 Ce este Data mining? Iniţial data mining (căutarea în date, extragerea de cunostinte din date) a fost un termen din statistică însemnând suprautilizarea datelor pentru a deduce

More information

Prelucrarea numerică a semnalelor

Prelucrarea numerică a semnalelor Prelucrarea numerică a semnalelor Assoc.Prof. Lăcrimioara GRAMA, Ph.D. http://sp.utcluj.ro/teaching_iiiea.html 27 februarie 2017 Lăcrimioara GRAMA (sp.utcluj.ro) Prelucrarea numerică a semnalelor 27 februarie

More information

Transmiterea datelor prin reteaua electrica

Transmiterea datelor prin reteaua electrica PLC - Power Line Communications dr. ing. Eugen COCA Universitatea Stefan cel Mare din Suceava Facultatea de Inginerie Electrica PLC - Power Line Communications dr. ing. Eugen COCA Universitatea Stefan

More information

Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple. Memoria cache Memoria virtuală

Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple. Memoria cache Memoria virtuală Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple Memoria cache Memoria virtuală 1 Memorii RAM: datele sunt identificate cu ajutorul unor adrese unice Memorii asociative:

More information

Software Process and Life Cycle

Software Process and Life Cycle Software Process and Life Cycle Drd.ing. Flori Naghiu Murphy s Law: Left to themselves, things tend to go from bad to worse. Principiile de dezvoltare software Principiul Calitatii : asigurarea gasirii

More information

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive.

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive. . egimul de curent continuu de funcţionare al sistemelor electronice În acest regim de funcţionare, valorile mărimilor electrice ale sistemului electronic sunt constante în timp. Aşadar, funcţionarea sistemului

More information

CERERI SELECT PE O TABELA

CERERI SELECT PE O TABELA SQL - 1 CERERI SELECT PE O TABELA 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890 11 1325

More information

Studiu comparat asupra tehnicilor de data mining utilizate în rezolvarea problemelor de regresie si clasificare

Studiu comparat asupra tehnicilor de data mining utilizate în rezolvarea problemelor de regresie si clasificare Revista Informatica Economica, nr. 3(27)/2003 105 Studiu comparat asupra tehnicilor de data mining utilizate în rezolvarea problemelor de regresie si clasificare Ec. Valentin MILITARU Catedra de Informatica

More information

METODE DE EVALUARE A IMPACTULUI ASUPRA MEDIULUI ŞI IMPLEMENTAREA SISTEMULUI DE MANAGEMENT DE MEDIU

METODE DE EVALUARE A IMPACTULUI ASUPRA MEDIULUI ŞI IMPLEMENTAREA SISTEMULUI DE MANAGEMENT DE MEDIU UNIVERSITATEA POLITEHNICA BUCUREŞTI FACULTATEA ENERGETICA Catedra de Producerea şi Utilizarea Energiei Master: DEZVOLTAREA DURABILĂ A SISTEMELOR DE ENERGIE Titular curs: Prof. dr. ing Tiberiu APOSTOL Fond

More information

Mecanismul de decontare a cererilor de plata

Mecanismul de decontare a cererilor de plata Mecanismul de decontare a cererilor de plata Autoritatea de Management pentru Programul Operaţional Sectorial Creşterea Competitivităţii Economice (POS CCE) Ministerul Fondurilor Europene - Iunie - iulie

More information

Documentaţie Tehnică

Documentaţie Tehnică Documentaţie Tehnică Verificare TVA API Ultima actualizare: 27 Aprilie 2018 www.verificaretva.ro 021-310.67.91 / 92 info@verificaretva.ro Cuprins 1. Cum funcţionează?... 3 2. Fluxul de date... 3 3. Metoda

More information

Universitatea George Bariţiu, Braşov

Universitatea George Bariţiu, Braşov LUCRUL CU BAZE DE DATE ÎN JAVA Lect.univ.dr.ing. IOAN-GHEORGHE RAŢIU Lect.univ. NICOLETA DAVID Universitatea George Bariţiu, Braşov Rezumat O bază de date reprezintă o modalitate de stocare a unor informaţii

More information

Ce pot face pe hi5? Organizare si facilitati. Pagina de Home

Ce pot face pe hi5? Organizare si facilitati. Pagina de Home Ce este Hi5!? hi5 este un website social care, în decursul anului 2007, a fost unul din cele 25 cele mai vizitate site-uri de pe Internet. Compania a fost fondată în 2003 iar pana in anul 2007 a ajuns

More information

Solutii avansate pentru testarea si diagnoza masinilor industriale.

Solutii avansate pentru testarea si diagnoza masinilor industriale. Solutii avansate pentru testarea si diagnoza masinilor industriale 15 ani de activitate in domeniul procesarii numerice a semnalelor Solutii de inalta acuratete pentru analiza sunetelor, vibratiilor si

More information

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Proiect nr. 154/323 cod SMIS 4428 cofinanțat de prin Fondul European de Dezvoltare Regională Investiții pentru viitorul

More information

LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE

LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE BOBST EXPERTFOLD 80 ACCUBRAILLE GT Utilajul ACCUBRAILLE GT Bobst Expertfold 80 Aplicarea codului Braille pe cutii a devenit mai rapidă, ușoară și mai eficientă

More information

Candlesticks. 14 Martie Lector : Alexandru Preda, CFTe

Candlesticks. 14 Martie Lector : Alexandru Preda, CFTe Candlesticks 14 Martie 2013 Lector : Alexandru Preda, CFTe Istorie Munehisa Homma - (1724-1803) Ojima Rice Market in Osaka 1710 devine si piata futures Parintele candlesticks Samurai In 1755 a scris The

More information

R O M Â N I A CURTEA CONSTITUŢIONALĂ

R O M Â N I A CURTEA CONSTITUŢIONALĂ R O M Â N I A CURTEA CONSTITUŢIONALĂ Palatul Parlamentului Calea 13 Septembrie nr. 2, Intrarea B1, Sectorul 5, 050725 Bucureşti, România Telefon: (+40-21) 312 34 84; 335 62 09 Fax: (+40-21) 312 43 59;

More information

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date.

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. 9. Memoria Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. Primul nivel conține memorie de program cache (L1P) și memorie de date cache (L1D). Al doilea

More information

1. Fazele procesului de cumpărare 2. Procesele implicate în dezvoltarea unui sistem de comerţ electronic 3. Conceptele arhitecturale ale sistemelor

1. Fazele procesului de cumpărare 2. Procesele implicate în dezvoltarea unui sistem de comerţ electronic 3. Conceptele arhitecturale ale sistemelor E-COMMERCE Curs 2 1. Fazele procesului de cumpărare 2. Procesele implicate în dezvoltarea unui sistem de comerţ electronic 3. Conceptele arhitecturale ale sistemelor de E-Commerce Sistemul informatic O

More information

1 Introducere Motivaţie Structura tezei Diseminarea rezultatelor Data mining Reguli de asociere...

1 Introducere Motivaţie Structura tezei Diseminarea rezultatelor Data mining Reguli de asociere... Cuprins Cuprins i 1 Introducere 1 1.1 Motivaţie.................................... 1 1.2 Structura tezei................................. 6 1.3 Diseminarea rezultatelor............................ 8 2

More information

Consideratii privind structurile de date specifice sistemelor informationale geografice

Consideratii privind structurile de date specifice sistemelor informationale geografice 34 Consideratii privind structurile de date specifice sistemelor informationale geografice Ing. Laurentiu-Virgil RUSAN Ministerul Apararii Nationale În domeniul administrativ, al lucrarilor publice, al

More information

Baza de date: tabele, date. Componentele unei B.D.: tabele, constrangeri, relatii. Entitati ale unei B.D.: formulare, interogari, rapoarte

Baza de date: tabele, date. Componentele unei B.D.: tabele, constrangeri, relatii. Entitati ale unei B.D.: formulare, interogari, rapoarte 1. Introducere ~ Microsoft Access ~ Baze de Date Baza de date: tabele, date. Componentele unei B.D.: tabele, constrangeri, relatii. Entitati ale unei B.D.: formulare, interogari, rapoarte 2. Crearea unei

More information

CONTRIBUŢII PRIVIND MANAGEMENTUL CALITĂȚII PROIECTULUI ÎN INDUSTRIA AUTOMOTIVE

CONTRIBUŢII PRIVIND MANAGEMENTUL CALITĂȚII PROIECTULUI ÎN INDUSTRIA AUTOMOTIVE UNIVERSITATEA POLITEHNICA TIMIŞOARA Școala Doctorală de Studii Inginerești Ing. Daniel TIUC CONTRIBUŢII PRIVIND MANAGEMENTUL CALITĂȚII PROIECTULUI ÎN INDUSTRIA AUTOMOTIVE Teză destinată obținerii titlului

More information

Lucrarea Nr.1. Sisteme de operare. Generalitati

Lucrarea Nr.1. Sisteme de operare. Generalitati Lucrarea Nr.1 Sisteme de operare. Generalitati Scopul lucrarii Lucrarea îsi propune familiarizarea studentilor cu sistemele de operare disponibile în laborator, respectiv acele sisteme de operare cu ajutorul

More information

PROIECT. La Baze de date. Evidența activității pentru o firmă IT. Îndrumător: ș. l. dr. ing. Mirela Danubianu. Efectuat de: Grigoriev Sergiu gr.

PROIECT. La Baze de date. Evidența activității pentru o firmă IT. Îndrumător: ș. l. dr. ing. Mirela Danubianu. Efectuat de: Grigoriev Sergiu gr. PROIECT La Baze de date Evidența activității pentru o firmă IT Îndrumător: ș. l. dr. ing. Mirela Danubianu Efectuat de: Grigoriev Sergiu gr. 1131B Suceava 2011 Cuprins 1. DESCRIERE 3 2. MODELAREA CONCEPTUALĂ

More information

SINGULAR PERTURBATION DETECTION USING WAVELET FUNCTION REPRESENTATION

SINGULAR PERTURBATION DETECTION USING WAVELET FUNCTION REPRESENTATION U.P.B. Sci. Bull., Series C, Vol. 7, No., 8 ISSN 454-34x SINGULAR PERTURBATION DETECTION USING WAVELET FUNCTION REPRESENTATION Dan OLARU, Mihai Octavian POPESCU Calitatea distribuţiei energiei electrice

More information

Curs 1 17 Februarie Adrian Iftene

Curs 1 17 Februarie Adrian Iftene Curs 1 17 Februarie 2011 Adrian Iftene adiftene@info.uaic.ro 1 Limbajele calculatorului Compilate Interpretate Scripting P-cod Orientate pe aspect Orientate spre date 2 Cum lucrează? Orice program trebuie

More information

TEZĂ DE DOCTORAT ~REZUMAT~

TEZĂ DE DOCTORAT ~REZUMAT~ MINISTERUL EDUCAŢIEI NAŢIONALE UNIVERSITATEA PETROL-GAZE DIN PLOIEŞTI FACULTATEA DE INGINERIE MECANICĂ ŞI ELECTRICĂ TEZĂ DE DOCTORAT ~REZUMAT~ SISTEM EXPERT NEURO-FUZZY PENTRU CONTROLUL PROCESELOR DE EPURARE

More information

Eficiența energetică în industria românească

Eficiența energetică în industria românească Eficiența energetică în industria românească Creșterea EFICIENȚEI ENERGETICE în procesul de ardere prin utilizarea de aparate de analiză a gazelor de ardere București, 22.09.2015 Karsten Lempa Key Account

More information

ACTA TECHNICA NAPOCENSIS

ACTA TECHNICA NAPOCENSIS 273 TECHNICAL UNIVERSITY OF CLUJ-NAPOCA ACTA TECHNICA NAPOCENSIS Series: Applied Mathematics, Mechanics, and Engineering Vol. 58, Issue II, June, 2015 SOUND POLLUTION EVALUATION IN INDUSTRAL ACTIVITY Lavinia

More information

METODE INTELIGENTE DE REZOLVARE A PROBLEMELOR REALE. Laura Dioşan Tema 4

METODE INTELIGENTE DE REZOLVARE A PROBLEMELOR REALE. Laura Dioşan Tema 4 METODE INTELIGENTE DE REZOLVARE A PROBLEMELOR REALE Laura Dioşan Tema 4 Text mining Task-uri Regăsirea informaţiei Clasificarea automată a textelor Text mining Task-uri Regăsirea informaţiei Clasificarea

More information

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU Universitatea Constantin Brâncuşi din Târgu-Jiu Facultatea de Inginerie Departamentul de Automatică, Energie şi Mediu BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU 28.04.2014 Curs 1 - BAZE DE DATE 2 Curs 1 Noţiuni

More information

USING MOBILE AGENTS FOR INFORMATION RETRIEVAL IN B2B SYSTEMS

USING MOBILE AGENTS FOR INFORMATION RETRIEVAL IN B2B SYSTEMS USING MOBILE AGENTS FOR INFORMATION RETRIEVAL IN B2B SYSTEMS Felicia GÎZĂ 1, Cristina TURCU 2, Ovidiu SCHIPOR 3 1 felicia@eed.usv.ro, 2 cristina@eed.usv.ro, 3 schipor@eed.usv.ro Introducere Abstract This

More information

BAZE DE DATE Crearea, gestionarea şi exploatarea bazelor de date spaţiale

BAZE DE DATE Crearea, gestionarea şi exploatarea bazelor de date spaţiale BAZE DE DATE Crearea, gestionarea şi exploatarea bazelor de date spaţiale (note de curs) 1 Organizarea datelor. Concepte de bază Afluxul fără precedent de informaţie de diferite tipuri şi pe diverse canale,

More information

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm Preparatory Problems 1Se dau punctele coliniare A, B, C, D în această ordine aî AB 4 cm, AC cm, BD 15cm a) calculați lungimile segmentelor BC, CD, AD b) determinați distanța dintre mijloacele segmentelor

More information

O caracterizare a sistemelor OLAP actuale

O caracterizare a sistemelor OLAP actuale 84 Revista Informatica Economica, nr. 3 (19)/2001 O caracterizare a sistemelor actuale Prof.dr. Manole VELICANU, lect. Mihaela MUNTEAN Catedra de Informatica Economica, A.S.E. Bucuresti Asa cum indica

More information

INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTERE"IN VITRO" LA PLANTE FURAJERE

INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTEREIN VITRO LA PLANTE FURAJERE INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTERE"IN VITRO" LA PLANTE FURAJERE T.Simplăceanu, C.Bindea, Dorina Brătfălean*, St.Popescu, D.Pamfil Institutul Naţional de Cercetere-Dezvoltare pentru

More information

Modele de date utilizate în bazele de date pentru prelucrari grafice

Modele de date utilizate în bazele de date pentru prelucrari grafice 64 Revista Informatica Economica, nr. 7/1998 Modele de date utilizate în bazele de date pentru prelucrari grafice Sef lucrari dr.ing. Marius Dorian ZAHARIA Universitatea POLITEHNICA Bucuresti Lucrarea

More information

TWITRENDS SISTEM DE PROCESARE A STREAM-URILOR ÎN TIMP REAL ÎN ERA BIG DATA

TWITRENDS SISTEM DE PROCESARE A STREAM-URILOR ÎN TIMP REAL ÎN ERA BIG DATA TWITRENDS SISTEM DE PROCESARE A STREAM-URILOR ÎN TIMP REAL ÎN ERA BIG DATA LUCRARE DE LICENȚĂ Absolvent: Coordonator științific: Andrei MOLDOVAN asis. ing. Cosmina IVAN 2016 DECAN, Prof. dr. ing. Liviu

More information

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU Universitatea Constantin Brâncuşi din Târgu-Jiu Facultatea de Inginerie Departamentul de Automatică, Energie şi Mediu BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU 03.03.2013 Curs 1 - BAZE DE DATE 2 Curs 1 Noţiuni

More information

3. CLOUD COMPUTING Sisteme de calcul distribuite

3. CLOUD COMPUTING Sisteme de calcul distribuite 3. CLOUD COMPUTING Cloud Computing (CC) calcul în nori, în traducere mot a mot, sau, mai corect, calcul în Internet este un concept aflat în directă legătură cu transformările către se produc în domeniu

More information

Multidimensional data analysis using OLAP Technology (1)

Multidimensional data analysis using OLAP Technology (1) Revista Informatica Economică, nr. 1(33)/2005 117 Multidimensional data analysis using OLAP Technology (1) Asist. Gianina RIZESCU Catedra de Contabilitate şi Informatică Economică, Universitatea Dunărea

More information

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET CAIETUL DE SARCINI Organizare evenimente VS/2014/0442 Euro network supporting innovation for green jobs GREENET Str. Dem. I. Dobrescu, nr. 2-4, Sector 1, CAIET DE SARCINI Obiectul licitaţiei: Kick off,

More information

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip Mods euro truck simulator 2 harta romaniei by elyxir Mods euro truck simulator 2 harta romaniei by elyxir.zip 26/07/2015 Download mods euro truck simulator 2 harta Harta Romaniei pentru Euro Truck Simulator

More information

DECLARAȚIE DE PERFORMANȚĂ Nr. 101 conform Regulamentului produselor pentru construcții UE 305/2011/UE

DECLARAȚIE DE PERFORMANȚĂ Nr. 101 conform Regulamentului produselor pentru construcții UE 305/2011/UE S.C. SWING TRADE S.R.L. Sediu social: Sovata, str. Principala, nr. 72, judetul Mures C.U.I. RO 9866443 Nr.Reg.Com.: J 26/690/1997 Capital social: 460,200 lei DECLARAȚIE DE PERFORMANȚĂ Nr. 101 conform Regulamentului

More information

Relational and Object-Oriented Methodology in Data Bases Systems

Relational and Object-Oriented Methodology in Data Bases Systems Revista Informatica Economică nr.3(39)/2006 141 Relational and Object-Oriented Methodology in Data Bases Systems Marian CRISTESCU, Gabriel SOFONEA, Eugen COJOCARIU Economic Informatics Department Lucian

More information

Mircea Merca 1) Articol dedicat Prof. Dr. Ioan Tomescu la a 70-a aniversare

Mircea Merca 1) Articol dedicat Prof. Dr. Ioan Tomescu la a 70-a aniversare M. Merca, Partiţii întregi şi grafuri orientate aciclice 15 Partiţii întregi şi grafuri orientate aciclice Mircea Merca 1) Articol dedicat Prof. Dr. Ioan Tomescu la a 70-a aniversare Abstract. The algorithms

More information

QUALITY EVALUATION OF KNITTED USED IN INTERIOR DESIGNS, THROUGH EXTENSIBILITY

QUALITY EVALUATION OF KNITTED USED IN INTERIOR DESIGNS, THROUGH EXTENSIBILITY QUALITY EVALUATION OF KNITTED USED IN INTERIOR DESIGNS, THROUGH EXTENSIBILITY Ș.l. dr. ing. Liliana LUTIC Gheorghe Asachi Technical University of Iaşi, Faculty of Textiles & Leather Engineering and Industrial

More information

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs Acta Technica Napocensis: Civil Engineering & Architecture Vol. 57, No. 1 (2014) Journal homepage: http://constructii.utcluj.ro/actacivileng Updating the Nomographical Diagrams for Dimensioning the Concrete

More information

INTEROGĂRI ÎN SQL SERVER

INTEROGĂRI ÎN SQL SERVER INTEROGĂRI ÎN SQL SERVER Principala operaţie efectuată într-o bază de date este operaţia de extragere a datelor, care se realizează cu ajutorul unei clauze SELECT. SELECT Clauza SELECT are o sintaxă foarte

More information

Colegiul Național Calistrat Hogaș Piatra-Neamț LIMBAJUL SQL

Colegiul Național Calistrat Hogaș Piatra-Neamț LIMBAJUL SQL LIMBAJUL SQL Prezentare generală SQL (Structured Query Language) este în prezent, unul din cele mai puternice limbaje structurate pentru interogarea bazelor de date relaţionale. Este un limbaj neprocedural

More information

Ce este o BAZA DE DATE?

Ce este o BAZA DE DATE? Ce este o BAZA DE DATE? In sens larg un sistem proiectat pentru a oferi un mecanism organizat, capabil sa stocheze, sa actualizeze si sa regaseasca informatia Exemplu: o biblioteca Noţiunea de bază de

More information

MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII

MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII Adrian Mugur SIMIONESCU MODEL OF A STATIC SWITCH FOR ELECTRICAL SOURCES WITHOUT INTERRUPTIONS IN LOAD

More information