1 Introducere Motivaţie Structura tezei Diseminarea rezultatelor Data mining Reguli de asociere...

Size: px
Start display at page:

Download "1 Introducere Motivaţie Structura tezei Diseminarea rezultatelor Data mining Reguli de asociere..."

Transcription

1

2

3 Cuprins Cuprins i 1 Introducere Motivaţie Structura tezei Diseminarea rezultatelor Data mining Reguli de asociere Algoritmi secvenţiali utilizaţi în determinarea regulilor de asociere Metode de paralelizare ale algoritmilor secvenţiali Discuţii asupra tehnicilor existente de extragere a regulilor de asociere Reguli de clasificare Algoritmi secvenţiali utilizaţi în determinarea regulilor de clasificare Segmentarea datelor Noţiuni teoretice fundamentale Algoritmi secvenţiali utilizaţi în segmentarea datelor Metode de paralelizare ale algoritmilor secvenţiali Discuţii asupra tehnicilor existente de segmentare a datelor Concluzii Noi algoritmi şi modele de paralelizare pentru determinarea tiparelor frecvente Algoritmul Apriori Algoritmul secvenţial de bază Modificări aduse algoritmului HPA Rezultate şi discuţii Algoritmul Fast Itemset Miner Algoritmul secvenţial de bază Algoritmul paralel - modelul simplu Algoritmul paralel - modelul generalizat Rezultate şi discuţii i

4 ii CUPRINS 4 Topologii de comunicare eficiente pentru problema segmentării datelor Algoritmul Parallel K-Means Modificarea comunicaţiilor pentru algoritmul paralel standard Topologia de tip hipercub Partiţionarea datelor pe topologia de tip hipercub Tiparul comunicaţional utilizat în determinarea centroizilor Rezultate şi discuţii Sisteme Grid 41 6 Integrarea aplicaţiilor MPI sub forma serviciilor Grid Justificarea abordării Model generic pentru serviciile Grid destinate problemei descoperirii de cunoştinţe Arhitectura serviciului Grid propus Modelul Fabrică/Instanţă Integrarea modulelor MPI în serviciul Grid Consideraţii asupra aplicaţiilor client Rezultate importante Concluzii, contribuţii şi direcţii viitoare de cercetare Concluzii Contribuţii Direcţii viitoare de cercetare Bibliografie 57

5 Capitolul 1 Introducere 1.1 Motivaţie Un număr din ce în ce mai mare de domenii ştiinţifice sau economice se confruntă cu o creştere impresionantă a volumului de date acumulat. Această stare de fapt este încurajată şi de dezvoltarea rapidă a tehnicii de calcul şi a dispozitivelor şi mediilor de stocare. Extragerea informaţiilor relevante din aceste baze de date reprezintă în continuare un proces laborios, necesitând resurse costisitoare şi, uneori, greu accesibile. Totodată, timpul necesar pentru obţinerea informaţiilor necesare pentru diferite decizii sau operaţii ce trebuie efectuate asupra datelor ţintă este din ce în ce mai mare, implicând deseori resurse adiţionale, în ciuda creşterii puterii de calcul şi a scăderii costurilor echipamentelor de calcul de mare performanţă [Two 05, Adamo 00]. Mai mult, datele stocate pot îngloba informaţii utile ce sunt adeseori ascunse unei analize directe din partea unor eventuali operatori umani. În scopul reducerii acestor costuri, precum şi pentru micşorarea timpilor necesari, sunt dezvoltate noi metode pentru analiza detaliată a datelor, metode al căror rezultat este reprezentat de o restructurare automată/semiautomată a datelor [Adamo 00]. Astfel, prin dezvoltarea acestor metode avansate de analiză se încearcă regăsirea acelor informaţii suplimentare care pot evidenţia moduri noi de grupare a datelor stocate sau relaţii noi între aceste date. Aceste tehnici de analiză sunt cunoscute sub denumirea de tehnici de descoperire a cunoştinţelor în baze de date. Descoperirea de cunoştinţe în baze de date este descrisă ca fiind un proces ce se desfăşoară în mai multe etape şi are drept scop detectarea automată a unor tipare şi identificarea unor relaţii noi între datele stocate [Two 05]. Semnificaţia rezultatelor obţinute este strict corelată cu domeniul pentru care se aplică aceste noi tehnici: informaţiile noi pot fi utile în realizarea unor predicţii asupra unor noi înregistrări de acelasi tip sau pot reprezenta pur şi simplu o nouă descriere sau o nouă perspectivă asupra datelor existente. Cu alte cuvinte, descoperirea de cunoştinţe înseamnă extragerea şi interpretarea informaţiilor de interes - netriviale, implicite, necunoscute anterior şi potenţial utile - sau descoperirea de tipare în datele stocate sub diferite forme. Procesul în sine include următoarele etape [Two 05]: 1. înţelegerea domeniului de aplicaţie, a cunoştinţelor anterioare, precum şi a scopu- 1

6 rilor ce se doresc a fi atinse prin analiză; 2. crearea unui set ţintă de date, fapt ce implică selectarea unui set de date, concentrarea asupra unui subset de variabile sau modele de date asupra cărora să se execute procesul de descoperire a cunoştinţelor; 3. curăţarea datelor şi preprocesarea acestora: colectarea informaţiilor necesare pentru modelarea sau recunoaşterea zgomotelor, înlăturarea acestor zgomote şi a datelor ce nu furnizează informaţii relevante, generarea de strategii pentru tratarea câmpurilor de date lipsă sau incomplete; 4. reducerea seturilor de date ce vor fi analizate prin transformarea unui set de atribute, prin extrapolarea unor valori de interes sau pur şi simplu prin restrângerea setului complet de atribute/caracteristici către un set minimal de strict interes; 5. alegerea unei metode de extragere a informaţiilor, în funcţie de ţelul dorit (extragerea regulilor de clasificare a datelor, extragerea regulilor de asociere sau analiza diferitelor secvenţe întâlnite în baza de date); 6. alegerea unui algoritm adecvat: selectarea metodelor de analiză în funcţie de eventuale constrângeri impuse de particularităţile datelor analizate sau adoptarea unui model valabil, adecvat domeniului ţintă; 7. aplicarea metodelor de analiză şi extragerea efectivă a informaţiilor noi: identificarea tiparelor de interes pentru o formă de reprezentare particulară sau pentru un set de astfel de reprezentări, precum reguli sau arbori de clasificare, reduceri, clusterizări, asocieri, seturi frecvente, ş.a.m.d.; 8. validarea şi interpretarea rezultatelor extrase; 9. consolidarea informaţiilor descoperite. Etapele descrise anterior sunt sintetizate în Figura 1.1. Figura 1.1: Procesul de descoperire de cunoştinţe (adaptare după [Fayyad 96]) 2

7 În mod uzual, procesul de descoperire de cunoştinţe în volume mari de date este constituit din următoarele metode/modele de analiză (în engleză: data mining) [Fayyad 96]: identificarea grupărilor de date - clusterizare: task descriptiv ce are drept scop identificarea unui număr finit de categorii (grupuri/clustere) ce descriu mai bine datele existente pe baza similarităţilor dintre aceste date; identificarea regulilor de clasificare: task predictiv ce are drept scop determinarea/,,învăţarea, pe baza datelor existente, a unei funcţii de mapare (clasificator) cu rol în determinarea claselor de apartenenţă pentru datele noi ce vor fi analizate; regresia: task predictiv ce are drept scop determinarea unei funcţii de mapare a valorilor atributelor de interes peste numere reale pentru a prezice un anumit comportament; identificarea tiparelor frecvente şi a regulilor de asociere: task descriptiv ce are drept scop determinarea subseturilor ce apar împreună într-un anumit set de valori sau determinarea unor relaţii (în mod uzual, relaţii de co-existenţă) în cadrul acelui set de valori; analiza secvenţelor: task descriptiv ce are drept scop determinarea acelor secvenţe ce apar împreună în cadrul unui anumit volum de date. Spre deosebire de determinarea tiparelor frecvente, în cadrul analizei secvenţelor entităţile ce pot constitui o secvenţă nu sunt în mod necesar omogene (nu au aceeaşi semnificaţie). În plus, o secvenţă frecventă nu este condiţionată de o limită de tip suport minim. Aplicarea corectă a etapelor descrise anterior, precum şi indentificarea corespunzătoare a metodelor de analiză ce vor fi utilizate şi obţinerea unor rezultate de interes nu este posibilă dacă nu sunt bine înţelese limitările descoperirii de cunoştinţe. Tehnicile şi modelele utilizate în descoperirea de cunoştinţe nu sunt general valabile. Nu oferă rezultate,,pe tavă, indiferent de natura domeniului pentru care sunt aplicate. În foarte mult cazuri, rezultatele obţinute nu sunt valabile fără o eventuală certificare din partea unui grup de potenţiali experţi umani pe domeniul de interes abordat. Mai mult, un set particular de rezultate obţinute pentru un anumit caz nu este general valabil pentru domeniul din care face parte cazul respectiv. Practic, se poate afirma că provocările în domeniu derivă şi din caracteristicile intrinseci ale procesului în sine: trebuie cunoscut ce se caută şi trebuie cunoscute datele în care se caută, altfel rezultatele obţinute pot fi irelevante. Rezumând cele expuse până acum, se poate afirma că domeniul descoperirii de cunoştinţe în volume mari de date este un domeniu deosebit de complex, cu un pronunţat caracter interdisciplinar. Provocările ridicate de metodele de analiză caracteristice nu pot fi surmontate fără colaborarea specialiştilor din diverse arii de cercetare. Mai mult, aceste metode de analiză trebuie să gestioneze un volum din ce în ce mai mare de date achiziţionate. Astfel, pentru o bună parte dintre algoritmii ce adresează problemele specifice descoperirii de cunoştinţe trebuie dezvoltate modele de paralelizare şi/sau de distribuire eficiente. Acest fapt implică existenţa unor echipamente şi a unei infrastructuri hardware şi software adecvate, fără a condiţiona accesul eventualilor experţi ce nu activează în domeniul IT. O posibilă soluţie pentru depăşirea acestor impedimente este reprezentată de sistemele Grid. Un exemplu edificator în acest sens este reprezentat de 3

8 proiectul Data Mining Grid 1. Scopul proiectului este de a expune un framework coerent pentru dezvoltarea şi expunerea de aplicaţii de descoperire de cunoştinţe în cadrul sistemelor Grid. Termenul de sistem Grid a fost utilizat pentru prima dată la mijlocul anilor 90 pentru a sintetiza specificaţiile unei arhitecturi avansate de calcul distribuit. Ian Foster, considerat de mulţi personalitatea numărul unu în domeniul sistemelor Grid, subliniază în [Foster 01] faptul că modalitatea anterioară de definire este mult prea sumară pentru a încapsula conceptele unui astfel de sistem. Potrivit lui Foster, problemele reale adresate de Grid-uri sunt reprezentate de partajarea resurselor şi rezolvarea problemelor în cadrul unui mediu dinamic multi-instituţional [Foster 01]. Conceptul de resursă în cadrul unui sistem Grid înglobea-ză semnificaţii diverse. Astfel, o resursă Grid poate însemna un calculator sau un cluster de calculatoare, un produs software, un set de date sau mecanismul de acces al unui set de date. Partajarea resurselor capătă în acest context un plus semnificativ de complexitate faţă de cazul unei partajări uzuale de fişiere. Foster subliniază faptul că partajarea resurselor este realizată într-o manieră colaborativă, în mod necesar bine controlată [Foster 01]. Pentru fiecare resursă există unul sau mai mulţi furnizori şi unul sau mai mulţi utilizatori. Pentru fiecare dintre cele două roluri există un set de reguli ce definesc în mod clar, neambiguu, modalităţile acceptate prin intermediul cărora se pot accesa resursele oferite, drepturile de acces asupra acelor resure, mecanismele de utilizare, etc.. În acest context, se defineşte conceptul de Organizaţie Virtuală (OV): grup de indivizi şi/sau instituţii ce stabilesc un set comun de reguli pentru partajarea resurselor disponibile. Sistemele Grid reprezintă sisteme de calcul paralel şi distribuit care permit partajarea, selecţia şi agregarea resurselor distribuite de-a lungul mai multor domenii administrative bazate pe disponibilitatea, performanţa, capacitatea, costul şi cererile utilizatorilor serviciilor de calitate [Craus 05]. Practic, aceste sisteme de calcul de mare performanţă sunt destinate rulării proceselor de mare complexitate. Analizând schema unui proces de descoperisre de cunoştinţe (Figura 1.1), se poate afirma cu certitudine că sistemele Grid pot furniza suportul necesar pentru oricare dintre etapele implicate. Un sistem Grid oferă mecanismele necesare stocării unui volum mare de informaţii, precum şi mecanismele de acces consecvent la acele date. Prin intermediul sistemelor de calcul paralel/distribuit înglobate, Grid-urile pot rula cu uşurinţă modulele de preprocesare a datelor sau orice algoritm de analiză dorit de către experţii umani. Pe de altă parte, viziunea care a condus la dezvoltarea conceptului de sistem Grid este de a oferi suportul hardware şi software necesar colaborării experţilor din diverse domenii de cercetare. Aşa cum aminteau şi Bote-Lorenzo et al. în [Bote-Lorenzo 03], un sistem Grid este caracterizat de acces transparent şi universal. Acest lucru implică faptul că un eventual cercetător fără pregătire profundă în domeniul calculatoarelor ar trebui să fie capabil să utilizeze diferitele resurse expuse de un sistem Grid ca şi cum ar utiliza un browser instalat pe calculatorul personal. Această consecinţă este deosebit de importantă pentru domeniul descoperirii de cunoştinţe, întrucât oricât de bine automatiză ar fi o anumită metodă de analiză implicată în acest proces, rezultatele oferite nu sunt valabile fără o eventuală re-evaluare din partea unui expert uman. Utilizând un sistem Grid, acest expert uman se poate concentra pe obţinerea şi interpretarea rezultatelor dorite, accesul la resursele necesare fiind transparent. 1 Pentru mai multe detalii: 4

9 Această lucrare îşi propune investigarea ambelor domenii prezentate: domeniul descoperirii de cunoştinţe în volume mari de date şi domeniul sistemelor Grid. Pentru primul dintre acestea, cercetările cuprinse în această lucrare sunt axate pe nucleul acestui proces: algoritmii de analiză a seturilor de date preprocesate. În acest context, se pune accentul pe determinarea tiparelor frecvente şi a regulilor de asociere şi pe problemele legate de identificarea grupărilor similare de date (data clustering). Alegerea este bazată pe popularitatea celor două metode de analiză. Pentru ambele componente există în prezent un număr considerabil de algoritmi secvenţiali şi paraleli. Fiecare dintre aceştia exploatează diversele particularităţi ale datelor de lucru sau ale codificării acestor date în vederea obţinerii rapide a unor rezultate de interes coerente. Pentru problema determinării tiparelor frecvente şi a regulilor de asociere sunt analizaţi iniţial doi algoritmi fundamentali: algoritmul Apriori [Agrawal 94] şi algoritmul FP-Growth [Han 00]. Ambii algoritmi (descrişi pe larg în subcapitolul 2.1.1) utilizează structuri arborescente şi consideră că obiectele de lucru sunt codificate prin index numeric. Cu toate că ambii algoritmi obţin performanţe bune din punctul de vedere al timpului de răspuns oferit, este utilă investigarea unor noi modaliăţi de codificare a bazei de date ţintă. În acest context, este prezentată o nouă modalitate de codificare binară a seturilor de date supuse analizei. Sunt analizate avantajele şi dezavantajele aduse de o astfel de codificare atât pentru cazul secvenţial, cât şi pentru unul dintre cele mai cunoscute modele de paralelizare ale algoritmului Apriori - Hash Partitioned Apriori (HPA) [Shintani 96]. Este, de asemenea, analizat un nou model algoritmic pentru determinarea tiparelor frecvente. Acest nou model este axat, similar algoritmului Apriori, pe generarea şi validarea unor seturi candidate. Deosebirea fundamentală faţă de Apriori este aceea că noii candidaţi nu sunt generaţi într-o manieră strict mărginită. Astfel, principiul noului algoritm este de a grupa itemii frecventi/itemseturile frecvente în intervale şi de a obţine noile itemseturi candidate prin reuniuni de itemseturi frecvente cu nucleul comun, ce aparţin de intervale diferite. Pentru problema identificării grupărilor similare de date, în lucrarea de faţă accentul cade pe analiza algoritmului K-Means Clustering şi a uneia dintre cele mai des utilizate metode de paralelizare ale algoritmului- Parallel K-Means - PKM. Rezultatele cecetărilor efectuate pentru acest algoritm sunt menite să evidenţieze importanţa utilizării unor topologii de comunicaţie adecvate pentru a obţine implementări eficiente ale paralelizării în discuţie. Pentru o parte dintre algoritmii analizţi, lucrarea a avut în vedere abordări paralele bazate pe implementarea LAM/MPI 2 a standardului MPI (Message Passing Interface). Partea a doua a acestei lucrări este dedicată sistemelor Grid. Cercetările efectuate în cadrul acestui domeniu vizează posibilităţile de expunere a aplicaţiilor dezvoltate utilizând standardul MPI sub formă servicii Grid. Primul considerent care trebuie avut în vedere în justificarea acestei alegeri este legat de evoluţia sistemelor Grid. Încă de la începutul anilor 2000, Foster utilizează noţiunea de,,serviciu pentru a defini conceptul de OV [Foster 01]:...examples of VOs: the application service providers, storage service providers, cycle providers, and consultants engaged by a car manufacturer to perform scenario evaluation during planning for a new factory... 2 Pentru mai multe detalii 5

10 În anul 2002, Foster et al. definesc un prim set de specificaţii pentru sistemele Grid orientate pe servicii [Foster 02c]. Aceste specificaţii au devenit standardul de facto în cadrul sistemelor Grid bazate pe arhitecturi orientate pe servicii - standard cunoscut în prezent sunt numele de Open Grid Services Architecture (OGSA). Unul dintre primele middleware-uri ce a implementat acest standard este Globus Toolkit (începând cu versiunea 3.0) 3. Cu toate că în versiunile curente acest middleware asigură suport pentru aplicaţiile Grid dezvoltate utilizând diferite implementări ale standardului MPI(MPICH- G2, LAM/MPI - prin job-managerul implicit, OpenMPI), experimentele au evidenţiat faptul că acest suport nu este bine stabilizat pentru expunerea acestui tip de aplicaţii sub forma serviciilor Grid. Având în vedere această observaţie, este propus un model de expunere a aplicaţiilor paralele dezvoltate utilizând LAM/MPI sub forma unui serviciu Grid. Acest model este prezentat pe larg în capitolul 6, implementarea fiind expusă de Grid-ul GRAI dezvoltat în cadrul proiectului de cercetare 74 CEEX-II03/ Un al doilea motiv pentru alegerea acestei direcţii de cercetare este derivat din modelul propus de Foster et al. pentru abordarea problemelor legate de descoperirea de cunoştinţe în cadrul sistemelor Grid [Foster 02b]. Practic, considerând natura complexă a procesului amintit anterior, Foster et al. justifică faptul că metodele de analiză specifice ar trebui implementate sub formă de servicii Grid. Acest fapt atrage după sine o îmbinare mai facilă a metodelor de analiză pentru aplicaţiile complexe. Modelul descris în [Foster 02b] este prezentat în subcapitolul şi reprezintă puntea de legătură între cele două domenii de cercetare abordate. 1.2 Structura tezei Lucrarea de faţă este structurată pe două parţi. Prima parte, intitulată ALGORITMI PARALELI PENTRU APLICAŢII DATA MINING, este dedi-cată domeniului descoperirii de cunoştinţe în volume mari de date şi cuprinde trei capitole. În capitolul 2 este analizat stadiul actual al cercetărilor din cadrul acestui domeniu. Sunt prezentate fundamentele teoretice care stau la baza determinării tiparelor frecvente şi a regulilor de asociere, a determinării regulilor de clasificare şi, respectiv, a metodelor de clusterizare. Pentru fiecare dintre aceste metode sunt analizaţi atât algoritmii secvenţiali importanţi, cât şi metode eficiente de paralelizare ale acestora. În centrul atenţiei se află algoritmii de identificare a tiparelor frecvente în volume mari de date şi cei utilizaţi în clusterizarea datelor. În cazul determinării tiparelor frecvente sunt analizaţi doi dintre cei mai importanţi algoritmi în domeniu: Apriori şi FP-Growth. În ambele cazuri sunt supuse atenţiei atât modelele secvenţiale cât şi cele paralele. În cazul tehnicilor de clusterizare, analiza este focalizată în jurul algoritmului K-Means Clustering. Alegerea este justificată de popularitatea acestui algoritm în cadrul domeniilor ce necesită astfel de analize de date. Subcapitolul de concluzii aferent evidenţiază un set suplimentar de motive ce justifică alegerea temei de cercetare. Capitolul 3 prezintă modificările propuse pentru optimizarea algoritmului secvenţial Apriori (subcapitolul 3.1). Aceste modificări vizează codarea binară a itemitor şi, respectiv, a seturilor de itemi. În continuare sunt discutate modalităţile prin care sunt modificate structurile de date caracteristice algoritmului în discuţie. În subcapitolul următor este prezentată o propunere de modificare a algoritmului HPA, propunere care se referă 3 Pentru mai multe detalii 6

11 la implementările MPI ale HPA. Aceasta vizează unul dintre puncte slabe ale modelului de paralelizare amintit anterior: nivelul ridicat al comunicaţiilor implicat de faza de generare de candidaţi caracteristică algoritmului secvenţial de bază. Datorită codificării binare amintite anterior, se poate slăbi condiţia de generare a cheii de dispersie utilizată în identificarea seturilor de itemi. Astfel, cheia de dispersie poate fi aplicată asupra setului generator al candidatului curent, fapt ce atrage după sine o reducere semnificativă a comunicaţiilor amintite. În continuare, subcapitolul 3.2 prezintă un nou algoritm pentru determinarea seturilor frecvente. Acest algoritm este bazat tot pe generarea de candidaţi, similar algoritmului Apriori. Spre deosebire de Apriori, candidaţii noi nu sunt generaţi pe baza combinării unor seturi frecvente de dimensiune k-1 (unde k reprezintă lungimea seturilor corespunzătoare iteraţiei curente), ci pe a împărţi itemii/itemseturile frecvente în intervale iniţial disjuncte şi a genera candidaţii noi din reuniuni de itemseturi ce aparţin de intervale diferite. Capitolul 4 vizează îmbunătăţirile aduse unor implementări MPI ale algoritmului Paralel K-Means. Cu toate că paralelizarea existentă este eficientă, foarte multe dintre implementările curente nu ţin cont de un factor deosebit de important pentru paralelizările bazate pe standardul MPI: topologia de comunicaţie dintre noduri. O topologie adecvată unui anumit algoritm poate reduce considerabil timpul suplimentar implicat în comunicaţii. În acest sens, în prima parte a subcapitolului este prezentată în detaliu o astfel de topologie, cu perfomanţe crescute pentru comunicaţiile colective implicate de PKM. Peste această topologie sunt detaliate modul de partiţionare a datelor şi modificările aduse în determinarea colectivă a datelor de lucru pentru o eventuală iteraţie ulterioară. Implementarea astfel modificată este comparată din punctul de vedere al timpului de răspuns oferit cu o implementare ce utilizează bibliotecile puse la dispoziţie de implementarea LAM/MPI a standardului MPI. Partea a doua a tezei, intitulată SOLUŢII DE IMPLEMENTARE PENTRU APLICAŢII DATA MINING ÎN SISTEME GRID, vizează cerce-tările efectuate pentru expunerea metodelor de analiză aferente procesului de descoperire de cunoştinţe în cadrul unui sistem Grid. Această a doua parte cuprinde două capitole. Capitolul 5 descrie în detaliu middleware-ul Globus Toolkit, versiunea 4. Sunt prezentate arhitectura generală a middleware-ului, standardele pe care se bazează acesta şi suportul oferit pentru dezvoltarea serviciilor Grid. Sunt aduse în discuţie şi câteva dintre implementările cele mai importante ale standardului MPI şi este analizat suportul oferit de GT 4 pentru acestea. Capitolul 6 este dedicat soluţiei propuse pentru integrarea aplicaţiilor paralele dezvoltate utilizând standardul menţionat sub formă de servicii Grid. Accentul se pune pe aplicaţiile dezvoltate utilizând implementarea LAM/MPI a standardului. Motivul acestei alegeri se bazează pe faptul că LAM/MPI versiunea 7.1.* este printre singurele versiuni ce oferă suport complet pentru versiunea 2.0 a specificaţiilor MPI. Este prezentat modelul generic propus de Foster et al. pentru servicii Grid destinate analizei datelor. Pornind de la acest model, a fost dezvoltat un serviciu capabil să expună diferite module de analiză caracteristice data mining, module ce sunt implementate utilizând LAM/MPI. Managerul de job-uri Grid utilizat este cel predefinit pentru versiunea curentă a toolkitului în discuţie (Fork). Serviciul dezvoltat respectă arhitectura Fabrică/Instanţă şi poate fi intergrat uşor cu orice instalare standard a GT 4. În finalul capitolului este prezentate un set de rezultate importante menite să sublinieze necesitatea unui astfel de serviciu. În capitolul 7 sunt prezentate sintetic rezultatele obţinute şi sunt evidenţiate contri- 7

12 buţiile aduse pentru cele două domenii abordate. Finalul capitolului conţine propunerile de cercetare ce derivă din rezultatele obţinute. 1.3 Diseminarea rezultatelor Articolele ştiinţifice ce stau la baza acestei lucrări au fost publicate în reviste (3), volume de specialitate (3) sau prezentate la conferinţe internaţionale (6) şi sunt indexate în baze de date bibliografice recunoscute: Thomson ISI (3), IEEE (1). A. Archip, M. Craus, and S. Arustei. Efficient Grid Service Design to Integrate Parallel Applications. In Marten van Sinderen, editor, Proceedings of 2nd International Workshop on Architectures, Concepts and Technologies for Service Oriented Computing held in conjunction with 3rd International Conference on Software and Data Technologies, pages 7-16, Porto PORTUGAL, INSTICC Press. (ISI) M. Craus & A. Archip. A generalized parallel algorithm for frequent itemset mining. In ICCOMP 08: Proceedings of the 12th WSEAS international conference on Computers, PTS 1-3, pages World Scientific and Engineering Academy and Society (WSEAS), (ISI) S. Arustei, M. Craus, and A. Archip. Towards a Generic Framework for Deploying Applications as Grid Services. In Marten van Sinderen, editor, Proceedings of 2nd International Workshop on Architectures, Concepts and Technologies for Service Oriented Computing held in conjunction with 3rd International Conference on Software and Data Technologies, pages 17-26, Porto, Portugal, INSTICC Press. (ISI) S. Arustei, A. Archip and C.M. Amarandei. Grid Based Visualization Using Sort-Last Parallel Rendering. In H.N. Teodorescu and M. Craus, editors, Scientific and Educational Grid Applications, pages , Iasi, Romania, Politehnium. A.Archip, C.M. Amarandei, S. Arustei, and M. Craus. Optimizing Association Rule Mining Algorithms Using C++ STL Templates. Buletinul Institutului Politehnic din Iasi, Automatic Control and Computer Science Section, LIII(LVII): , C.M. Amarandei, A. Archip, and S. Arustei. Performance Study for MySql Database Access Within Parallel Applications. Buletinul Institutului Politehnic din Iasi, Automatic Control and Computer Science Section, LII(LVI): , A. Archip, S. Arustei, C.M. Amarandei and A. Rusan. On the design of Higher Order Components to integrate MPI applications in Grid Services. In H.N. Teodorescu and M. Craus, editors, Scientific and Educational Grid Applications, pages 25-35, Iasi, Romania, Politehnium. 8

13 C.M. Amarandei, A. Rusan, A. Archip and S. Arustei. On the Development of a GRID Infrastructure. In H.N. Teodorescu and M. Craus, editors, Scientific and Educational Grid Applications, pages 13-23, Iasi, Romania, Politehnium. S. Caraiman, A. Archip, and V. Manta. A Grid Enabled Quantum Computer Simulator. In SYNASC 09: Proceedings of the 11th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing, Timişoara, Romania, IEEE Xplore. S. Arustei, A. Archip, and C.M. Amarandei. Parallel RANSAC for Plane Detection in Point Clouds. Buletinul Institutului Politehnic din Iasi, Automatic Control and Computer Science Section, LIII(LVII): , M. Craus, H.N. Teodorescu, C. Croitoru, O. Brudaru, D. Arotaritei, M. Calin & A. Archip. Academic Grid for Complex Applications - GRAI. In Proc. of 16th International Conference on Control Systems and Computer Science. POLITEHNICA University of Bucharest, May M. Craus, H.N. Teodorescu, C. Croitoru, O. Brudaru, D. Arotaritei, M. Calin & A. Archip. The Service Layer of the Academic Grid GRAI. In Proc. of 16th International Conference on Control Systems and Computer Science. POLITEHNICA University of Bucharest, May Lucrări acceptate spre publicare: A. Archip, V. Manta & G. Dănileţ, Parallel K-Means Revisited: A Hypercube Approach, In Proceedings of the 10th International Symposium on Automatic Control and Computer Science, October I. Astratiei & A. Archip, A Case Study on Improving the Performance of Text Classifiers, In Proceedings of the 10th International Symposium on Automatic Control and Computer Science, October O parte dintre cercetările ce au condus la scrierea acestei teze au fost efectuate în cadrul proiectului de cercetare Grid academic pentru aplicaţii complexe (GRAI), contract 74 CEEX-II03/ , Parteneri: UT Iaşi (coordonator), UAIC Iaşi, USAMV Iaşi, IIT Iaşi, Director proiect: prof. dr. Mitică Craus, Perioada:

14 Capitolul 2 Data mining 2.1 Reguli de asociere Problema extragerii regulilor de asociere din baze de date poate fi formulată astfel: Dat fiind un set de obiecte (itemi) I şi un set de tranzacţii D (sau colecţii/mulţimi de itemi), să se identifice toate regulile de forma: A B (2.1) unde A şi B reprezintă colecţii disjuncte de obiecte [Agrawal 94, Zaki 99]. O observaţie importantă este aceea că regulile de asociere de forma (2.1) nu trebuie interpretate ca fiind implicaţii în sensul existenţa setului A implică existena setului B. Aceste reguli au semnificaţia coexistenţei seturilor A şi B Algoritmi secvenţiali utilizaţi în determinarea regulilor de asociere În prezent există un număr considerabil de algoritmi secvenţiali propuşi pentru extragerea regulilor de asociere. Fiecare dintre aceştia propune fie noi structuri de date pentru generarea şi testarea seturilor candidate (cazul algoritmilor ce extind Apriori, propus în [Agrawal 94]), fie reorganizează spaţiul de căutare în forme structurate, fie modifică organizarea bazei de date propuse spre analiză (cum este cazul algoritmilor bazaţi pe Eclat). O sinteză coerenta a algoritmilor dezvoltaţi până în anul 1999, este propusă de Zaki în [Zaki 99]. O primă diferenţă apare în modul în care sunt căutate itemseturile frecvente în baza relaţiilor de incluziune ce apar între mulţimi. Astfel, algoritmii bazaţi pe Apriori, precum şi algoritmii anteriori Apriori (AIS şi SETM), folosesc o aşa numită căutare bottom-up. Practic, în cazul acestor algoritmi se porneşte de la itemii frecvenţi şi pe baza acestora se generează apoi itemseturi frecvente de dimensiune din ce în ce mai mare, până la determinarea totală sau parţială a itemseturilor maximale. Există însă situaţii când este preferată o abordare top-down, pentru indentificarea itemseturilor maximale. În acest sens au fost dezvoltaţi algoritmi de căutare hibrizi - cum ar fi, spre exemplu, MaxEclat şi, respectiv, MaxClique. Acest tip de algoritmi identifică, într-o prima etapă, o mulţime de itemseturi frecvente de dimensiune variabilă. În etapele următoare, aceste itemseturi 10

15 sunt fie combinate pentru obţinerea unor itemseturi maximale, fie sunt sparte pentru obtinerea subseturilor frecvente incluse. O altă deosebire importantă, evidenţiată de Zaki în [Zaki 99], este legată de modul în care sunt generate seturile candidate şi, respectiv, identificate apoi itemseturile frecvente. Astfel, algoritmii bazaţi pe Apriori sau pe FP-Growth realizează o căutare completă a spaţiului soluţiilor, identificând în final toate itemseturile frecvente şi, respectiv, toate regulile de asociere posibile. Există, însă, cazuri în care nu este necesară identificarea tuturor tiparelor frecvente. De asemenea, situaţia propusă spre analiză poate impune regăsirea numai a itemseturilor maximale. Un alt aspect deosebit de important în diferenţierea algoritmilor existenţi este organizarea bazei de date ţintă. Majoritatea algoritmilor - Apriori şi derivaţi, FP-Growth, DHP, SEAR, etc. - sunt orientaţi pe analiza bazelor de date cu organizare orizontală: înregistrările sunt memorate în forma[identificator tranzacţie (TID), listă itemi incluşi în tranzacţie]. Există o grupă de algoritmi - Eclat şi derivaţi, şi, respectiv, Clique şi derivaţi - care sunt orientaţi pe analiza bazelor de date cu organizare verticală: înregistrările sunt memorate sub forma [item, listă identificatori tranzacţii ce includ itemul (TID)]. Unul dintre principalii algoritmi de extragere a regulilor de asociere, folosit şi în prezent, este algoritmul Apriori, propus în [Agrawal 94]. Principiul de bază al algoritmului este de a calcula seturile frecvente de itemi de dimensiune k prin combinări ale seturilor de dimensiune k 1, pentru k cel puţin egal cu 2. În plus, în partea de generare a seturilor candidate de dimensiune k, se impune următoarea constrângere: un set candidat de dimensiune k nu poate fi obţinut decât prin combinarea a 2 seturi frecvente de dimensiune k 1 ce au primele k 2 elemente comune. În plus, se impune şi condiţia ca orice subset de dimensiune k 1 inclus în k-itemsetul candidat să fie frecvent [Agrawal 94, Adamo 00, Tan 05]. Zaki nota faptul că algoritmul propus de Agrawal et al. în [Agrawal 94] obţine o complexitate timp liniar mărginită faţă de dimensiunea listei de tranzacţii [Zaki 99]. Un al doilea algoritm deosebit de important pentru problema regăsirii tiparelor frecvente este reprezentat de algorimul FP-Growth [Han 00]. Acesta este, în prezent, unul dintre cei mai rapizi algoritmi folosiţi în extragerea tiparelor frecvent. Algoritmul este bazat pe o reprezentare de tip arbore prefix (arbore FP) a tranzacţiilor înregistrate în baza de date ţintă, modalitate de reprezentare care reduce considerabil memoria folosită pentru stocarea tranzactiilor [Han 00]. Ideea de bază a algoritmului este bazată pe o schemă de eliminare recursive [Han 00, Grahne 05] Metode de paralelizare ale algoritmilor secvenţiali În această secţiune sunt prezentate câteva dintre cele mai cunoscute paralelizări pentru algoritmii prezentaţi anterior. Paralelizări ale algoritmului Apriori Tehnicile de paralelizare ale algoritmului Apriori pot fi împărţite în 4 categorii, în funcţie de ţinta paralelizării [Shintani 96, Zaki 99, Kumar 03]: distribuirea candidaţilor - paralelizări de tip,,candidate distribution : generarea candidaţilor este distribuită între nodurile de procesare. Parţile bazei de date sunt memorate pe fiecare procesor în parte. Mulţimea de candidaţi este comunicată 11

16 celorlalte procesoare printr-un proces de tip gather/broadcast. O observaţie importantă este cea a lui Zaki, care susţine că acest tip de paralelizare este una extrem de ineficientă, datorită comunicaţiilor excesive [Zaki 99]; distribuirea calculului suportului minim - paralelizări de tip,,count distribution : în acest caz, baza de date este partiţionată în subseturi disjuncte între procesoare. Fiecare procesor cunoaşte integral arborele hash al itemilor şi, respectiv, al candidaţilor. Suportul este incrementat local, pentru fiecare candidat în parte. Urmează apoi o etapă de comunicare, pentru calcularea suportului global. Un astfel de algoritm este Non Partitioned Apriori, propus în [Shintani 96]; distribuirea datelor - paralelizări de tip,,data distribution : acest model propune o generare disjunctă a itemseturilor candidate. Totuşi, acest model implică, din nou, comunicaţii excesive, de această dată pentru transmiterea candidaţilor între procesoare şi calculul suportului global. Un exemplu de algoritm este Simple Partitioned Apriori [Shintani 96]; paralelizări hibride: modelul algoritmic propus în acest caz este reprezentat de Hash Partitioned Apriori (HPA) [Shintani 96] şi va fi expus pe larg în continuare. Algoritmul HPA are la bază, după cum indică şi numele său, algoritmul Apriori, fiind una dintre cele mai eficiente paralelizări ale algoritmului menţionat. Cum am amintit anterior, ideea algoritmului Apriori este aceea de a genera seturi candidate de itemi de dimensiune k pe baza seturilor frecvente de itemi de dimensiune k 1. Fiecare set de itemi candidat este apoi testat pentru a se determina dacă este un set frecvent de itemi sau nu. Acest pas se repetă până în momentul în care nu mai sunt găsite seturi frecvente de itemi sau până când se ajunge în imposibilitatea generării de seturi candidate. Algoritmul HPA partitionează itemseturile canditate şi baza de date între procesoare, folosind o funcţia hash caracteristică algoritmului secvenţial de bază. Se elimină astfel broadcastul inutil al datelor tranzacţionate şi se obţin reduceri semnificative din punct de vedere al timpului consumat în calculul suportului pentru un set dat [Shintani 96]. Paralelizări ale algoritmului FP-Growth Una dintre cele mai interesante paralelizări ale algoritmului FP-Growth este propusă de Zaiane şi este prezentată în continuare [Zaiane 01]. Modelul algoritmic poartă numele de Multiple Local Frequent Pattern Trees (MLFPT) şi este constituit din două faze. Prima dintre acestea constă în construirea unor arbori FP locali, în timp ce etapa a doua constă în explorarea acestor arbori şi construirea seturilor frecvente de itemi. Pentru construirea arborilor MLP (Multiple Local Pattern), iniţial se scanează baza de date pentru a se identifica seturile de itemi frecvenţi de dimensiune 1 (sau, cu alte cuvinte, itemii frecvenţi). În acest scop, baza de date ţintă este împărţită între procesoare în mod aproximativ egal. Fiecare procesor va calcula suportul parţial al itemilor regăsiţi în subsetul de tranzacţii ce i-a fost repartizat din baza de date iniţială. Această etapă se încheie cu o operaţie colectivă de reducere pentru a determina suportul global al fiecărui item în parte. Urmează un pas computaţional de eliminare a itemilor nefrecvenţi şi de sortare a itemilor frecvenţi în ordinea descrescătoare a suportului calculat. Similar algoritmului secvenţial, tranzacţiile sunt de asemenea sortate descrescător relativ la suportul 12

17 itemilor incluşi şi sunt eliminaţi din tranzacţii itemii nefrecvenţi. Urmează o etapă de calcul, cu scopul de a construi arborii FP locali. Trebuie făcută observaţia ca aceşti arbori locali vor avea rădăcină un element null. Fiecare procesor va scana din nou setul de tranzactii ce i-a fost asignat pentru determinarea arborilor FP locali. Paşii urmaţi în acest caz sunt similari (la nivel local) cu cei ai algoritmului FP-Growth secvenţial. Se construieşte apoi baza de tipare condiţionale: o listă care conţine toţi itemii ce apar înaintea itemului studiat şi până la rădăcină (într-o parcurgere bottom-up). Prin combinarea acestor baze de tipare condiţionate se identifică pentru fiecare item în parte un şir ce conţine toţi ceilalţi itemi cu care itemul curent poate forma seturi frecvente, precum şi suportul pentru fiecare set în parte. Se obţin, astfel, arbori FP-condiţionali. Pe baza acestora din urmă se determină tiparele frecvente. Această ultimă etapă este una intensiv comunicaţională. Pentru fiecare itemset în parte sunt necesare operaţii de comunicţie colective pentru determinarea suportului global pe baza arborilor FPcondiţionali Discuţii asupra tehnicilor existente de extragere a regulilor de asociere În subcapitolele anterioare au fost prezentaţi doi dintre cei mai importanţi algoritmi utilizaţi în determinarea regulilor de asociere (Apriori şi FP-Growth) şi două dintre cele mai cunoscute metode de paralelizare pentru algoritmii în discuţie. Cu toate că ambii algoritmi sunt eficienţi, există un set de dezavantaje ce ar putea fi eliminate. Astfel, cu toate că obţine timpi de răspuns performanţi prin reducerea semnificativă a scănărilor bazei de date ţintă (doar două scanări ale bazei de tranzacţii), algoritmul FP-Growth implică existenţa unor sturcturi de date complexe. Acest fapt atrage după sine o complexitate mult crescută pentru modelele paralele. Implementările modelului MLFPT realizate pentru sisteme de calcul paralel bazate pe principiul memoriei partajate se pot dovedi ineficiente datorită sincronizărilor implicate de construirea arborilor FP-condiţionali. Pe de altă parte, dacă sistemul de calcul paralel este unul bazat pe memorie distribuită şi comunicare de mesaje, atunci detereminarea tiparelor frecvente pe baza arborilor FP-locali implică un necesar crescut de comunicaţii ce pot cauza scăderea performanţelor. Legat de primul algoritm, Apriori, se pot observa rapid două dezavantaje majore ale algoritmului. Înprimulrând,algoritmulinterogheazălafiecareiteraţiebazadedateţintă, inclusiv în faza de generare a k-itemseturilor candidat [Agrawal 94]. În al doilea rând, funcţia cheie a algoritmului introduce timpi de calcul suplimentari. După determinarea celor două seturilor de dimensiune k 1 ce vor genera k-itemsetul candidat, trebuie verificat dacă toate (k 1)-itemseturile incluse în noul candidat sunt (k 1)-itemseturi frecvente. Ordinul de complexitate al funcţiei de generare este O(r k12 r k k). În cazul general, algoritmii existenţi utilizaţi în extragerea regulilor de asociere pot fi optimizaţi doar din punctul de vedere al răspunsului timp. Considerând o astfel de abordare, Agrawal propune (propunere reluată apoi în [Adamo 00]) un al doilea algoritm, AprioriTid [Agrawal 94]. Faţă de varianta de bază, algoritmul AprioriTid memorează, pentru fiecare k-itemset frecvent, şi un set de identificatori ai tranzacţiilor pe baza cărora a fost calculat suportul itemului în discuţie. Totuşi, nici această abordare nu obţine un plus de performanţe considerabil. Un alt aspect negativ legat de algoritmii utilizaţi în determinarea regulilor de asociere este că, în afară de algoritmul Apriori nu au fost exploatate alte mecanisme de gene- 13

18 rare a candidaţilor ce ar putea reduce considerabil mulţimea de seturi parcurse. O altă observaţie importantă este că, deşi autorii din [Tan 05] introduc în mod demonstrativ codificarea binară a itemseturilor, nu se regăsesc publicate nici un set de rezultate care să ofere detalii legate de performanţele acestei codificări. 2.2 Reguli de clasificare Formal, extragerea regulilor de clasificare poate fi rezumată la următoarea definiţie [Freitas 00, Tan 05]: Definiţia 2.1 (Regulă de clasificare). Extragerea regulilor de clasificare dintr-un set de date reprezintă generarea, pe baza cunoştinţelor acumulate, a unui set de constrângeri pentru a sorta datele ulterioare Algoritmi secvenţiali utilizaţi în determinarea regulilor de clasificare Aşa cum am amintit în capitolul introductiv, prin extragerea unui set de reguli de clasificare dintr-un set de date ţintă se încearca identificarea unei funcţii capabile să mapeze corect un set de atribute de intrare pe un set de etichete predefinite, numite clase. În cazul general, această operaţie este compusă din două etape distincte [Tan 05]: prima dintre acestea implică învăţarea regulilor de clasificare pe baza unui model predefinit, construit, în mod uzual, pe baza experienţei beneficiarilor finali[two 05]; a doua etapă implică aplicarea acestui model de clasificare pe un set de date de test, pentru a se măsura acurateţea modelului. În cazul în care modelul de clasificare obţinut este unul satisfăcător, atunci se poate trece la aplicarea sa pe bazele de date de interes. Dacă, dimpotrivă, acurateţea modelului lasă de dorit, atunci se încearcă crearea unui nou set de test, pentru reînvăţarea regulilor de clasificare, eventual prin adaugarea de noi constrângeri. O altă grupare posibilă este legată de specificarea exactă sau nu a claselor rezultat. Din acest punct de vedere se pot distinge două clase de algoritmi: algoritmi statici - clasele şi constrângerile pentru fiecare clasă în parte sunt specificate de la inceput - şi, respectiv, algoritmi dinamici - se încearcă determinarea automată a claselor şi a numărului acestora. 2.3 Segmentarea datelor Definiţia 2.2 (Clusterizarea datelor). Clusterizarea datelor (sau segmentarea datelor) înseamnă, în sens larg, regăsirea unei structuri într-o colecţie de date nemarcate/ nestructurate. Conceptual, procesul de clusterizare/partiţionare a datelor poate fi privit ca fiind organizarea unui set de obiecte (date) în grupuri ale căror membri sunt similari după un anumit set de restricţii impuse. În prezent, un număr din ce în ce mai mare de aplicaţii utilizează metode de clusterizare pentru a obţine rezultate superioare. Exemplele cele mai uzuale includ clusterizarea 14

19 documentelor [Li 05] şi sistemele de regăsire a informaţiilor [Grossman 04]. Un studiu recent a indicat o creştere a acurateţii de clasificare a algoritmului k-nn (k-nearest neighbor) în cazul în care setul de antrenament corespunzător a fost generat pe baza unei clusterizări a documentelor incluse de acest set de antrenament [Astratiei 10]. O problemă comună care apare în cazul acestor aplicaţii este legată de volumul mare de date care trebuie procesate. Algoritmii de clusterizare sunt în general de tipul lazy learner şi trebuie utilizate metode eficiente de paralelizare pentru a obţine timpi de răspuns şi o scalabilitate rezonabile Noţiuni teoretice fundamentale Conform definiţiei de mai sus (Definiţia 2.2, adaptare după [Han 06]), clusterizarea reprezintă o tehnică descriptivă de data mining care urmăreşte divizarea unui set de obiecte date în grupuri distincte. Procesul de împărţire a setului dat de date este realizat pe baza similarităţii intrinseci a itemilor, tinând cont de atributele interesante. Definiţia 2.3 (Similaritate). În mod uzual, similaritatea este definită ca fiind o metrică/distanţă peste un set de atribute. Rezultatele clusterizării ar trebui sa ofere o reprezentare mai bună a setului de date de intrare, ţinând cont de metrica de similaritate (obiectele aparţinând aceluiaşi grup au aceleaşi caracteristici, în timp ce două obiecte aparţinând de grupuri diferite ar trebui să fie semnificativ diferite). Metodele de clusterizare sunt considerate în general ca fiind o formă de învăţare nesupervizată [Han 06, Berkhin 02]. Din acest punct de vedere, [Berkhin 02] subliniază că rezultatele reprezintă un model ascuns care furnizează o nouă reprezentare a datelor existente Algoritmi secvenţiali utilizaţi în segmentarea datelor Unul dintre cei mai des utilizaţi algoritmi de segmentare, algoritmul K-Means Clustering (KMC), a fost introdus de către MacQueen în anul 1967 [MacQueen 67]. În prezent, KMCesteunuldintrecelemaivechi, şiconform[joshi 03], şiunuldintreceimaipopulari, algoritmi de clusterizare. Motivul acestei popularităţi este dat de simplitatea în implementare, de scalabilitate şi de viteza de convergenţă. De asemenea, dacă se utilizează o metrică adecvată, algoritmul poate fi adaptat pentru o varietate mare de tipuri de date. Algoritmul KMC reprezintă o metodă de partiţionare care are ca scop divizarea setului de date de intrare de dimunsiune n în k partitii. Obiectele aparţinând unei partiţii trebuie să fie asemănătoare între ele, în timp ce obiectele care aparţin unor partiţii diferite trebuie să difere. M. Joshi în [Joshi 03], citând [Dhillon 00], prezintă următoarele etape generice pentru algoritmul KMC: 1. iniţializarea - se selectează un set de k itemi din setul de date de intrare pentru a fi centroizii iniţiali; 2. calcularea distanţelor - pentru fiecare item din setul de date, se calculează distanţa până la centroizii selectaţi; itemul este distribuit celui mai apropiat centroid; 3. recalcularea centroizilor - pentru fiecare cluster, se recalculează centroidul ca fiind media itemilor atribuiţi; 15

20 4. condiţia de convergenţă - se repetă etapa 2 şi 3 până la atingerea convergenţei. Din punct de vedere logic, condiţia de convergenţă pentru etapa 4 poate fi una dintre următoarele variante: atunci când nu se mai redistribuie nici un item între două clustere sau atunci când coordonatele centroizilor nu s-au modificat în etapa 3. Din punct de vedere matematic, convergenţa este reprezentată de eroarea pătratică calculată conform relaţiei (2.2). În acest caz etapa 4 poate fi definită ca fiind valoarea minimă pentru relaţia (2.2) [Han 06] (în capitolul 8): E = k x i C(k) x i m k 2. (2.2) Este important de menţionat că algoritmul KMC este o abordare de tip greedy pentru metodele de partiţionare (datorită modului de alegere a centroizilor între etape). Pentru diferite variante de alegere a centroizilor iniţiali, eroarea patratică minimă calculată conform (2.2) poate varia. Dacă luăm în considerare k - numărul de clustere, n - numărul de itemi care trebuie clusterizaţi şi t - numărul de iteraţii necesare pentru a atinge convergenţa, algoritmul KMC are o complexitate de timp de ordinul O(nkt) [Han 06] (capitolul 8). În mod normal, între n, k şi t există următoarea relaţie (a se vedea [Han 06] capitolul 8 pentru mai multe detalii): k n t n. (2.3) Dacă luăm în considerare relaţia (2.3), se poate observa uşor că numărul total de itemi n este factorul cu cea mai mare influenţă asupra timpului de răspuns pentru orice implementare KMC Metode de paralelizare ale algoritmilor secvenţiali Au fost realizate diferite încercări de a optimiza paralelizarea algoritmului KMC. Unul dintre cele mai cunoscute şi utilizate modele este Parallel K-Means (prescurtat PKM) [Dhillon 00, Joshi 03, Stoffle 99]. Cel mai mare consumator de timp este pasul de calculare a distanţelor. Această etapă în sine presupune O(nk) paşi pentru a calcula distanţele între fiecare item din setul de date (compus din n itemi) şi fiecare dintre cei k centrozii. Modelul paralel pentru PKM împarte întregul set de date de intrare între procese [Dhillon 00, Joshi 03, Stoffle 99]. Considerând p procese, fiecare va primi (n/p) elemente din setul de intrare. Divizarea itemilor va reduce fazele locale de calculare a distanţelor la complexitatea de timp dată de relaţia: O( n k ). (2.4) p Discuţii asupra tehnicilor existente de segmentare a datelor Modelul PKM se bazează pe o paradigmă de tipul SIMD (Single Instruction Multiple Data). O primă observaţie importantă este faptul că acest model nu este aplicabil doar unei metode specifice de implementare. În funcţie de diferitele cerinţe, algoritmul PKM 16

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice

Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice Titlul lucrării propuse pentru participarea la concursul pe tema securității informatice "Îmbunătăţirea proceselor şi activităţilor educaţionale în cadrul programelor de licenţă şi masterat în domeniul

More information

Versionare - GIT ALIN ZAMFIROIU

Versionare - GIT ALIN ZAMFIROIU Versionare - GIT ALIN ZAMFIROIU Controlul versiunilor - necesitate Caracterul colaborativ al proiectelor; Backup pentru codul scris Istoricul modificarilor Terminologie și concepte VCS Version Control

More information

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC)

Semnale şi sisteme. Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) Semnale şi sisteme Facultatea de Electronică şi Telecomunicaţii Departamentul de Comunicaţii (TC) http://shannon.etc.upt.ro/teaching/ssist/ 1 OBIECTIVELE CURSULUI Disciplina îşi propune să familiarizeze

More information

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin

Structura și Organizarea Calculatoarelor. Titular: BĂRBULESCU Lucian-Florentin Structura și Organizarea Calculatoarelor Titular: BĂRBULESCU Lucian-Florentin Chapter 3 ADUNAREA ȘI SCĂDEREA NUMERELOR BINARE CU SEMN CONȚINUT Adunarea FXP în cod direct Sumator FXP în cod direct Scăderea

More information

Modalitǎţi de clasificare a datelor cantitative

Modalitǎţi de clasificare a datelor cantitative Modalitǎţi de clasificare a datelor cantitative Modul de stabilire a claselor determinarea pragurilor minime şi maxime ale fiecǎrei clase - determinǎ modul în care sunt atribuite valorile fiecǎrei clase

More information

Metrici LPR interfatare cu Barix Barionet 50 -

Metrici LPR interfatare cu Barix Barionet 50 - Metrici LPR interfatare cu Barix Barionet 50 - Barionet 50 este un lan controller produs de Barix, care poate fi folosit in combinatie cu Metrici LPR, pentru a deschide bariera atunci cand un numar de

More information

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962)

ARBORI AVL. (denumiti dupa Adelson-Velskii si Landis, 1962) ARBORI AVL (denumiti dupa Adelson-Velskii si Landis, 1962) Georgy Maximovich Adelson-Velsky (Russian: Гео ргий Макси мович Адельсо н- Ве льский; name is sometimes transliterated as Georgii Adelson-Velskii)

More information

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N

2. Setări configurare acces la o cameră web conectată într-un router ZTE H218N sau H298N Pentru a putea vizualiza imaginile unei camere web IP conectată într-un router ZTE H218N sau H298N, este necesară activarea serviciului Dinamic DNS oferit de RCS&RDS, precum și efectuarea unor setări pe

More information

Procesarea Imaginilor

Procesarea Imaginilor Procesarea Imaginilor Curs 11 Extragerea informańiei 3D prin stereoviziune Principiile Stereoviziunii Pentru observarea lumii reale avem nevoie de informańie 3D Într-o imagine avem doar două dimensiuni

More information

GHID DE TERMENI MEDIA

GHID DE TERMENI MEDIA GHID DE TERMENI MEDIA Definitii si explicatii 1. Target Group si Universe Target Group - grupul demografic care a fost identificat ca fiind grupul cheie de consumatori ai unui brand. Toate activitatile

More information

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A.

Excel Advanced. Curriculum. Școala Informală de IT. Educație Informală S.A. Excel Advanced Curriculum Școala Informală de IT Tel: +4.0744.679.530 Web: www.scoalainformala.ro / www.informalschool.com E-mail: info@scoalainformala.ro Cuprins 1. Funcții Excel pentru avansați 2. Alte

More information

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows

Ghid identificare versiune AWP, instalare AWP şi verificare importare certificat în Store-ul de Windows Ghid identificare versiune AWP, instalare AWP 4.5.4 şi verificare importare certificat în Store-ul de Windows Data: 28.11.14 Versiune: V1.1 Nume fişiser: Ghid identificare versiune AWP, instalare AWP 4-5-4

More information

Managementul Proiectelor Software Metode de dezvoltare

Managementul Proiectelor Software Metode de dezvoltare Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic Managementul Proiectelor Software Metode de dezvoltare 2 Metode structurate (inclusiv metodele OO) O mulțime de pași și

More information

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban

Reflexia şi refracţia luminii. Aplicaţii. Valerica Baban Reflexia şi refracţia luminii. Aplicaţii. Sumar 1. Indicele de refracţie al unui mediu 2. Reflexia şi refracţia luminii. Legi. 3. Reflexia totală 4. Oglinda plană 5. Reflexia şi refracţia luminii în natură

More information

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila

MS POWER POINT. s.l.dr.ing.ciprian-bogdan Chirila MS POWER POINT s.l.dr.ing.ciprian-bogdan Chirila chirila@cs.upt.ro http://www.cs.upt.ro/~chirila Pornire PowerPoint Pentru accesarea programului PowerPoint se parcurg următorii paşi: Clic pe butonul de

More information

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: "9",

La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - <numarul dvs de carnet> (ex: 9, La fereastra de autentificare trebuie executati urmatorii pasi: 1. Introduceti urmatoarele date: Utilizator: - (ex: "9", "125", 1573" - se va scrie fara ghilimele) Parola: -

More information

ANTICOLLISION ALGORITHM FOR V2V AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP V2V (VEHICLE-TO-VEHICLE)

ANTICOLLISION ALGORITHM FOR V2V AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP V2V (VEHICLE-TO-VEHICLE) ANTICOLLISION ALGORITHM FOR VV AUTONOMUOS AGRICULTURAL MACHINES ALGORITM ANTICOLIZIUNE PENTRU MASINI AGRICOLE AUTONOME TIP VV (VEHICLE-TO-VEHICLE) 457 Florin MARIAŞIU*, T. EAC* *The Technical University

More information

Metoda BACKTRACKING. prof. Jiduc Gabriel

Metoda BACKTRACKING. prof. Jiduc Gabriel Metoda BACKTRACKING prof. Jiduc Gabriel Un algoritm backtracking este un algoritm de căutare sistematică și exhausivă a tuturor soluțiilor posibile, dintre care se poate alege apoi soluția optimă. Problemele

More information

Software Process and Life Cycle

Software Process and Life Cycle Software Process and Life Cycle Drd.ing. Flori Naghiu Murphy s Law: Left to themselves, things tend to go from bad to worse. Principiile de dezvoltare software Principiul Calitatii : asigurarea gasirii

More information

INSTRUMENTE DE MARKETING ÎN PRACTICĂ:

INSTRUMENTE DE MARKETING ÎN PRACTICĂ: INSTRUMENTE DE MARKETING ÎN PRACTICĂ: Marketing prin Google CUM VĂ AJUTĂ ACEST CURS? Este un curs util tuturor celor implicați în coordonarea sau dezvoltarea de campanii de marketingși comunicare online.

More information

Auditul financiar la IMM-uri: de la limitare la oportunitate

Auditul financiar la IMM-uri: de la limitare la oportunitate Auditul financiar la IMM-uri: de la limitare la oportunitate 3 noiembrie 2017 Clemente Kiss KPMG in Romania Agenda Ce este un audit la un IMM? Comparatie: audit/revizuire/compilare Diferente: audit/revizuire/compilare

More information

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND

Textul si imaginile din acest document sunt licentiate. Codul sursa din acest document este licentiat. Attribution-NonCommercial-NoDerivs CC BY-NC-ND Textul si imaginile din acest document sunt licentiate Attribution-NonCommercial-NoDerivs CC BY-NC-ND Codul sursa din acest document este licentiat Public-Domain Esti liber sa distribui acest document

More information

ISBN-13:

ISBN-13: Regresii liniare 2.Liniarizarea expresiilor neliniare (Steven C. Chapra, Applied Numerical Methods with MATLAB for Engineers and Scientists, 3rd ed, ISBN-13:978-0-07-340110-2 ) Există cazuri în care aproximarea

More information

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC

REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC REVISTA NAŢIONALĂ DE INFORMATICĂ APLICATĂ INFO-PRACTIC Anul II Nr. 7 aprilie 2013 ISSN 2285 6560 Referent ştiinţific Lector univ. dr. Claudiu Ionuţ Popîrlan Facultatea de Ştiinţe Exacte Universitatea din

More information

Metoda de programare BACKTRACKING

Metoda de programare BACKTRACKING Metoda de programare BACKTRACKING Sumar 1. Competenţe............................................ 3 2. Descrierea generală a metodei............................. 4 3......................... 7 4. Probleme..............................................

More information

TEZĂ DE DOCTORAT. Ing. ALEXANDRINA MIRELA PATER. Conducător ştiinţific: Prof. Univ. Dr. Ing. IONEL JIAN TIMIŞOARA

TEZĂ DE DOCTORAT. Ing. ALEXANDRINA MIRELA PATER. Conducător ştiinţific: Prof. Univ. Dr. Ing. IONEL JIAN TIMIŞOARA UNIVERSITATEA POLITEHNICA TIMIŞOARA FACULTATEA DE AUTOMATICĂ ŞI CALCULATOARE Ing. ALEXANDRINA MIRELA PATER TEZĂ DE DOCTORAT Conducător ştiinţific: Prof. Univ. Dr. Ing. IONEL JIAN TIMIŞOARA -2006- ING.

More information

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M )

INFORMAȚII DESPRE PRODUS. FLEXIMARK Stainless steel FCC. Informații Included in FLEXIMARK sample bag (article no. M ) FLEXIMARK FCC din oțel inoxidabil este un sistem de marcare personalizată în relief pentru cabluri și componente, pentru medii dure, fiind rezistent la acizi și la coroziune. Informații Included in FLEXIMARK

More information

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm

D în această ordine a.î. AB 4 cm, AC 10 cm, BD 15cm Preparatory Problems 1Se dau punctele coliniare A, B, C, D în această ordine aî AB 4 cm, AC cm, BD 15cm a) calculați lungimile segmentelor BC, CD, AD b) determinați distanța dintre mijloacele segmentelor

More information

CONTRIBUŢII PRIVIND MANAGEMENTUL CALITĂȚII PROIECTULUI ÎN INDUSTRIA AUTOMOTIVE

CONTRIBUŢII PRIVIND MANAGEMENTUL CALITĂȚII PROIECTULUI ÎN INDUSTRIA AUTOMOTIVE UNIVERSITATEA POLITEHNICA TIMIŞOARA Școala Doctorală de Studii Inginerești Ing. Daniel TIUC CONTRIBUŢII PRIVIND MANAGEMENTUL CALITĂȚII PROIECTULUI ÎN INDUSTRIA AUTOMOTIVE Teză destinată obținerii titlului

More information

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales

MANAGEMENTUL CALITĂȚII - MC. Proiect 5 Procedura documentată pentru procesul ales MANAGEMENTUL CALITĂȚII - MC Proiect 5 Procedura documentată pentru procesul ales CUPRINS Procedura documentată Generalități Exemple de proceduri documentate Alegerea procesului pentru realizarea procedurii

More information

Subiecte Clasa a VI-a

Subiecte Clasa a VI-a (40 de intrebari) Puteti folosi spatiile goale ca ciorna. Nu este de ajuns sa alegeti raspunsul corect pe brosura de subiecte, ele trebuie completate pe foaia de raspuns in dreptul numarului intrebarii

More information

Mecanismul de decontare a cererilor de plata

Mecanismul de decontare a cererilor de plata Mecanismul de decontare a cererilor de plata Autoritatea de Management pentru Programul Operaţional Sectorial Creşterea Competitivităţii Economice (POS CCE) Ministerul Fondurilor Europene - Iunie - iulie

More information

M C I O H L BAZE DE CUNOŞTINŢE A H E O L N S I S T E M E D E R E P R E Z E N A R E Ş I P R O C E S A R E A A C U N O Ş T I N Ţ E L O R

M C I O H L BAZE DE CUNOŞTINŢE A H E O L N S I S T E M E D E R E P R E Z E N A R E Ş I P R O C E S A R E A A C U N O Ş T I N Ţ E L O R BAZE DE CUNOŞTINŢE S I S T E M E D E R E P R E Z E N A R E Ş I P R O C E S A R E A C U N O Ş T I N Ţ E L O R M C I O H L A H E O L N A TIPURI DE CUNOŞTINŢE Pentru a putea rezolva problemele complexe de

More information

O ALTERNATIVĂ MODERNĂ DE ÎNVĂŢARE

O ALTERNATIVĂ MODERNĂ DE ÎNVĂŢARE WebQuest O ALTERNATIVĂ MODERNĂ DE ÎNVĂŢARE Cuvinte cheie Internet WebQuest constructivism suport educational elemente motivationale activitati de grup investigatii individuale Introducere Impactul tehnologiilor

More information

Reţele Neuronale Artificiale în MATLAB

Reţele Neuronale Artificiale în MATLAB Reţele Neuronale Artificiale în MATLAB Programul MATLAB dispune de o colecţie de funcţii şi interfeţe grafice, destinate lucrului cu Reţele Neuronale Artificiale, grupate sub numele de Neural Network Toolbox.

More information

O abordare Data Mining pentru detectarea accesului neautorizat la baza de date.

O abordare Data Mining pentru detectarea accesului neautorizat la baza de date. O abordare Data Mining pentru detectarea accesului neautorizat la baza de date. 1. Introducere 2. Lucrări asemănătoare 3. Modelul de clasificare 4. Dependenţele intre date 4.1 Terminologia dependenţei

More information

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB

Grafuri bipartite. Lecție de probă, informatică clasa a XI-a. Mihai Bărbulescu Facultatea de Automatică și Calculatoare, UPB Grafuri bipartite Lecție de probă, informatică clasa a XI-a Mihai Bărbulescu b12mihai@gmail.com Facultatea de Automatică și Calculatoare, UPB Colegiul Național de Informatică Tudor Vianu București 27 februarie

More information

EXTRAGEREA INFORMAȚIEI DE PRIM- PLAN ÎN VIDEO- CONFERINȚE UTILIZÂND ANALIZA FLUXURILOR DE MIȘCARE

EXTRAGEREA INFORMAȚIEI DE PRIM- PLAN ÎN VIDEO- CONFERINȚE UTILIZÂND ANALIZA FLUXURILOR DE MIȘCARE EXTRAGEREA INFORMAȚIEI DE PRIM- PLAN ÎN VIDEO- CONFERINȚE UTILIZÂND ANALIZA FLUXURILOR DE MIȘCARE ( FOREGROUND EXTRACTION IN VIDEO CONFERENCES USING MOTION FLOW ANALYSIS ) Rezumatul tezei elaborată de

More information

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii

Aspecte controversate în Procedura Insolvenţei şi posibile soluţii www.pwc.com/ro Aspecte controversate în Procedura Insolvenţei şi posibile soluţii 1 Perioada de observaţie - Vânzarea de stocuri aduse în garanţie, în cursul normal al activității - Tratamentul leasingului

More information

Olimpiad«Estonia, 2003

Olimpiad«Estonia, 2003 Problema s«pt«m nii 128 a) Dintr-o tabl«p«trat«(2n + 1) (2n + 1) se ndep«rteaz«p«tr«telul din centru. Pentru ce valori ale lui n se poate pava suprafata r«mas«cu dale L precum cele din figura de mai jos?

More information

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip

Mods euro truck simulator 2 harta romaniei by elyxir. Mods euro truck simulator 2 harta romaniei by elyxir.zip Mods euro truck simulator 2 harta romaniei by elyxir Mods euro truck simulator 2 harta romaniei by elyxir.zip 26/07/2015 Download mods euro truck simulator 2 harta Harta Romaniei pentru Euro Truck Simulator

More information

Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple. Memoria cache Memoria virtuală

Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple. Memoria cache Memoria virtuală Ierarhia memoriilor Tipuri de memorii Memorii semiconductoare Memoria cu unități multiple Memoria cache Memoria virtuală 1 Memorii RAM: datele sunt identificate cu ajutorul unor adrese unice Memorii asociative:

More information

METODE DE EVALUARE A IMPACTULUI ASUPRA MEDIULUI ŞI IMPLEMENTAREA SISTEMULUI DE MANAGEMENT DE MEDIU

METODE DE EVALUARE A IMPACTULUI ASUPRA MEDIULUI ŞI IMPLEMENTAREA SISTEMULUI DE MANAGEMENT DE MEDIU UNIVERSITATEA POLITEHNICA BUCUREŞTI FACULTATEA ENERGETICA Catedra de Producerea şi Utilizarea Energiei Master: DEZVOLTAREA DURABILĂ A SISTEMELOR DE ENERGIE Titular curs: Prof. dr. ing Tiberiu APOSTOL Fond

More information

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date.

9. Memoria. Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. 9. Memoria Procesorul are o memorie cu o arhitectură pe două niveluri pentru memoria de program și de date. Primul nivel conține memorie de program cache (L1P) și memorie de date cache (L1D). Al doilea

More information

Propuneri pentru teme de licență

Propuneri pentru teme de licență Propuneri pentru teme de licență Departament Automatizări Eaton România Instalație de pompare cu rotire în funcție de timpul de funcționare Tablou electric cu 1 pompă pilot + 3 pompe mari, cu rotirea lor

More information

3. CLOUD COMPUTING Sisteme de calcul distribuite

3. CLOUD COMPUTING Sisteme de calcul distribuite 3. CLOUD COMPUTING Cloud Computing (CC) calcul în nori, în traducere mot a mot, sau, mai corect, calcul în Internet este un concept aflat în directă legătură cu transformările către se produc în domeniu

More information

LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE

LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE LIDER ÎN AMBALAJE EXPERT ÎN SISTEMUL BRAILLE BOBST EXPERTFOLD 80 ACCUBRAILLE GT Utilajul ACCUBRAILLE GT Bobst Expertfold 80 Aplicarea codului Braille pe cutii a devenit mai rapidă, ușoară și mai eficientă

More information

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive.

Dispozitive Electronice şi Electronică Analogică Suport curs 02 Metode de analiză a circuitelor electrice. Divizoare rezistive. . egimul de curent continuu de funcţionare al sistemelor electronice În acest regim de funcţionare, valorile mărimilor electrice ale sistemului electronic sunt constante în timp. Aşadar, funcţionarea sistemului

More information

ACADEMIA DE STUDII ECONOMICE. Integrarea Sistemelor Informatice

ACADEMIA DE STUDII ECONOMICE. Integrarea Sistemelor Informatice ACADEMIA DE STUDII ECONOMICE FACULTATEA DE CIBERNETICĂ, STATISTICĂ ȘI INFORMATICĂ ECONOMICĂ Master Informatică Economică Integrarea Sistemelor Informatice Problemele integrării pentru big data Student

More information

Documentaţie Tehnică

Documentaţie Tehnică Documentaţie Tehnică Verificare TVA API Ultima actualizare: 27 Aprilie 2018 www.verificaretva.ro 021-310.67.91 / 92 info@verificaretva.ro Cuprins 1. Cum funcţionează?... 3 2. Fluxul de date... 3 3. Metoda

More information

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; }

Arbori. Figura 1. struct ANOD { int val; ANOD* st; ANOD* dr; }; #include <stdio.h> #include <conio.h> struct ANOD { int val; ANOD* st; ANOD* dr; } Arbori Arborii, ca şi listele, sunt structuri dinamice. Elementele structurale ale unui arbore sunt noduri şi arce orientate care unesc nodurile. Deci, în fond, un arbore este un graf orientat degenerat.

More information

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET

CAIETUL DE SARCINI Organizare evenimente. VS/2014/0442 Euro network supporting innovation for green jobs GREENET CAIETUL DE SARCINI Organizare evenimente VS/2014/0442 Euro network supporting innovation for green jobs GREENET Str. Dem. I. Dobrescu, nr. 2-4, Sector 1, CAIET DE SARCINI Obiectul licitaţiei: Kick off,

More information

Managementul referinţelor cu

Managementul referinţelor cu TUTORIALE DE CULTURA INFORMAŢIEI Citarea surselor de informare cu instrumente software Managementul referinţelor cu Bibliotecar Lenuţa Ursachi PE SCURT Este gratuit Poţi adăuga fişiere PDF Poţi organiza,

More information

Prelucrarea numerică a semnalelor

Prelucrarea numerică a semnalelor Prelucrarea numerică a semnalelor Assoc.Prof. Lăcrimioara GRAMA, Ph.D. http://sp.utcluj.ro/teaching_iiiea.html 27 februarie 2017 Lăcrimioara GRAMA (sp.utcluj.ro) Prelucrarea numerică a semnalelor 27 februarie

More information

Update firmware aparat foto

Update firmware aparat foto Update firmware aparat foto Mulţumim că aţi ales un produs Nikon. Acest ghid descrie cum să efectuaţi acest update de firmware. Dacă nu aveţi încredere că puteţi realiza acest update cu succes, acesta

More information

VIRTUAL INSTRUMENTATION IN THE DRIVE SUBSYSTEM MONITORING OF A MOBIL ROBOT WITH GESTURE COMMANDS

VIRTUAL INSTRUMENTATION IN THE DRIVE SUBSYSTEM MONITORING OF A MOBIL ROBOT WITH GESTURE COMMANDS BULETINUL INSTITUTULUI POLITEHNIC DIN IAŞI Publicat de Universitatea Tehnică Gheorghe Asachi din Iaşi Tomul LIV (LVIII), Fasc. 3-4, 2008 Secţia AUTOMATICĂ şi CALCULATOARE VIRTUAL INSTRUMENTATION IN THE

More information

Lucrarea Nr.1. Sisteme de operare. Generalitati

Lucrarea Nr.1. Sisteme de operare. Generalitati Lucrarea Nr.1 Sisteme de operare. Generalitati Scopul lucrarii Lucrarea îsi propune familiarizarea studentilor cu sistemele de operare disponibile în laborator, respectiv acele sisteme de operare cu ajutorul

More information

Universitatea George Bariţiu, Braşov

Universitatea George Bariţiu, Braşov LUCRUL CU BAZE DE DATE ÎN JAVA Lect.univ.dr.ing. IOAN-GHEORGHE RAŢIU Lect.univ. NICOLETA DAVID Universitatea George Bariţiu, Braşov Rezumat O bază de date reprezintă o modalitate de stocare a unor informaţii

More information

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog

Laborator 1. Programare declarativă. Programare logică. Prolog. SWI-Prolog Laborator 1 Programare declarativă O paradigmă de programare în care controlul fluxului de execuție este lăsat la latitudinea implementării limbajului, spre deosebire de programarea imperativă în care

More information

Baze de date distribuite și mobile

Baze de date distribuite și mobile Universitatea Constantin Brâncuşi din Târgu-Jiu Facultatea de Inginerie Departamentul de Automatică, Energie şi Mediu Baze de date distribuite și mobile Lect.dr. Adrian Runceanu Curs 3 Model fizic şi model

More information

earning every day-ahead your trust stepping forward to the future opcom operatorul pie?ei de energie electricã și de gaze naturale din România Opcom

earning every day-ahead your trust stepping forward to the future opcom operatorul pie?ei de energie electricã și de gaze naturale din România Opcom earning every day-ahead your trust stepping forward to the future opcom operatorul pie?ei de energie electricã și de gaze naturale din România Opcom RAPORT DE PIA?Ã LUNAR MARTIE 218 Piaţa pentru Ziua Următoare

More information

TWITRENDS SISTEM DE PROCESARE A STREAM-URILOR ÎN TIMP REAL ÎN ERA BIG DATA

TWITRENDS SISTEM DE PROCESARE A STREAM-URILOR ÎN TIMP REAL ÎN ERA BIG DATA TWITRENDS SISTEM DE PROCESARE A STREAM-URILOR ÎN TIMP REAL ÎN ERA BIG DATA LUCRARE DE LICENȚĂ Absolvent: Coordonator științific: Andrei MOLDOVAN asis. ing. Cosmina IVAN 2016 DECAN, Prof. dr. ing. Liviu

More information

NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE

NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE NOTE PRIVIND MODELAREA MATEMETICĂ ÎN REGIM CVASI-DINAMIC A UNEI CLASE DE MICROTURBINE HIDRAULICE Eugen DOBÂNDĂ NOTES ON THE MATHEMATICAL MODELING IN QUASI-DYNAMIC REGIME OF A CLASSES OF MICROHYDROTURBINE

More information

Studiu comparat asupra tehnicilor de data mining utilizate în rezolvarea problemelor de regresie si clasificare

Studiu comparat asupra tehnicilor de data mining utilizate în rezolvarea problemelor de regresie si clasificare Revista Informatica Economica, nr. 3(27)/2003 105 Studiu comparat asupra tehnicilor de data mining utilizate în rezolvarea problemelor de regresie si clasificare Ec. Valentin MILITARU Catedra de Informatica

More information

MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII

MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII MODELUL UNUI COMUTATOR STATIC DE SURSE DE ENERGIE ELECTRICĂ FĂRĂ ÎNTRERUPEREA ALIMENTĂRII SARCINII Adrian Mugur SIMIONESCU MODEL OF A STATIC SWITCH FOR ELECTRICAL SOURCES WITHOUT INTERRUPTIONS IN LOAD

More information

Preţul mediu de închidere a pieţei [RON/MWh] Cota pieţei [%]

Preţul mediu de închidere a pieţei [RON/MWh] Cota pieţei [%] Piaţa pentru Ziua Următoare - mai 217 Participanţi înregistraţi la PZU: 356 Număr de participanţi activi [participanţi/lună]: 264 Număr mediu de participanţi activi [participanţi/zi]: 247 Preţ mediu [lei/mwh]:

More information

Transmiterea datelor prin reteaua electrica

Transmiterea datelor prin reteaua electrica PLC - Power Line Communications dr. ing. Eugen COCA Universitatea Stefan cel Mare din Suceava Facultatea de Inginerie Electrica PLC - Power Line Communications dr. ing. Eugen COCA Universitatea Stefan

More information

Mircea Merca 1) Articol dedicat Prof. Dr. Ioan Tomescu la a 70-a aniversare

Mircea Merca 1) Articol dedicat Prof. Dr. Ioan Tomescu la a 70-a aniversare M. Merca, Partiţii întregi şi grafuri orientate aciclice 15 Partiţii întregi şi grafuri orientate aciclice Mircea Merca 1) Articol dedicat Prof. Dr. Ioan Tomescu la a 70-a aniversare Abstract. The algorithms

More information

Academia de Studii Economice din București. Consiliul pentru Studii Universitare de Doctorat. Școala Doctorală Informatică Economică TEZĂ DE DOCTORAT

Academia de Studii Economice din București. Consiliul pentru Studii Universitare de Doctorat. Școala Doctorală Informatică Economică TEZĂ DE DOCTORAT Academia de Studii Economice din București Consiliul pentru Studii Universitare de Doctorat Școala Doctorală Informatică Economică TEZĂ DE DOCTORAT Optimizarea analizei datelor din sistemul de sănătate

More information

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs

Updating the Nomographical Diagrams for Dimensioning the Concrete Slabs Acta Technica Napocensis: Civil Engineering & Architecture Vol. 57, No. 1 (2014) Journal homepage: http://constructii.utcluj.ro/actacivileng Updating the Nomographical Diagrams for Dimensioning the Concrete

More information

A NOVEL ACTIVE INDUCTOR WITH VOLTAGE CONTROLLED QUALITY FACTOR AND SELF-RESONANT FREQUENCY

A NOVEL ACTIVE INDUCTOR WITH VOLTAGE CONTROLLED QUALITY FACTOR AND SELF-RESONANT FREQUENCY BULETINUL INSTITUTULUI POLITEHNIC DIN IAŞI Publicat de Universitatea Tehnică Gheorghe Asachi din Iaşi Tomul LX (LXIV), Fasc. 4, 2014 Secţia ELECTROTEHNICĂ. ENERGETICĂ. ELECTRONICĂ A NOVEL ACTIVE INDUCTOR

More information

Consideratii privind structurile de date specifice sistemelor informationale geografice

Consideratii privind structurile de date specifice sistemelor informationale geografice 34 Consideratii privind structurile de date specifice sistemelor informationale geografice Ing. Laurentiu-Virgil RUSAN Ministerul Apararii Nationale În domeniul administrativ, al lucrarilor publice, al

More information

Fenomene electrostatice şi materiale dielectrice. Modelare experimentală şi numerică şi aplicaţii industriale.

Fenomene electrostatice şi materiale dielectrice. Modelare experimentală şi numerică şi aplicaţii industriale. REZUMAT Fenomene electrostatice şi materiale dielectrice. Modelare experimentală şi numerică şi aplicaţii industriale. Lucrarea de faţă prezintă succint, dar argumentat, activitatea profesională desfăşurată

More information

METODE INTELIGENTE DE REZOLVARE A PROBLEMELOR REALE. Laura Dioşan Tema 4

METODE INTELIGENTE DE REZOLVARE A PROBLEMELOR REALE. Laura Dioşan Tema 4 METODE INTELIGENTE DE REZOLVARE A PROBLEMELOR REALE Laura Dioşan Tema 4 Text mining Task-uri Regăsirea informaţiei Clasificarea automată a textelor Text mining Task-uri Regăsirea informaţiei Clasificarea

More information

Sisteme integrate de servicii distribuite. Studii de caz

Sisteme integrate de servicii distribuite. Studii de caz Revista Informatica Economica, nr. 11/1999 25 Sisteme integrate de servicii distribuite. Studii de caz Radu SION http://sunsite.pub.ro/radu În cadrul acestui articol ne propunem analiza unor tendinte de

More information

COMUNICAȚII INFORMATIZARE

COMUNICAȚII INFORMATIZARE COMUNICAȚII INFORMATIZARE 120 Migrare servicii telefonie la Vodafone S-a asigurat suportul tehnic și s-a colaborat cu echipele Vodafone la portarea numerelor UPT și migrarea infrastructuri: 1200 linii

More information

Nume şi Apelativ prenume Adresa Număr telefon Tip cont Dobânda Monetar iniţial final

Nume şi Apelativ prenume Adresa Număr telefon  Tip cont Dobânda Monetar iniţial final Enunt si descriere aplicatie. Se presupune ca o organizatie (firma, banca, etc.) trebuie sa trimita scrisori prin posta unui numar (n=500, 900,...) foarte mare de clienti pe care sa -i informeze cu diverse

More information

R O M Â N I A CURTEA CONSTITUŢIONALĂ

R O M Â N I A CURTEA CONSTITUŢIONALĂ R O M Â N I A CURTEA CONSTITUŢIONALĂ Palatul Parlamentului Calea 13 Septembrie nr. 2, Intrarea B1, Sectorul 5, 050725 Bucureşti, România Telefon: (+40-21) 312 34 84; 335 62 09 Fax: (+40-21) 312 43 59;

More information

SISTEME INTELIGENTE DE SUPORT DECIZIONAL. Ș.l.dr.ing. Laura-Nicoleta IVANCIU. Curs 7 Sisteme inteligente de suport decizional bazate pe RNA

SISTEME INTELIGENTE DE SUPORT DECIZIONAL. Ș.l.dr.ing. Laura-Nicoleta IVANCIU. Curs 7 Sisteme inteligente de suport decizional bazate pe RNA SISTEME INTELIGENTE DE SUPORT DECIZIONAL Ș.l.dr.ing. Laura-Nicoleta IVANCIU Curs 7 Sisteme inteligente de suport decizional bazate pe RNA Cuprins RNA pentru aproximare de funcții Clasificatori cu RNA Studii

More information

Tipuri și nivele de paralelism Clasificarea arhitecturilor paralele Arhitecturi vectoriale Arhitecturi SIMD Arhitecturi sistolice

Tipuri și nivele de paralelism Clasificarea arhitecturilor paralele Arhitecturi vectoriale Arhitecturi SIMD Arhitecturi sistolice Tipuri și nivele de paralelism Clasificarea arhitecturilor paralele Arhitecturi vectoriale Arhitecturi SIMD Arhitecturi sistolice Arhitecturi cu fire de execuție multiple 1 Arhitecturi cu memorie partajată

More information

Prof. dr. ing. Doina BANCIU, Director General - ICI București BIBLIO International Conference, Brașov, 2 4 June

Prof. dr. ing. Doina BANCIU, Director General - ICI București BIBLIO International Conference, Brașov, 2 4 June Prof. dr. ing. Doina BANCIU, Director General - ICI București BIBLIO 2011 - International Conference, Brașov, 2 4 June STRATEGII EUROPENE PENTRU SOCIETATEA INFORMA ȚIONALĂ (AGENDA DIGITALĂ 2020) Conferința

More information

Mai bine. Pentru c putem.

Mai bine. Pentru c putem. 1 CUPRINS: 1. SUMAR APLICAŢIE...... 3 1.1 Introducere... 3 1.2 Tipul de aplicaţie... 3 2. SPECIFICAŢII FUNCŢIONALE... 3 3. INSTALARE... 3 3.1 Introducere... 3 3.2 Ce trebuie să verificaţi înainte de a

More information

X-Fit S Manual de utilizare

X-Fit S Manual de utilizare X-Fit S Manual de utilizare Compatibilitate Acest produs este compatibil doar cu dispozitivele ce au următoarele specificații: ios: Versiune 7.0 sau mai nouă, Bluetooth 4.0 Android: Versiune 4.3 sau mai

More information

Raport stiintific sintetic

Raport stiintific sintetic Raport stiintific sintetic privind implementarea proiectului pe toata perioada de executie pana in prezent Proiect: Noi metode hibride metaeuristice pentru rezolvarea problemelor de proiectare a retelelor

More information

Calculatoare Numerice II Interfaţarea unui dispozitiv de teleghidare radio cu portul paralel (MGSH Machine Guidance SHell) -proiect-

Calculatoare Numerice II Interfaţarea unui dispozitiv de teleghidare radio cu portul paralel (MGSH Machine Guidance SHell) -proiect- Universitatea Politehnica Bucureşti Facultatea de Automaticăşi Calculatoare Calculatoare Numerice II Interfaţarea unui dispozitiv de teleghidare radio cu portul paralel (MGSH Machine Guidance SHell) -proiect-

More information

INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTERE"IN VITRO" LA PLANTE FURAJERE

INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTEREIN VITRO LA PLANTE FURAJERE INFLUENŢA CÂMPULUI MAGNETIC ASUPRA DINAMICII DE CREŞTERE"IN VITRO" LA PLANTE FURAJERE T.Simplăceanu, C.Bindea, Dorina Brătfălean*, St.Popescu, D.Pamfil Institutul Naţional de Cercetere-Dezvoltare pentru

More information

În continuare vom prezenta unele dintre problemele de calcul ale numerelor Fibonacci.

În continuare vom prezenta unele dintre problemele de calcul ale numerelor Fibonacci. O condiţie necesară şi suficientă ca un număr să fie număr Fibonacci Autor: prof. Staicu Ovidiu Ninel Colegiul Economic Petre S. Aurelian Slatina, jud. Olt 1. Introducere Propuse de Leonardo Pisa în 1202,

More information

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU

BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU Universitatea Constantin Brâncuşi din Târgu-Jiu Facultatea de Inginerie Departamentul de Automatică, Energie şi Mediu BAZE DE DATE LECTOR DR. ADRIAN RUNCEANU 03.03.2013 Curs 1 - BAZE DE DATE 2 Curs 1 Noţiuni

More information

USING MOBILE AGENTS FOR INFORMATION RETRIEVAL IN B2B SYSTEMS

USING MOBILE AGENTS FOR INFORMATION RETRIEVAL IN B2B SYSTEMS USING MOBILE AGENTS FOR INFORMATION RETRIEVAL IN B2B SYSTEMS Felicia GÎZĂ 1, Cristina TURCU 2, Ovidiu SCHIPOR 3 1 felicia@eed.usv.ro, 2 cristina@eed.usv.ro, 3 schipor@eed.usv.ro Introducere Abstract This

More information

INPUT MODELLING USING STATISTICAL DISTRIBUTIONS AND ARENA SOFTWARE

INPUT MODELLING USING STATISTICAL DISTRIBUTIONS AND ARENA SOFTWARE Annals of the Academy of Romanian Scientists Online Edition Series on Engineering Sciences ISSN 2066 8570 Volume 7, Number 1/2015 63 INPUT MODELLING USING STATISTICAL DISTRIBUTIONS AND ARENA SOFTWARE Elena

More information

Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare şi automatizări

Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare şi automatizări Universitatea Lucian Blaga din Sibiu Facultatea de inginerie Hermann Oberth Catedra de Calculatoare şi automatizări Dezvoltarea unei ontologii de domeniu (Support Vector Machine versus Bayes Naive) Referat

More information

USING SERIAL INDUSTRIAL ROBOTS IN CNC MILLING PROCESESS

USING SERIAL INDUSTRIAL ROBOTS IN CNC MILLING PROCESESS BULETINUL INSTITUTULUI POLITEHNIC DIN IAŞI Publicat de Universitatea Tehnică Gheorghe Asachi din Iaşi Tomul LXI (LXV), Fasc. 3, 2015 Secţia CONSTRUCŢII DE MAŞINI USING SERIAL INDUSTRIAL ROBOTS IN CNC MILLING

More information

Generatorul cu flux axial cu stator interior nemagnetic-model de laborator.

Generatorul cu flux axial cu stator interior nemagnetic-model de laborator. Generatorul cu flux axial cu stator interior nemagnetic-model de laborator. Pentru identificarea performanţelor la funţionarea în sarcină la diferite trepte de turaţii ale generatorului cu flux axial fară

More information

CERERI SELECT PE O TABELA

CERERI SELECT PE O TABELA SQL - 1 CERERI SELECT PE O TABELA 1 STUD MATR NUME AN GRUPA DATAN LOC TUTOR PUNCTAJ CODS ---- ------- -- ------ --------- ---------- ----- ------- ---- 1456 GEORGE 4 1141A 12-MAR-82 BUCURESTI 2890 11 1325

More information

Modele de date utilizate în bazele de date pentru prelucrari grafice

Modele de date utilizate în bazele de date pentru prelucrari grafice 64 Revista Informatica Economica, nr. 7/1998 Modele de date utilizate în bazele de date pentru prelucrari grafice Sef lucrari dr.ing. Marius Dorian ZAHARIA Universitatea POLITEHNICA Bucuresti Lucrarea

More information

STARS! Students acting to reduce speed Final report

STARS! Students acting to reduce speed Final report STARS! Students acting to reduce speed Final report Students: Chiba Daniel, Lionte Radu Students at The Police Academy Alexandru Ioan Cuza - Bucharest 25 th.07.2011 1 Index of contents 1. Introduction...3

More information

RESEARCH CONCERNING THE INFLUENCE OF ANGLE OF FILING FROM THE KNIFE BLADES VINDROVERS ON THE MECHANICAL WORK ON CUTTING

RESEARCH CONCERNING THE INFLUENCE OF ANGLE OF FILING FROM THE KNIFE BLADES VINDROVERS ON THE MECHANICAL WORK ON CUTTING BULETINUL INSTITUTULUI POLITEHNIC DIN IAŞI Publicat de Universitatea Tehnică Gheorghe Asachi din Iaşi Tomul LIX (LXIII), Fasc. 2, 13 SecŃia CONSTRUCłII DE MAŞINI RESEARCH CONCERNING THE INFLUENCE OF ANGLE

More information

METODE FIZICE DE MĂSURĂ ŞI CONTROL NEDISTRUCTIV. Inspecţia vizuală este, de departe, cea mai utilizată MCN, fiind de obicei primul pas într-o

METODE FIZICE DE MĂSURĂ ŞI CONTROL NEDISTRUCTIV. Inspecţia vizuală este, de departe, cea mai utilizată MCN, fiind de obicei primul pas într-o Cuprins: 1. Introducere 2. Inspecţia vizuală 6. Testarea ultrasonică 7. Radiografia 3. Metoda lichidului penetrant 4. Inspecţia cu particule magnetice 5. Testarea folosind curenţii Eddy 1 Inspecţia vizuală

More information

M01-V ThesanCo

M01-V ThesanCo Precizare: Tabelul de analiză prezentat în paginile următoare, conţine denumirile cerinţelor din standardele în limba engleză. Notele şi observaţiile aparţin echipei ThesanCo şi sunt în limba română. După

More information

Contact Center, un serviciu cri/c!

Contact Center, un serviciu cri/c! Contact Center, un serviciu cri/c! CASE STUDY: Apa Nova Cisco Unified Contact Center Enterprise Agenda Prezentării Ø Perspec/va de business Ø Despre noi Ø Cerinţe de business Ø Opţiunea Apa Nova Ø Beneficii

More information