EXTRAGEREA INFORMAȚIEI DE PRIM- PLAN ÎN VIDEO- CONFERINȚE UTILIZÂND ANALIZA FLUXURILOR DE MIȘCARE ( FOREGROUND EXTRACTION IN VIDEO CONFERENCES USING MOTION FLOW ANALYSIS ) Rezumatul tezei elaborată de ing. Mihai FĂGĂDAR- COSMA în scopul obținerii titlului științific de doctor în domeniul Calculatoare și Tehnologia Informației Noi concepte apărute în domeniul teleconferințelor digitale, precum cel al videoconferințelor imersive, au adaugat o nouă dimensiune colaborării la distanță prin reunirea participanților într- un spațiu virtual comun. Pentru a îndeplini această sarcină, sistemul de videoconferință extrage imaginea fiecărui participant din fluxurile video transmise de către aceștia și o translatează în scena virtuală care este apoi prezentată tuturor participanților. În esență, un astfel de sistem trebuie să se bazeze pe metode autonome de extragere a informației de prim- plan din secvențe video, capabile să realizeze o segmentare precisă cu respectarea constrângerilor specifice comunicațiilor în timp real. Metodele stereoscopice sunt cunoscute pentru capacitatea lor de a îndeplini sarcinile mai sus menționate, însă necesită hardware dedicat acestui scop. Pentru a putea introduce videoconferințele de tip imersiv publicului larg, sunt necesari algoritmi capabili să lucreze cu fluxuri video monoculare, capturate în diverse condiții utilizând echipamente obișnuite de tipul camerelor web sau al camerelor incorporate în telefoanele mobile sau tablete. În acest context, majoritatea metodelor capabile de o segmentare precisă a prim- planului cunoscute în literatură se bazează fie pe anumite presupuneri legate de natura și poziția obiectelor din fluxul video, fie pe o imagine de fundal cunoscută anterior sau pe etape a priori de învățare și antrenare ce utilizează secvențe etichetate manual. Considerând mulțimea teoretic infinită a mediilor ambiante și a situațiilor în care se poate regăsi un participant la conferință, aceste metode sunt susceptibile a produce rezultate inconsistente de la un caz la altul. Prezenta lucrare abordează domeniul segmentării în timp real a elementelor de prim- plan din secvenţe video monoculare, cu accentul pe aplicaţii de tip videoconferinţă. Teza propune o metodologie de segmentare bazată exclusiv pe analiza fluxurilor optice combinată cu analiza informaţiei de culoare şi contrast din cadrele video. Metoda se distinge faţă de abordările anterioare prin 1
faptul că procesul de segmentare nu foloseşte modele definite a priori cu privire la structura scenei observate sau la cea a obiectelor din prim- plan şi elimină necesitatea fazelor de iniţializare sau antrenament. Teza propune o metodă de agregare a fluxurilor optice dense şi rare în scopul segmentării robuste şi precise a zonelor aflate în mişcare. Rezultatul este supus integrării temporale, ceea ce oferă o imagine aproximativă a prim- planului expus în urma analizei fluxurilor optice asociate mişcării. Ultima fază a metodei introduce un nou algoritm de segmentare nesupervizată de tip graph- cut, responsabil cu obţinerea imaginii precise, la nivel de pixel, a obiectelor din prim- planul secvenţei video. Teza este structurată pe 7 capitole distincte care tratează în ordine aspectele mai sus menţionate, după cum urmează: Capitolul 1, intitulat Introduction, este dedicat părţii de introducere în domeniul extragerii informației de prim- plan din secvențe video şi a conceptului de conferințe video cu caracter imersiv. Capitolul debutează cu prezentarea temei de cercetare și evidențierea aspectului incorect formulat al segmentării binare dintre prim- plan și fundal. În continuare sunt prezentate conceptele specifice videoconferințelor imersive și rolul important jucat de partea de extragere a informației de prim- plan în astfel de sisteme. Ultima parte a capitolului trasează obiectivele principale ale tezei, însoţite de o privire de ansamblu asupra organizării acesteia și a metodologiei de segmentare propuse. În Capitolul 2, intitulat State of the Art, este realizată o trecere detaliată în revistă a stadiului curent al domeniului extragerii informaţiei de prim- plan din secvenţe video, cu accent pe aspectele legate de analiza mişcării în secvenţe monoculare. Prima parte a capitolului este dedicată segmentării elementelor de prim- plan în sisteme de videoconferință și descrie principalele tendințe întâlnite în literatură și anume: abordările bazate pe hardware dedicat de tipul camerelor video stereoscopice sau multiple, pe de o parte, și tehnicile bazate pe camere video monoculare, de cealaltă parte. Concluziile prezentate la finalul acestei părți evidențiază faptul că metodele precise bazate pe secvențe monoculare se folosesc de anumite cunoștințe a priori referitoare la natura scenei observate sau la obiectele conținute în aceasta. Aceste cunoștințe sunt reprezentate fie sub forma unor constrângeri aplicate conținutului scenei sau sub forma unor modele extrase în urma unor etape de învățare / antrenare a sistemului. Cea de- a doua parte a capitolului se referă la domeniul analizei mișcării în secvențe video monoculare, cu prezentarea tehnicilor relevante descrise în literatură pentru fiecare din cele 4 faze ale acestei analize: detecția, estimarea, segmentarea și respectiv urmărirea mișcării. Secțiunea se încheie cu o discuţie privitoare la cazul particular al aplicaţiilor de tip videoconferinţă şi la necesităţile 2
acestora în ceea ce priveşte segmentarea elementelor de prim- plan, subliniind motivele pentru care metodele curente nu satisfac pe deplin condițiile impuse de acest tip de aplicații. Pe baza acestei analize sunt identificate primele două direcții de cercetare abordate în teză, și anume segmentarea mișcării prin agregarea estimărilor produse de fluxurile optice dense și rare și integrarea indiciilor de mișcare sub forma măștilor stabile d.p.d.v. temporal. Capitolul 3, A Method for Motion Segmentation by Aggregating Dense and Sparse Optical Flow Information, introduce metodologia propusă pentru segmentarea mişcării în secvenţe video monoculare. Capitolul debutează cu o secţiune dedicată formalismelor şi diverselor tehnici de estimare a fluxului optic în variantele densă și rară. Analiza utilizării acestora în contextul aplicațiilor de tip videoconferință motivează abordarea introdusă în continuare, și anume că prin agregarea celor două tipuri de fluxuri optice este posibilă eliminarea neajunsurilor introduse de fiecare metodă în parte în scopul creșterii robusteței și a acurateței segmentării. Urmărind direcția propusă, capitolul continuă cu descrierea unui nou algoritm de segmentare precisă şi robustă a mişcării bazat pe agregarea informaţiei provenite din estimarea fluxurilor optice dense şi rare. Intr- un prim stagiu algoritmul asociază un set de puncte de control elementelor aflate în mișcare folosind fluxul optic rar. În al doilea stagiu, fluxul optic dens este utilizat pentru a grupa punctele de control la nivel de obiect și a extrage învelișul concav al acestora. Stagiul final aplică o tehnică de tipul contur activ pentru a obține cu precizie silueta obiectului. Algoritmul, primul de acest tip din literatură, este capabil să realizeze segmentarea cu precizie la nivel de pixel a zonelor aflate în mişcare între două cadre succesive, având în acelaşi timp o rezistenţă crescută la zgomot, variaţii ale iluminării şi artefactelor specifice compresiei video. Capitolul 4, cu titlul Temporally Stable Masks: A Method for Temporal Integration of Detected Motion, introduce conceptul de măşti stabile din punct de vedere temporal (TSM Temporally Stable Masks) ca şi mijloc de integrare temporală a indiciilor provenite din etapa de analiză a mişcării și de obținere a unei imagini coerente a prim- planului expus de aceasta. Conceptul din spatele abordării propuse este ca un indiciu de mișcare etichetează o regiune a scenei ca și prim- plan, urmând ca această etichetă să fie menținută atât timp cât nu prezintă modificări semnificative de la un cadru la altul. Prezența acestor modificări este identificată pe baza analizei statistice a distribuției culorii pixelilor din imagine. Avantajul algoritmului TSM constă în complexitatea redusă şi capacitatea de a acomoda diferite modele de reprezentare statistică a informaţiei de culoare 3
din imagini. Teza descrie două astfel de modele, primul Gaussian iar cel de- al doilea bazat pe similaritate structurală (SSIM Structural SIMilarity). Pe baza analizei rezultatelor obținute este identificată cea de- a treia direcție de cercetare sub forma segmentării cu acuratețe a obiectelor din scenă pornind de la reprezentarea lor incompletă oferită de către TSM. În cadrul Capitolului 5, intitulat An Heuristic Approach to Unsupervised Graph Cut Segmentation for Accurate Object Extraction in Video Conference Scenarios, sunt descrise conceptele specifice technicilor de segmentare de tip graph- cut și este introdus un nou algoritm euristic pentru segmentarea graph- cut nesupervizată a obiectelor din prim- planul imaginii. Partea de început a capitolului descrie aspectele teoretice ce stau la baza acestor tehnici, subliniind rolul lor în reconstrucția imaginii obiectelor pornind de la o reprezentare incompletă sub forma de markeri. Considerând TSM ca fiind această reprezentare incompletă, capitolul evidențiază modul în care algoritmii graph- cut devin parte integrantă a metodei propuse. Cea de- a doua parte a capitolului 5 descrie algoritmul euristic de segmentare nesupervizată propus; acesta utilizează informaţia furnizată de fluxurile optice şi TSM cu scopul de a genera automat markerii de prim- plan și de fundal ce acționează ca și constrângeri asupra algoritmului de segmentare. Metodologia folosită se înscrie în sfera geometriei computaționale, complexitatea sa redusă facând posibilă aplicarea în timp real, ceea ce constituie un avantaj semnificativ în comparație cu alte abordări cunoscute în literatură. Rezultatul obținut în această etapă finală a metodei propuse reprezintă cu o precizie la nivel de pixel obiectele din prim- planul scenei. Capitolul se încheie cu descrierea unui algoritm de sincronizare a segmentării graph cut cu informația din TSM, ce are un dublu rol: reducerea propagării erorilor din TSM și eliminarea zonelor reziduale din segmentarea finală. Capitolul 6, Results and Discussion, este dedicat analizei şi discuţiei rezultatelor obținute. Prima parte a capitolului descrie metodologia de implementare a metodei propuse, cu accent pe aspectele legate de paralelizarea execuţiei și exploatarea arhitecturilor de tip multiprocesor în scopul obţinerii unor performanţe de timp real. A doua parte analizează calitatea segmentării finale folosind o metrică perceptuală de ultimă generație. Rezultatele obținute în urma acestei analize dovedesc gradul ridicat de acurateţe a metodei propuse, care se plasează deasupra rezultatelor raportate în literatură relativ la aceeași metodă de evaluare. Analiza calității segmentării este completată de comparația cu una dintre metodele de referință din state of the art, care dovedește faptul că metoda 4
propusă atinge un nivel de calitate similar, fără a necesita faza de antrenament specifică metodei de referință. Finalul capitolului folosește rezultatele prezentate pentru a arăta că au fost atinse toate obiectivele propuse în capitolul introductiv al tezei. Metoda de segmentare binară a secvențelor video monoculare introdusă în prezenta teză de doctorat este comparabilă din punct de vedere calitativ cu metodele de referință ce definesc stadiul curent al domeniului, având avantajele unei viteze de execuție superioare și a faptului că elimină complet etapele laborioase de antrenament și cele de inițializare a sistemului. Ultimul capitol al tezei si anume Capitolul 7, intitulat Conclusion and Future Work, prezintă contribuţiile originale aduse în prezenta lucrare, importanţa metodei propuse, precum şi perspectivele de continuare a cercetărilor în domeniul segmentării în timp real a elementelor de prim- plan din secvențe video monoculare. Lucrarea de față reprezintă o teză de aplicație ce introduce o serie de contribuții originale, după cum urmează: a) algoritmul de agregare a fluxurilor optice dense și rare în scopul segmentării cu precizie a mișcării (primul de acest gen din literatură), b) metodologia TSM de integrare temporală a indiciilor provenite din analiza mișcării caracterizată prin capacitatea de a utiliza diferite modele de reprezentare a informației de culoare din imagini, precum și c) algoritmul euristic de generare automată a constrângerilor pentru segmentarea nesupervizată de tip graph- cut. Stadiul curent al cercetărilor permite identificarea unor noi direcții menite a crește robustețea și acuratețea metodei prezentate, în scopul obținerii unei cât mai bune segmentări a prim- planului în aplicații de tip videoconferință. 5