Lector univ. dr. Costin-Ciprian POPESCU E-mail: ciprian.popescu@csie.ase.ro Catedra de Matematica Academia de Studii Economice din Bucuresti UTILIZAREA REGRESIEI LQD PENTRU OBłINEREA UNEI PROGNOZE ROBUSTE PRIVIND CONSUMUL DE OłEL ÎN ROMÂNIA LQD REGRESSION FOR ROBUST FORECASTING OF STEEL CONSUMPTION IN ROMANIA Abstract. A mixed approach consisting in combining some clustering methods and a highly robust estimator is presented. On this basis, a more representational forecasting model can be developed. It is used in a numerical application for shaping a more realistic view of the future possibilities regarding steel consumption in our country. Key words: clustering,robust regression, LQD, forecasting. Clasificarea JEL : C0, C1, C3. 1. Introducere O problemă majoră în ceea ce priveşte regresia, este aceea a robusteńii unui estimator, adică a capacităńii acestuia de a nu fi influenńat semnificativ de valori atipice. De exemplu, una dintre cele mai utilizate metode, aceea a celor mai mici pătrate, este foarte sensibilă la astfel de valori, ea nefiind una robustă. În ultimele decenii, au fost dezvoltate metode robuste [1], cum ar fi: LMS (least median of squares) [9], LTS (least trimmed squares) [10], sau LQD (least quartile difference) []. După cum se arată şi în [1], cea din urmă se dovedeşte în multe cazuri mai performantă din punctul de vedere al robusteńii decât primele enumerate. Pentru a măsura robusteńea unui estimator, a fost introdus conceptul BP (breakdown point) [7], acesta reprezentând fracńiunea minimă de date (în număr de δ ) care trebuie alterate pentru a schimba estimarea finală într-un mod consistent. Practic, BP reprezintă pentru un estimator măsura rezistenńei sale la contaminare [11]. S-a demonstrat că, pentru n date inińiale, estimatorul celor mai mici pătrate are BP egal cu 1 / n ( δ = 1, deci o singură valoare atipică îl influenńează semnificativ) în timp ce LQD are δ = n / [1]. În lucrarea de fańă, va fi prezentată o interpretare şi o aplicańie a estimatorului LQD, pe baza rezultatelor de dualitate geometrică obńinute în [3] şi, mai ales, în [1]. Ca şi ceilalńi algoritmi robuşti, LQD pune totuşi o problemă care Ńine de complexitatea computańională, mai ales pentru mulńimi mari de date [8]. O modalitate de a diminua numărul acestora este aplicarea
Costin-Ciprian Popescu preliminară a unui algoritm de clustering, de exemplu metoda subtractivă [4]. În acest mod se poate obńine un estimator suficient de robust (fapt validat în aplicańia numerică) dar şi o diminuare a complexităńii computańionale.. Regresia de tip LQD Dacă q, i N, q, 1 i q 1, atunci q -cuantila de ordinul i [] a unei variabile aleatoare X, este un număr c i, ales astfel încât 1 1 ( X ci ) 1 iq, P( c ) iq P X i, (unde prin P s-a notat probabilitatea ). Există q 1 astfel de q -cuantile: c 1,, c q 1. Acestea nu sunt neapărat unic determinate. De exemplu, pentru q = se obńine -cuantila (mediana) iar pentru q = 4 se obńin 4 -cuantilele (cuartilele). Acestea din urmă sunt în număr de trei, a doua fiind egală cu mediana. Dacă se consideră variabilele aleatoare X 1,..., X n, care sunt apoi rearanjate în ordinea crescătoare a valorilor (realizate pe un eşantion), în forma X( 1 )... X( n) atunci X ( i) se numeşte statistica de ordin i [6]. Formularea inińială a regresiei LQD presupune stabilirea corespondenńei dintre valorile (în număr de n 3) obńinute experimental pentru două variabile X, Y şi punctele de coordonate ( ) i y i x,, i = 1, n. Estimatorul LQD presupune găsirea unei drepte de regresie de forma y = ax b, determinată conform etapelor de mai jos [1]. x,, se consideră eroarea Pentru un punct oarecare ( ) i y i i ( a, b) = y ax b ε. Panta dreptei LQD (notată cu â ) coincide cu panta dreptei care minimizează statistica de ordin unde [ ] { i, j= 1, n, i j} C h ( h = 1 ( n 3) ( a, b) ε i i ), corespunzătoare mulńimii de valori ε, ij ij < ( a b) = ε ij( a) = ε i ε j,. Parametrul b se determină egalându-l cu mediana med y ax ˆ i= 1 n, { } i i, unde valoarea lui â este cea găsită anterior []. Având ca bază rezultatele de dualitate geometrică [3], ce stabilesc o corespondenńă de tip punct-dreaptă în spańii duale, în [1], este propusă o soluńie de natură geometrică, aşa cum este arătat şi în continuare. Punctele ( ) i y i x,, i = 1, n din spańiul primal xoy, se transferă în C n
Utilizarea regresiei LQD pentru obńinerea unei prognoze robuste privind.. perechi de drepte de tipul ( ) formulele: unde d, ( i, j= 1, n, i< j ), din spańiul dual sot, după ij d ij dij xijs yij, i, dij xijs yij ( x y ) i x = y y. ij = xi x j, ij i j EcuaŃia unei drepte oarecare din sot va fi de tipul t = gs h. Problema LQD duală presupune găsirea unui punct ( s, tˆ) n C h α = C drepte verifică inegalitatea t ˆ > gsˆ h, y ˆ pentru care un număr de cu tˆ pozitiv şi minim. Punctele care verifică doar inegalitatea, sunt soluńii locale şi se numesc puncte de nivel α. CondiŃiile suplimentare puse asupra parametrului tˆ au ca rezultat selectarea soluńiei globale dintre cele locale. Modalitatea de aflare a lui â prin intermediul problemei duale a fost enunńată şi demonstrată în [1]. Rezultatele pot fi sintetizate în teorema următoare. Teoremă (stabilirea corespondenńei dintre soluńiile celor două probleme LQD). Dacă ( sˆ, tˆ) este soluńia problemei duale LQD, iar dreapta de regresie LQD în spańiul primal are ecuańia y= ax ˆ bˆ, atunci aˆ= sˆ, iar statistica de ordin corespunzătoare valorilor ( aˆ, b) de b. { i, j= 1, n, i j} ij < C h ε are valoarea tˆ, independent În cele ce urmează, pentru determinarea completă a dreptei LQD (în spańiul primal), se va lua bˆ egal cu valoarea cuartilei de ordinul doi calculată pentru y ax ˆ i=1 n. mulńimea { } i i, 3. Modelul mixt clustering-regresie. AplicaŃie numerică Consumul aparent de ońel brut, (exprimat în mii de tone), pe piańa din România, în perioada 1988-007 (sursa: World Steel Association: Steel Statistical Yearbok 1990, Steel Statistical Yearbok 000 şi Steel Statistical Yearbok 008 ), este dat în Tabelul 1.
Costin-Ciprian Popescu Tabelul 1: Consumul aparent de ońel brut în România Anul 1988 1989 1990 1991 199 Consumul 1061 107 8170 930 3446 Anul 1993 1994 199 1996 1997 Consumul 3070 340 380 400 390 Anul 1998 1999 000 001 00 Consumul 340 90 3100 3300 3440 Anul 003 004 00 006 007 Consumul 3730 3960 40 100 6110 Va fi utilizată metoda discutată anterior, în scopul obńinerii unei drepte de regresie care să facă posibilă conturarea unui model realist, util în analize/prognoze ulterioare. Datele din tabel pot fi privite ca fiind puncte în planul cartezian xoy : ( x y ) P i i, i (Fig. 1). Pentru a diminua numărul lor, fără alterarea semnificativă a tendinńelor de variańie, se poate aplica mai întâi o metodă de clustering, numită subtractivă (introdusă de Chiu, 1994). Scopul este obńinerea unui tipar relevant, bazat pe o mulńime de puncte reper ce are cardinalul mai mic decât mulńimea punctelor inińiale. Figura 1. Punctele de inińializare în spańiul primal
Utilizarea regresiei LQD pentru obńinerea unei prognoze robuste privind.. Aplicând deci metoda subtractivă, se obńin patru grupuri de date, cu centroizii 1988,1061 1991,930 Q = 1998,340, (Fig. ): Q 1 = P 1 ( ), Q = P 4 ( ), 3 P 11 ( ) Q = ( 00,40). 4 P 18 Figura. Datele inińiale şi centroizii Având acum ca bază de plecare punctele Q i ( i =1, 4 ), problema se poate translata din spańiul xoy în spańiul dual sot, prin construirea celor şase perechi de drepte de mai jos: d1 3s 6131 d13 10s 8611 d14 17s 7811,, d1 3s 6131, d13 10s 8611 d14 17s 7811 d3 7s 480 d4 14s 1680 d34 7s 800,, d3 7s 480. d4 14s 1680 d34 7s 800 În cazul de fańă, avem că n = 4 şi h = 3, deci prezintă interes punctele de nivel α = 9 ( C 4 C3 ). Punctele de nivel 9 conduc către linia poligonală a soluńiilor locale. Aceasta este determinată de vârfurile care se află la intersecńiile dreptelor: d, ( d 13,d 3), ( d ) 3,d 1, ( d ) 1,d 14, ( d ) 14,d 13, ( d ) 13,d 34, ( d ) 34,d 4, ( d ) 4,d 14, (,d ) 14 34 ( d ), ( d ), ( d ), ( ) d (Fig. 3). 34,d 3 3,d 4 4,d 1 1,d 3
Costin-Ciprian Popescu Figura 3. Imaginea centroizilor în spańiul dual. SoluŃiile locale şi cea globală. După efectuarea paşilor rămaşi, se găseşte că punctul de minim global în spańiul dual are coordonatele ( 10,1640). Aceasta înseamnă că a ˆ= 10. Mai departe, cuartila de ordinul doi (sau mediana) pentru mulńimea de valori { y ax ˆ i= 1, 4}= = Q i Q i {.06 10 },.448 10,.431 10,.448 10 este.448 10 (fiind egală şi cu media în cazul de fańă), deci b ˆ =.448 10. Atunci soluńia finală este dată de dreapta: d 1 : y= 10x.448 10. 4. CONCLUZII Pentru anul 008, consumul este de 800 tone (sursa: World Steel Association: Steel Statistical Yearbok 009 ), iar în anii 009 şi 010 consumul este de 70, respectiv 840 tone (conform datelor estimate din Capital ). Dacă se aplică metoda celor mai mici pătrate de exemplu, pentru datele precedente (în integralitatea lor, nesupuse diminuării numărului lor inińial ca urmare a extragerii de puncte reper), se obńine dreapta d : y= 4.09x 4.883 10, iar metoda celor mai mici pătrate aplicată doar centroizilor, conduce la rezultatul
Utilizarea regresiei LQD pentru obńinerea unei prognoze robuste privind.. d 3 : y= 393.89x 7.94 10 (Fig. 4). Se observă capacitatea de predicńie superioară a metodei propuse. Figura 4. Studiul comparativ al performanńei algoritmilor BIBLIOGRAFIE [1] Bernholt, T., Nunkesser, R., Schettlinger, K. (007), Computing the least quartile difference estimator in the plane, Comput. Statist. Data Anal., 763-77; [] Cenuşă, G., Săcuiu, I., Burlacu, V. (003), Teoria probabilităńilor şi statistică matematică, Ed. ASE Bucureşti; [3] Chazelle, B., Guibas, L. J., Lee, D. T. (198), The power of geometric duality, BIT, 76-90. [4] Chiu, S. (1994), Fuzzy model identification based on cluster estimation, Journal of Intelligent & Fuzzy Systems (3), 67-78; [] Croux, C., Rousseeuw, Hössjer, O. (1994), Generalized S-estimators, J. Amer. Statist. Assoc. 89, 171-181; [6] David, H. A., Nagaraja, H. N. (003), Order statistics, Third Edition, Wiley. [7] Donoho, P. Huber, P. (1983), The notion of breakdown point, in: P. Bickel, K. Doksum, J. Hodges (Eds.), A Festschrift for Erich L. Lehmann, Wadsworth, Belmont, CA;
Costin-Ciprian Popescu [8] Langerman S., Steiger, W., L. (003), The complexity of hyperplane depth in the plane, Discrete Comput. Geom. 30, 99-309. [9] Rousseeuw, P. J (1984), Least median of squares regression, J. Amer. Statist. Assoc. 79, 871-880; [10] Rousseeuw, P. J., Leroy, A. M. (1987), Robust regression and outlier detection, Wiley, N.Y. [11] Wilcox, R., R. (00), Introduction to robust estimation and hypothesis testing, Elsevier Academic Press, USA.