Idea zastosowania korelacji kanonicznej do wyboru optymalnego zbioru zmiennych objaśniających do modelu ekonometrycznego

Annales Universitatis Mariae Curie-Skłodowska. Sectio H, Oeconomia, Apr 2018

Kazimierz Kacprzak

A PDF file should load here. If you do not see its contents the file may be temporarily unavailable at the journal website or you do not have a PDF plug-in installed and enabled in your browser.

Alternatively, you can download the file locally and open with any standalone PDF reader:

http://czashum.hist.pl/media//files/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia-r1981_1982-t15_16/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia-r1981_1982-t15_16-s177-184/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia-r1981_1982-t15_16-s177-184.pdf

Idea zastosowania korelacji kanonicznej do wyboru optymalnego zbioru zmiennych objaśniających do modelu ekonometrycznego

Idea zastosowania korelacji kanonicznej do wyboru optymalnego zbioru zmiennych objaśniających do modelu ekonometrycznego Oeconomia - M A R I A E C U R I E - S K Ł O D O W S K A VOL. X V/XV I, 13 SECTIO H 1981/82 A N N A L E S L U B L I N — P O L O N I A Zakład Statystyki, Ekonometrii i Informatyki Wydziału Ekonomicznego UMCS K a z i m i e r z K A C P R Z A K Idea zastosowania korelacji kanonicznej do wyboru optym alnego zbioru zm iennych objaśniających do m odelu ekonom etrycznego Идея применения канонической корреляции для выбора оптимального множества объяснимы х переменных в эконометрической модели The A pplication of Canonical Correlation to the Selection of an Optim al Set of Explanatory Variables for an Econometric Model UWAGI WSTĘPNE A naliza kanoniczna stanow i jeden z elem entów w ielow ym iarow ej ana­ lizy statystycznej. Ogólnie m ożna stw ierdzić, że polega ona na badaniu związku pom iędzy dwom a układam i (w ektoram i) zm iennych, przy czym jeden układ tw orzą zmienne objaśniane, a drugi — zmienne objaśniające. W ynika z tego, że analizę kanoniczną m ożna traktow ać jako uogólnienie regresji w ielokrotnej, w której zmienność zmiennej objaśnianej m ożna w yjaśnić zmiennością zespołu zm iennych objaśniających. Pojęcie zm iennych kanonicznych i korelacji kanonicznej w prow adził do lite ra tu ry statystyczno-ekonom etrycznej H. H otelling w r. 1936, a sze­ rokie podstaw y teorii korelacji kanonicznej dał T. W. A nderson w r. 1958.1 Problem ten omówiony jest również przez wielu autorów (przede w szyst­ kim zachodnich) w pracach dotyczących w ielow ym iarow ej analizy sta ­ tystycznej. A utorzy, do których m iędzy innym i należą: Co.oley, Lohnes, H arris, K endall, S tu a rt i Rao podali nie tylko teoretyczne aspekty kore­ lacji kanonicznej, ale również praktyczne jej zastosowania. Główne dzie1 T. W. A n d e r s o n : An Introduction to M ultivariate Statistical A nalysis, W iley, N ew York 1958, s. 288—306. Kazim ierz Kacprzak dżiny dotychczasow ych zastosow ań analizy kanonicznej to: psychologia, geografia, antropologia, botanika, n auki rolnicze i ekonom iczne.2 Z ainteresow anie w naszym k ra ju analizą kanoniczną i jej w ykorzy­ staniem do badań em pirycznych d a tu je się od drugiej połow y lat siedem ­ dziesiątych. Teoria tej pro b lem aty k i omówiona jest m iędzy innym i w opracow aniach A. K rz y ś k i3 i M. Nowosadzkiego, n ato m iast w yniki p ra k ­ tycznych zastosow ań zaw arte są w pracach B. Głębockiego 4, S. M e jz y 5 i W. R a ta jc z a k a 6, dotyczących badań produkcji rolniczej, zootechnicz­ nych i w geografii ekonom icznej. W p racach tych zastosowanie analizy kanonicznej pozwoliło zbadać związki pom iędzy zm iennym i m ierzącym i poziom u rbanizacji a zm iennym i m ierzącym i poziom uprzem ysłow ienia w układzie gm in w ojew ództw a poznańskiego, jak rów nież w spółzależ­ ności pom iędzy rozw ojem ekonom icznym , środow iskiem geograficznym i kształtem pow iatów w ojew ództw a poznańskiego a rozw ojem ich sieci drogowej i kolejow ej. Niniejsze opracow anie nie opiera się na badaniach em pirycznych. Ma ono c h a ra k te r teoretyczny. Celem tego opracow ania jest przedstaw ienie m ożliwości w yko rzy stan ia korelacji kanonicznej do w yboru optym alnego zbioru zm iennych objaśniających do m odelu ekonom etrycznego. Możliwość zastosow ania korelacji kanonicznej do w yboru zm iennych objaśniających do m odelu ekonom etrycznego w początkow ej fazie jego budow y zaproponow ał J. G reń 7. Podał on ogólną ideę tej m etody w w y­ m ienionym aspekcie. W niniejszym opracow aniu — poza przypom nie­ niem propozycji J. G renia — przedstaw iono dalsze uw agi dotyczące uzyskania ostatecznego rozw iązania, tzn. ustalenia zbioru zm iennych ob­ jaśn iających do m odelu ekonom etrycznego. Załóżmy, że dysponujem y dużym zbiorem potencjalnych zm iennych, któ re m ożna by użyć w m odelu jako zm ienne objaśniające. Nie chcem y jed n ak w prow adzać do m odelu w szystkich zm iennych p otencjalnych (zda­ 2 M. N o w o s a d z k i : Analiza kanoniczna i analiza redundacji, P iąte C ollo­ quium M etodologiczne z A gro-biom etrii, W arszawa 1975, s. 230—252. 3 M. K r z y ś k o : Analiza zm iennych kanonicznych i korelacji kanonicznych [w:] Analiza regresji w geografii, pr. zb. pod red. Z. C hojnickiego, PAN, W arsza­ w a—Poznań 1980, s. 55—68. 4 B. G ł ę b o c k i : C zyn n ik i kształtujące przestrzenną stru ktu rę produkcyjną rolnictwa, U n iw ersytet im. A. M ickiewicza, Poznań 1979. 5 S. M e j z a : K orelacje kanoniczne i ich zastosow ania w badaniach rolni­ czych, P iąte C olloquium M etodologiczne z A gro-B iom etrii, PA N , 1975, s. 254—274. 6 W. R a t a j c z a k : Z astosowanie analizy kanonicznej w badaniach geogra­ ficznych, pr. zbiorowa pod red. Z. Chojnickiego nt. „Analiza regresji w geografii”, PAN , W arszaw a—Poznań, 1980, s. 69—81. 7 Propozycja ta została zgłoszona na sem inarium naukow ym pośw ięconym problem ow i doboru zm iennych do m odelu, które odbyło się w Zakopanem w k w iet­ niu 1979 r. rza się, że nadm ierna liczba -zmiennych objaśniających w ystępująca w m odelu poza kłopotam i n a tu ry num erycznej utrudnia m erytoryczne zin­ terpretow anie uzyskanych wyników). Musimy więc dokonać w yboru zm iennych spośród w szystkich kandydatek. Zbiór zm iennych oznaczmy przez x, natom iast zbiór zm iennych, które ostatecznie w ejdą do m odelu przez Xa, a zbiór zm iennych pom iniętych — przez Xb- Zmienne ze zbioru Xa będziem y nazywać zm iennym i aktyw ny­ mi, zaś zmienne ze zbioru Xb — zm iennym i biernym i. Na tej podstaw ie zbiór zmiennych potencjalnych można zapisać jako sum ę podzbiorów Za i Xb, czyli: X=Xa^X b gdzie: xa= j Xi, ieA j , Xb== {Xj( je B ). Problem więc sprow adza się do odpowiedniego podziału zbioru x podzbiory xa i Xb- Podział ten powinien być jednak tak dokonany, aby w ybrane zmienne do m odelu najlepiej w yjaśniały zmienność zmiennej objaśnianej. Co więcej — ze względu na brak dokładnego rozeznania, które ze zm iennych zbioru x bezwzględnie powinny w m odelu w ystąpić — nie chcem y całkowicie rezygnować z w pływ u zm iennych pom ijanych. W ym agam y więc, aby zmienne podzbioru Xa, poza inform acjam i, jakie same wnoszą do m odelu, reprezentow ały również inform acje pochodzące od zm iennych pom ijanych. W ydaje się, że odpowiedniego podziału zbioru X na podzbiory xa i Xb można dokonać przez w ykorzystanie teorii kore­ lacji kanonicznej. Rozważmy w ektor x zm iennych o i + j składow ych oraz podw ektory xa= [x j i x B—:[xj] U tw órzm y dwie zmienne sztuczne u A i vB, będące kom binacjam i liniowym i elem entów w ektorów xA i x B, co można zapisać następująco: “A - Z A qiXi = q TxA VB = § g l’j*j = gdzie: q = [q i], h = [h j] — współczynniki powyższych kom binacji liniowych będą tak dobrane, aby współczynnik korelacji pom iędzy zm iennym i u A i vB był m aksym alny. Dla uzyskania jednoznacznych rozwiązań num erycznych wprow adza się dodatkow y w arunek, a mianowicie taki, żeby współczynniki qi i hj były tak dobrane, aby w ariancje zm iennych u A i vB rów nały się jedności, czyli: D2(ua )= 1 i D2(vB) = 1 W spółczynnik korelacji pom iędzy zm iennym i u A i v B oznaczony przez puAvB można w tedy w yrazić następująco: p UA VB = e ° v(uA,vB) - ----------- -— = cov(u v ) . V d j(ua )D3(vb) A “ Zdefiniowane wzorem (2.1) zm ienne u A i v B nazyw am y zm iennym i kanonicznym i, a w spółczynnik korelacji pom iędzy tym i zm iennym i okreś­ lony wzorem (2.3) nazyw am y współczynnikiem korelacji kanonicznej. W spółczynnik ten m ierzy siłę związku pom iędzy zm iennym i kanonicz­ nym i. M aksym alizując go chcemy zapewnić sobie wprow adzenie do m o­ delu inform acji nie tylko reprezentow anych przez zmienne, które zostaną w m odelu uwzględnione, ale rów nież — przez silne skorelow anie ich ze zm iennym i pom ijanym i — inform acje pochodzące od zm iennych nie uw zględnionych w m odelu. W spółczynnik puAvB jest bowiem k ry teriu m w yboru odpowiedniego podziału zbioru x podzbiory x a i Xb, um ożli­ w iającym ustalenie listy zm iennych objaśniających, które pow inny w y ­ stąpić w m odelu. D okładniej problem w yboru omówiono w punkcie 3 n i­ niejszego opracow ania. Obecnie przedstaw im y proces wyznaczania m aksym alnego w spółczyn­ nika korelacji kanonicznej dla jednego z m m ożliw ych podziałów zbio­ ru x na podzbiory X a i Xb Jeżeli dysponujem y m acierzą x obserw acji na zm iennych potencjal­ nych i r-ty m podziałem tej m acierzy na bloki x A i x B oraz w ektoram i zm iennych kanonicznych tego podziału, to za Theilem m ożem y podać, że 8: D » K > ) = ««'l'»jf> = « f x J X A, r = l d2(v(D) = t« t v« = 1.7x7; xBh, = i. N atom iast w spółczynnik korelacji kanonicznej można zapisać n astę­ pująco: (2.2) (2.3) ^ <2 ' 5 ) P UA<r > V<Bf> = UA >T Vu ’ = l J X A X B h r ' Abyotrzym aćm aksym alny w spółczynnik PuA (r) vB(r)}należy zm aksy­ malizować praw ą stronę w yrażenia (2.5) przy w arunkach (2.4). Problem 8 H. T h e i l : Zasady ekonom etrii, PAN, W arszawa 1979, s. 323. ten — jak wiadomo — jest poszukiw aniem m aksim um warunkow ego funkcji L agrange’a, która w naszym w ypadku p rzy jm u je następującą postać: F(V hr) = qrTx T x Bh[ - j x ( q ^ x J X Aqr - 1) - ^ ( ^ X j X Bhr - 1) (2.6) gdzie: 1 i (i są m nożnikam i Lagrange’a. Obliczając pochodne cząstkowe funkcji (2.6) względem w ektorów qr i hr i przyrów nując je do w ektora zerowego otrzym ujem y: (2.7) (2.8) (2.9) XI XBh, - * XAXAlr = ° 0 q r r - ^ - = x J X Aqr - M X j X Bhr = o . W ykorzystując (2.4) i (2.7), można wykazać, że: A = H = p u ( r)4 r) ' Z koleiw ykorzystując (2.7) i (2.8) i dokonującodpowiednich p rze­ kształceń,otrzym ujem ydwa rów nania o następującej postaci: [ ( x I x a >“ x a V x b x b > " x 5 x a A B r U X 1B X B > " X J X a ( XI X a ) " X I X B - P i < r ) v(r ) U hr = O . = ° Jak w ynika z (2.9) Q2uA(r)v B(r) jest w artością w łasną odpowiednich m acierzy — w artością, której pierw iastek jest w spółczynnikiem kore­ lacji kanonicznej. N atom iast q r i hr są w ektoram i w łasnym i tych sam ych, odpowiednich m acierzy. Aby więc uzyskać najw iększy współczynnik ko­ relacji kanonicznej, w ybieram y najw iększy pierw iastek w ielom ianu cha­ rakterystycznego, w ystępującego w rów naniu charakterystycznym , które jest wyznacznikiem (2.9) porów nanym do zera. N ajw iększem u pierw iast­ kowi przyporządkow ane będą odpowiednie w ektory spełniające w a ru ­ nek (2.2). PROCEDURA ZASTOSOW ANIA KORELACJI KANONICZNEJ DO WYBORU ZMIENNYCH OBJAŚNIAJĄCYCH Cały proces w ykorzystania analizy kanonicznej do w yboru zm iennych objaśniających można przedstaw ić w postaci poniższego schem atu blo­ kowego. Schem at ten przedstaw ia kolejność czynności zm ierzających do w yboru ostatecznego, optym alnego podziału zbioru x na podzbiory Xa i X b J a k w ynika ze schem atu przedstaw ionego na rycinie, poszukiw anie m aksym alnego w spółczynnika korelacji kanonicznej przebiega przez w szystkie r ^ m podziałów zbioru x na odpow iednie podzbiory Xa i X b N ależy jednak podkreślić, że in te resu ją nas tylko te podziały, k tóre za­ pew n iają co n ajm n iej dw uelem entow e podzbiory Xa i X b - Takie bowiem podzbiory um ożliw iają k o n stru k cję zm iennych kanonicznych. Idea zastosow ania korelacji kanonicznej... O stateczny w ybór optym alnego podziału rozw ażanego zbioru nastę­ puje po zbadaniu m aksym alnych w spółczynników korelacji kanonicznej dla m podziałów. T raktując bowiem w spółczynnik korelacji kanonicznej jako k ry te riu m w yboru optym alnego podziału zbioru x n a podzbiory Xa i X b , w ybieram y ze w szystkich m m aksym alnych w spółczynników k ore­ lacji ten, k tó ry jest najw iększy. K ry teriu m to m ożem y zapisać nastę­ pująco: p u a vr = m a x ( m a x p u v ) = m a x p u v A B А , В q , h А В А , В UA VB gdzie: % v B - ™a£PuAvB (3.1) W ydaje się, że powyższe k ry te riu m m aksym alnego w spółczynnika korelacji kanonicznej może zapewnić w ybór optym alnego (najlepszego) podziału zbioru zm iennych potencjalnych na podzbiór zm iennych a k ty w ­ nych i podzbiór zm iennych biernych. Należy sądzić, że zm ienne osta­ tecznie w prow adzone do m odelu w m yśl k ry te riu m (3.1) dobrze objaśniać będą zm ienną objaśnianą i dobrze zastępować zm ienne pom inięte. Taki sposób podejścia może pozwolić na zredukow anie dużej liczby zm iennych potencjalnych do zbioru zm iennych aktyw nych, zachow ując jednocześnie — przez w prow adzenie analizy kanonicznej — oddziaływ anie zm iennych biernych. Trzeba jednak zdawać sobie spraw ę z faktu, że strona rac h u n ­ kowa dojścia do ostatecznego rozw iązania jest czasochłonna i skom pli­ kowana. Zbadanie m aksim um funkcji (2.6) dla w szystkich m podziałów dużego zbioru x zmusza do korzystania z techniki kom puterow ej. Po­ nadto w ym aga rów nież znajomości odpowiednich program ów obliczenio­ wych. Pow yższy fakt spraw ia, że analiza kanoniczna budzi pew ne kon­ trow ersje. N ależy jednak zaznaczyć, że obecny poziom techniki kom pu­ terow ej jest taki, że naw et czasochłonne i skom plikow ane num erycznie zadania mogą być zadow alająco rozw iązane, o czym świadczą cytow ane w tym opracow aniu publikacje. Р Е З Ю М Е В статье представлена возможность применения канонической корреляции для выбора объяснимы х переменных в эконометрической модели. Вступительная часть работы посвящ ена общим принципам деления большого множ ества по­ тенциальных переменны х на подмножество переменных, входящ их в модель, и на подмножество пропущ енны х переменных. Вторая часть работы посвящена критерию выбора соответствующего деления множества потенциальных переменных. Таким критерием есть максимальный коэф ф ициент канонической корреляции м еж ду двумя каноническим^ перемен­ ными, из которых одна является линейной комбинацией переменны х, принятых во внимание в модели, а другая — линейной комбинацией пропущ енны х пе­ ременных. Нам каж ется, что максимализируя коэф ф ициент канонической кор­ реляции м еж ду этими переменными, мож но будет произвести такой выбор по­ тенциальных переменны х, при котором введенные в модель переменные будут хорош о объяснять объяснимы е переменные. Больш е того — если мы их сильно скоррелируем с пропущ енными переменными, то они будут учитывать инф ор­ мацию, содерж ащ ую ся в переменны х, не учтенны х в модели. В третьей части статьи представлена целая процедура получения оконча­ тельного, оптимального деления множ ества потенциальных переменны х на мно­ ж ество переменны х, введенны х в модель, и на множество пропущ енны х пере­ менных. Следует, однако, добавить, что процедура максимализации коэф ф ициента канонической корреляции, являющ егося критерием выбора, долж на охватывать все соответствующие деления множ ества потенциальны х переменных. Этот про­ цесс слож ен в нумерическом отношении, он требует использования компьютер­ ной вычислительной техники. S U M M A R Y The article presents a p ossib ility of applying canonical correlation to the selec­ tion of explanatory variables for an econom etric m odel. The introductory section deals w ith the general principles of the division of a large set of potential variables into a subset of variables included in the m odel and a subset of variables om itted. The second part concerns the selection criterion for an appropriate division of the potential variables set. This criterion is provided by the m axim um c o effi­ cient of canonical correlation betw een tw o canonical variables, of w hich one is a linear com bination of variables included in the m odel, w h ile the other is a linear com bination of variables om itted. It seem s that the m axim ization of the canonical correlation coefficient betw een these variables m ay ensure the selection of such a division of the potential variables set that the variables introduced into the m odel w ill interpret w ell the variable explained. M oreover, by their strong correla­ tion w ith the variables om itted, they w ill take into account the inform ation contain­ ed in variables not included in the m odel. The third part of the article presents the w hole procedure of reaching the final, optim al division of the potential variables set into the set of variables in tro­ duced into the m odel and th e set of variables om itted. H ow ever, it should be added that the procedure of the m axim ization of the canonical correlation coeffi­ cient, w hich is the selection criterion, m ust cover all the appropriate divisions of the potential variables set. It is a process num erically com plex and requires the application of com puter calculation techniques. U N I V E R S I T A T I S


This is a preview of a remote PDF: http://czashum.hist.pl/media//files/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia-r1981_1982-t15_16/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia-r1981_1982-t15_16-s177-184/Annales_Universitatis_Mariae_Curie_Sklodowska_Sectio_H_Oeconomia-r1981_1982-t15_16-s177-184.pdf

Kazimierz Kacprzak. Idea zastosowania korelacji kanonicznej do wyboru optymalnego zbioru zmiennych objaśniających do modelu ekonometrycznego, Annales Universitatis Mariae Curie-Skłodowska. Sectio H, Oeconomia, 177-184,