Avtomatsko ucenje regresijskih dreves iz nepopolnih podatkov

Aram Karalic

Magistrsko delo

Mentor: prof. dr. Ivan Bratko

Povzetek

V magistrskem delu smo v algoritmu za gradnjo regresijskih dreves CART uporabili bayesovski pristop k ocenjevanju verjetnostnih porazdelitev in raziskali moznost uporabe lokalne regresije v listih drevesa. Vse dopolnitve algoritma smo implementirali v programskem sistemu RETIS in preizkusili na stirih realnih in stirih sinteticnih domenah. Pri uporabi bayesovskega pristopa smo razvili m-oceno porazdelitev, na osnovi m-ocene porazdelitev pa m-rezanje regresijskih dreves, katerega osnovna filozofija se zgleduje po naknadnem rezanju klasifikacijskih dreves. Ugotovili smo, da se je v uporabljenih domenah m-rezanje v smislu napake obneslo bolje od alfa-rezanja, ki je uporabljeno v originalnem algoritmu CART. Vpeljava lokalne linearne regresije v liste naucenega drevesa omogoca, da zgradimo regresijska drevesa, ki v listih napovejo vrednost razreda kot linearno funkcijo zveznih atributov. Testiranje uporabe lokalne regresije je pokazalo, da je tudi tukaj razlika v glavnem signifikantna v korist linearne regresije, vendar pa je potrebna dolocena mera previdnosti pri njeni uporabi. Testirali smo tudi obnasanje parametra m glede na kolicino suma v podatkih in ugotovili, da je zelo verjetno, da obstaja monotono narascajoca odvisnost med kolicino suma v domeni in najboljso vrednostjo parametra m . Taka ugotovitev se sklada z nasimi pricakovanji, vendar pa so deviacije meritev tako velike, da bi bilo za zanesljivejse trditve potrebno opraviti dodatne analize. Vsekakor pa ze sedanji rezultati lahko sluzijo kot vodilo pri izbiri vrednosti parametra m pri delu v realnih domenah. Pri rezanju dreves z razlicnimi vrednostmi parametra m prihaja do pojava, da je pri velikih m drevo porezano z vecjim m vecje od drevesa porezanega z manjsim m; ne pa obratno, kot bi pricakovali. Vzrok temu pojavu je prevlada vpliva apriorne ocene verjetnostne porazdelitve. Zato smo vpeljali algoritem zaporednega m-rezanja, ki se izogne tej ``anomaliji''. Pokazali smo, da se na uporabljenih domenah algoritma navadnega in zaporednega rezanja ne razlikujeta signifikantno v smislu napake, torej lahko nacelno izberemo kateregakoli za prakticno uporabo. Prednost drugega algoritma je, da je njegovo obnasanje intuitivno razumljivejse od prvega.

Thesis.ps