Boosted Regression Trees

Wulan Dian Pramiesti, Fitriani Agustina, Rini Marwati

Abstract


A regression tree is a data analysis technique that aims to determine the effect of all explanatory variables on the response variables. However, it turns out the regression tree method has a weakness that is the hierarchical structure allows for high variance predictors. The weakness of this regression tree method can be above using the Boosted Regression Trees (BRT) approach. The BRT approach uses a boosting technique to combine multiple regression trees in an additive manner so that the resulting variance is smaller than the previous variance. This study uses the BRT method for a case study of factors affecting the level of crime in East Java in 2018. Through 89 obtained optimal trees, the most important crime rate factors are the number of youth (model importance of 31.86%), followed by the percentage of poor population (11.14%), junior high school gross enrollment rate (9.67%), elementary school gross enrollment rate (8.98%), road stability (8.81 %), senior high school gross enrollment rate (8.67%), distance to the capital city of Surabaya (7.25%), open unemployment rate (7.02%), Gross Domestic Regional Product (GRDP) (5.32%), and population density (1.25%).

.

Keywords: Boosted Regression Trees, Boosting, Crime Rate, Regression Trees.


Abstrak

Pohon regresi merupakan teknik analisis data yang bertujuan untuk mengetahui pengaruh semua peubah penjelas terhadap peubah responnya. Namun, ternyata metode pohon regresi memiliki kelemahan yaitu struktur hierarkisnya memungkinkan terjadinya varians yang tinggi. Kelemahan metode pohon regresi ini dapat diatasi dengan menggunakan pendekatan Boosted Regression Trees (BRT). Pendekatan BRT menggunakan teknik boosting untuk menggabungkan beberapa pohon regresi secara aditif sedemikian sehingga nilai varians yang dihasilkan lebih kecil dari nilai varians sebelumnya. Penelitian ini menggunakan metode BRT untuk studi kasus menentukan faktor-faktor yang memengaruhi tingkat kriminalitas di Jawa Timur tahun 2018. Melalui 89 buah pohon optimal yang terbentuk, diperoleh kesimpulan bahwa faktor yang memengaruhi tingkat kriminalitas tertinggi adalah jumlah pemuda (31,86%), diikuti oleh persentase penduduk miskin (11,14%), Angka Partisipasi Kasar (APK) SMP (9,67%), APK SD (8,98%), kemantapan jalan (8.81%), APK SMA (8,67%), jarak ke ibukota Surabaya (7,25%), tingkat pengangguran terbuka (7,02%), Produk Domestik Regional Bruto (5,32%), dan kepadatan penduduk (1,25%).


Keywords


Boosted Regression Trees, Boosting, Pohon Regresi, Tingkat Kriminalitas.

Full Text:

PDF

References


Astari, N. M. M., Suciptawati, N. L. P., & Sukarsa, I. K. G. (2014). Penerapan metode bootstrap residual dalam mengatasi bias pada penduga parameter analisis regresi. E-Jurnal Matematika, 3(4), 130-137.

Döpke, J., Fritsche, U., & Pierdzioch, C. (2017). Predicting recessions with boosted regression trees. International Journal of Forecasting, 33(4), 745-759.

Elith, J., Leathwick, J. R., & Hastie, T. (2008). A working guide to boosted regression trees. Journal of Animal Ecology, 77(4), 802-813.

Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189-1232.

Friedman, J. H. (2002). Stochastic gradient boosting. Computational Statistics & Data Analysis, 38(4), 367-378.

Komalasari, W. B. (2007). Metode pohon regresi untuk eksploratori data dengan peubah yang banyak dan kompleks. Jurnal Informatika Pertanian, 16(1), 967-980.

Lestari, N. Y. T., Syafitri, U. D., & Raharjo, M. (2022). Faktor-faktor yang memengaruhi keberhasilan studi mahasiswa IPB jalur ketua OSIS dengan metode pohon regresi. Xplore: Journal of Statistics, 11(2), 70-83.

Schmoor, C., Ulm, K., & Schumacher, M. (1993). Comparison of the Cox model and the regression tree procedure in analysing a randomized clinical trial. Statistics in Medicine, 12(24), 2351-2366.

Suharjo, B. (2008). Metode pohon regresi dan prosedur regresi bertatar untuk segmentasi data. Milang: Journal of Mathematics and Its Applications, 7(2), 39-54.

Zhang, Y., & Haghani, A. (2015). A gradient boosting method to improve travel time prediction. Transportation Research Part C: Emerging Technologies, 58, 308-324.




DOI: https://doi.org/10.17509/jem.v8i2.30727

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

  

 Google Scholar Logo PNG vector in SVG, PDF, AI, CDR format