Método de concordancia bayesiana y su aplicación en problemas de clasificación multiclase con categorías desequilibradas

Palabras clave: cadenas de markov monte carlo, inferencia bayesiana, indice kappa

Resumen

Las técnicas de clasificación Machine o Deep Learning utilizan varias medidas de evaluación del rendimiento. La índice kappa es una medida muy infravalorada independientemente de su fiabilidad en problemas con clases desequilibradas. Por otro lado, los métodos bayesianos generan grandes aportes a la estadística, agregando incertidumbre al modelo probabilístico que permite estimar parámetros con mejores ajustes. Esta investigación ofrece una alternativa innovadora para los investigadores al diseñar una biblioteca de libre acceso en el entorno RStudio que evalúa clasificadores a través de una medida de concordancia bayesiana-frecuentista. Utiliza tres modelos Bayesianos (Dirichlet, Multinomial-Dirichlet y Beta) con el método de cadena Markov Monte Carlo. La biblioteca se aplicó a la clasificación de células leucémicas en el Hospital Clínic (Barcelona), demostrando su eficacia en el uso del índice bayesiano kappa para datos desequilibrados en relación con otras medidas, así como la robustez y sensibilidad del diseño. Para uso docente, la biblioteca cuenta con una función adicional que simula clasificadores a través de una distribución multinomial, lo que permite evaluarlos.

Descargas

La descarga de datos todavía no está disponible.

Citas

Blei, D. M., Nigle, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993-1022.

Boldú, L., Merino, A., Alférez, S., Molina, A., Acevedo, A., Rodellar, J. (2019). Automatic recognition of different types of acute leukemia in peripheral blood by images analysis. Journal of clinical Pathology, DOI: 10.1136/jclinpath-2019-205949.

Borja, R. S. (2019). Método de concordancia bayesiano y su aplicación en problemas de clasificación multiclase con categorías desequilibradas (Universidad Politécnica de Cataluña - UB). Available at: https://upcommons.upc.edu/handle/2117/127344

Bradley, E. (2013). Bayes’ Theorem in the 21st Century. Science, 340(6137), 1177-1178, DOI:10.1126/science.1236536.

Brennan, R. L., & Prediger, D. J. (1981). Coefficient Kappa: Some Uses, Misuses, and Alternatives. Educational and Psychological Measurement, 41(3), 687-699, DOI:10.1177/001316448104100307.

Chib, S., Nardari, F., & Shephard, N. (2002). Markov chain Monte Carlo methods for stochastic volatility models. Journal of Econometrics, 108(2), 281-316, DOI: 10.1016/S0304-4076(01)00137-3.

Cristobal, A. (2000). Inferencia Estadística (2da ed.). Zaragoza: Prensas Universitarias de Zaragoza.

D`Agostini, G. (2003). Bayesian inference in processing experimental data: Principles and basic applications. Reports on Progress in Physics, 66(9), 1383–1419, DOI: 10.1088/0034-4885/66/9/201

Fleiss, J., Levin, B., & Cho, M. (2003). Statistical Methods for Rates and Proportions (3era ed.). New Jersey: John Wiley & Sons.

Ford, E. B. (2015, junio 5). Convergence Diagnostics For Markov Chain Monte Carlo [online]. Available at: https://astrostatistics.psu.edu/RLectures/diagnosticsMCMC.pdf

Garabedian, C., Butruille, L., Drumez, E., Servan Schreiber, E., Bartolo, S., Bleu, G., … Houfflin-Debarge, V. (2017). Inter-observer reliability of 4 fetal heart rate classifications. Journal of Gynecology Obstetrics and Human Reproduction, 46(2), 131-135, DOI:10.1016/j.jogoh.2016.11.002.

Gupta, A., & Nadarajah, S. (2004). Handbook of Beta Distribution and Its Applications. Broken Sound Parkway NW: CRC Press.

Hillier, F., & Lieberman, G. (2010). Introducción a la Investigación de Operaciones (9na ed.). México: McGraw Hill.

Koch, K. (1990). Bayes Theorem (Vol. 31). Berlin: Springer.

Landis, J. R., & Koch, G. G. (1977). The Measurement of Observer Agreement for Categorical Data. Biometrics, 33(1), 159-174, DOI: 10.2307/2529310.

Laurence, M., & Pascal, M. (2009). Bayesian decision theory as a model of human visual perception: Testing Bayesian transfer. Visual Neuroscience, 26(1), 147-155, DOI:10.1017/S0952523808080905.

Lebreton, J. M., Ployhart, R. E., & Ladd, R. T. (2004). A Monte Carlo Comparison of Relative Importance Methodologies. Organizational Research Methods, 7(3), 258-282, DOI:10.1177/1094428104266017

Maxwell, A. E., Warner, T. A., & Fang, F. (2018). Implementation of machine-learning classification in remote sensing: An applied review: International Journal of Remote Sensing: Vol 39, No 9. International Journal of Remote Sensing, 39(9), 2784-2817, DOI:10.1080/01431161.2018.1433343.

McHugh, M. (2012, 15). Interrater reliability: The kappa statistic. Biochemia Medica, 22(3), 276-282.

Monleón-Getino T, Rodríguez-Casado CI, Verde PE. 2019. Shannon Entropy Ratio, a Bayesian Biodiversity Index Used in the Uncertainty Mixtures of Metagenomic Populations. Journal of Advanced statistics 4(4) 1-23.

Powers, D. M. W. (2012). The Problem with Kappa. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, 345–355. Stroudsburg, PA, USA: Association for Computational Linguistics.

Press, J. (1989). Bayesian Statistics principles, models and applications. Califonia: John Wiley & Sons.

Press, James. (2009). Subjective and Objective Bayesian Statistics: Principles, Models, and Applications (2da ed.). New Yersey: John Wiley & Sons.

Sanjib, B., Mousumi, B., & Ananda, S. (2000). Bayesian Inference for Kappa from Single and Multiple Studies. Biometrics, 56(2), 577-582, DOI:10.1111/j.0006-341X.2000.00577.x

Sheldom, R. (2014). Introduction to Probability Models (11th ed.). Los Angeles, California: Academic Press.

Shridhar, K., Laumann, F., & Liwicki, M. (2019). A Comprehensive guide to Bayesian Convolutional Neural Network with Variational Inference. arXiv:1901.02731 [cs, stat].

Shuo, W., & Xin, Y. (2012). Multiclass Imbalance Problems: Analysis and Potential Solutions. IEEE Transactions on Systems, 42(4), 1119-1130, DOI:10.1109/TSMCB.2012.2187280

Watson, P., & Petrie, A. (2010). Method agreement analysis: A review of correct methodology. 73, 1167-1179.

Westgard, J. (2008). Basic method validation (3ra ed.). Wisconsin: Madison.

Publicado
2022-10-18
Cómo citar
Borja Robalino, R., Monleón Getino, A., & Rodellar, J. (2022). Método de concordancia bayesiana y su aplicación en problemas de clasificación multiclase con categorías desequilibradas. Ciencia Latina Revista Científica Multidisciplinar, 6(5), 1064-1090. https://doi.org/10.37811/cl_rcm.v6i5.3159
Sección
Artículos