Aplicación de Machine Learning en el Diagnóstico del Cáncer de Mama: Un Enfoque Basado en Buenas Prácticas
Resumen
El presente artículo tiene como objetivo identificar y describir buenas prácticas en la construcción de modelos de clasificación aplicados al diagnóstico de cáncer de mama, utilizando el conjunto de datos Breast Cancer Wisconsin (Diagnostic). Basado en la revisión de estudios recientes y en la aplicación práctica de técnicas de modelado, se busca ofrecer una guía comprensible para personas que inician en el aprendizaje automático. La metodología se estructuró siguiendo el enfoque SEMMA (Sample, Explore, Modify, Model, Assess), que orientó la selección de variables, la exploración de datos y la validación de modelos. Se implementaron estrategias metodológicas como SelectKBest para la selección de características, validación cruzada anidada para asegurar una evaluación rigurosa, y optimización de hiperparámetros mediante Optuna. Además, se aplicaron procesos de calibración y ajuste de umbral para mejorar la confiabilidad de las predicciones.Los algoritmos analizados incluyeron modelos lineales, basados en árboles, máquinas de soporte vectorial (SVM), K-vecinos más cercanos (KNN), redes neuronales y métodos de ensamble, evaluados con métricas como MCC, AUC-ROC y Brier Score. Los resultados destacaron CatBoost por su discriminación y calibración (AUC-ROC y AUC-PR cercanas a 1, Brier bajo), SVM con ponderación de clases por su equilibrio (F1 y MCC elevados) y XGBoost por su robustez general.
Descargas
Citas
Aljuaid, H., Alturki, N., Alsubaie, N., Cavallaro, L., & Liotta, A. (2022). Computer-aided diagnosis for breast cancer classification using deep neural networks and transfer learning. Computer Methods and Programs in Biomedicine, 223, 106951.
https://doi.org/10.1016/j.cmpb.2022.106951
Battineni, G., Chintalapudi, N., & Amenta, F. (2020) Performance analysis of different machine learning algorithms in breast cancer predictions. EAI Endorsed Transactions on Pervasive Health and Technology 6(23), e4. https://doi.org/10.4108/eai.28-5-2020.166010
Boddu, A. S., & Jan, A. (2025). A systematic review of machine learning algorithms for breast cancer detection. Tissue & cell, 95, 102929. https://doi.org/10.1016/j.tice.2025.102929
Cotrina-Teatino, M. A., Riquelme, A. I., Guartan, J. A., & Marquina, J. J. (2025). Machine Learning aplicado a la exploración minera usando matriz de confusión. Sciéndo Ingenium, 21(1), 63-74.
https://doi.org/10.17268/rev.cyt.2025.01.06
Darapureddy, N., & Suman, K. (2024). Performance Analysis and Comparison of Machine Learning Algorithms for Breast Cancer Dataset. Contemporary Perspective on Science, Technology and Research 6, 89–99. https://doi.org/10.9734/bpi/cpstr/v6/7561E
Díaz, O., Rodríguez-Ruíz, A., & Sechopoulos I. (2024). Artificial Intelligence for breast cancer detection: Technology, challenges, and prospects. European Journal of Radiology, 175, 111457.
https://doi.org/10.1016/j.ejrad.2024.111457
Gomez, H., Jiménez, R., Hernández, G., & Martinez, Á. (2017). A comparative between CRISP-DM and SEMMA through the construction of a MODIS repository for studies of land use and cover change. Advances in Science, Technology and Engineering Systems Journal, 2(3), 598-604.
https://doi.org/10.25046/aj020376
Hussain, S., Ali, M., Naseem, U., Nezhadmoghadam, F., Jatoi, M. A., Gulliver, T. A., & Tamez-Peña, J. G. (2024). Breast cancer risk prediction using machine learning: a systematic review. Frontiers in oncology, 14, 1343627. https://doi.org/10.3389/fonc.2024.1343627
Instituto Nacional de Estadística y Geografía. (2024). Estadísticas a propósito del día internacional de la lucha contra el cáncer de mama.
https://www.inegi.org.mx/contenidos/saladeprensa/aproposito/2024/EAP_LuchaCMama24.pdf
Sánchez Sánchez, J. E., & Fernández Paradas, A. R. (2025). Análisis de Estrategias Didácticas Implementadas para el Desarrollo de Competencias Textuales en Estudiantes de Secundaria. Ciencia Y Reflexión, 4(2), 2384–2411. https://doi.org/10.70747/cr.v4i2.497
Urquidez Romero , R., Avitia Sánchez, A., Cano Ramírez , D., Jiménez Montes , L. V., Barranco Merino, G. I., & Reyes Ruvalcaba, D. (2025). Programa de Intervención con un Suplemento Multivitamínico para Mejorar el Estado de Nutrición y Anemia en Niños en Condición de Vulnerabilidad Social de Ciudad Juárez Chihuahua. Ciencia Latina Revista Científica Multidisciplinar, 9(3), 8340-8354. https://doi.org/10.37811/cl_rcm.v9i3.18460
Jiménez Rodríguez, J. M. (2024). Euthanasia In Spain: An Interpretive Analysis Of The Current Regulations From The Health Social Work. Ciencia Y Reflexión, 3(2), 1–20. https://doi.org/10.70747/cr.v3i2.4
Tenesaca Canchignia , D. C., Canchignia Bonilla, E. L., Remache Guamán, N. V., Guamán Sagñay , H. P., & Hualcopo Duchicela, U. E. (2025). Guía para padres con respecto al uso de dispositivos móviles el niños de nivel preparatorio. Arandu UTIC, 12(2), 287–307. https://doi.org/10.69639/arandu.v12i2.925
Araujo García, D., Chang Espinosa , O. Y., & Pérez Vázquez , D. (2025). Consultoría Estratégica para Mipymes: Estudio de Mercado para Impulsar el Desarrollo Regional en Perote, Veracruz. Estudios Y Perspectivas Revista Científica Y Académica , 5(3), 27–45. https://doi.org/10.61384/r.c.a.v5i3.1328
Simbaña Cabrera, H. A., Haro Jácome, O. F., García-Romero , C. A., & Analuisa García , P. S. (2025). La titulación rural, una propuesta colectiva que evidencia la realidad educativa de las escuelas multigrado. Emergentes - Revista Científica, 5(2), 1–14. https://doi.org/10.60112/erc.v5.i2.385
Cortés Viveros, N., Hernández García, R. A., Galván Sarabia, A., Olivares Galvan, H. R., & Texon Olguin, O. A. (2025). En Busca del Modelo Ideal para Determinar las Variables que Explican el Tiempo de Desempleo en Buscadores Xalapeños. Estudios Y Perspectivas Revista Científica Y Académica , 5(3), 65–81. https://doi.org/10.61384/r.c.a.v5i3.1332
Bernal Parraga, A. P., Salazar Véliz , E. T., Zambrano Lamilla, L. M., Espinoza Jaramillo , S. G., Morales García , C. S., Shinger Hipatia, N. S., & Zapata Calderón , S. J. (2025). Innovaciones Didácticas para Lengua y Literatura Basadas en el Aprendizaje Personalizado y Colaborativo . Revista Científica De Salud Y Desarrollo Humano , 6(2), 01–32. https://doi.org/10.61368/r.s.d.h.v6i2.574
Sabando Suárez, A. A., Vega Guamangate, J. M., García Gallirgos, V. J., & Mora Carpio, W. T. (2025). Impacto del Gasto Social en el Índice de Desarrollo Humano en Ecuador. periodo 2001-2023. Revista Veritas De Difusão Científica, 6(2), 1593–1633. https://doi.org/10.61616/rvdc.v6i2.707
Kumar, M., Singhal, S., Shekhar, S., Sharma, B., & Srivastava, G. (2022). Optimized Stacking Ensemble Learning Model for Breast Cancer Detection and Classification Using Machine Learning. Sustainability, 14(21), 13998. https://doi.org/10.3390/su142113998
Kumar, V. H. (2018). Python libraries, development frameworks and algorithms for machine learning applications. International Journal of Engineering Research & Technology (IJERT), 7(04).
Organización Mundial de la Salud. (2025). Cáncer de mama. https://www.who.int/es/news-room/fact-sheets/detail/breast-cancer
Organización Panamericana de la Salud. (2025). Cáncer. https://www.paho.org/es/temas/cancer
Palmero, J., Lasar Rosenthal, J., Juárez, L., & Medina, C. (2021). Cáncer de mama: una visión general. Acta médica Grupo Ángeles, 19(3), 354-360.
https://www.scielo.org.mx/scielo.php?pid=s1870-72032021000300354&script=sci_arttext
Pérez-Herrero, M., López-Alvarez, S., & Nebril, B. A. (2023). Factores perioperatorios en el cancer de mama. Revisión sistemática de su influencia en el pronóstico. Revista de Senología y Patología Mamaria, 36(1), 100413. https://doi.org/10.1016/j.senol.2022.03.001
SAS Institute Inc. (2023). Introduction to SEMMA. SAS Enterprise Miner Documentation.
https://documentation.sas.com/doc/en/emref/15.3/n061bzurmej4j3n1jnj8bbjjm1a2.htm
Sung, H., Ferlay, J., Siegel, R. L., Laversanne, M., Soerjomataram, I., Jemal, A., & Bray, F. (2021). Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians, 71(3), 209-249.
https://doi.org/10.3322/caac.21660
Tuerhong, A., Silamujiang, M., Xianmuxiding, Y., Wu, L., & Mojarad, M. (2023). An ensemble classifier method based on teaching-learning-based optimization for breast cancer diagnosis. Journal of cancer research and clinical oncology, 149(11), 9337–9348.
https://doi.org/10.1007/s00432-023-04861-5
Wolberg, W., Mangasarian, O., Street, N., & Street, W. (1993). Breast Cancer Wisconsin (Diagnostic) [Dataset]. UCI Irvine Machine Learning Repository. https://doi.org/10.24432/C5DW2B
Yan, R.., Ren, F., Wang, Z., Wang, L., Zhang, T., Liu, Y., Rao, X., Zheng, C., & Zhang, F. (2020). Breast cancer histopathological image classification using a hybrid deep neural network. Methods, 173, 52-60. https://doi.org/10.1016/j.ymeth.2019.06.014
Zaalouk, A., Ebrahim, G., Mohamed, H., Hassan, H., & Zaalouk, M. (2022). A Deep Learning Computer-Aided Diagnosis Approach for Breast Cancer. Bioengineering, 9(8), 391.
Derechos de autor 2025 Carmen Liliana Rodriguez Paez , Ricardo Rico Molina, Mariam Juárez González, Jesus Dario Botello Jaime

Esta obra está bajo licencia internacional Creative Commons Reconocimiento 4.0.











.png)
















.png)
1.png)

