APLICACIÓN DE MACHINE LEARNING EN
EL DIAGNÓSTICO DEL CÁNCER DE MAMA:
UN ENFOQUE BASADO EN BUENAS PRÁCTICAS
APPLICATION OF MACHINE LEARNING IN BREAST
CANCER DIAGNOSIS: A BEST PRACTICES APPROACH
Carmen Liliana Rodriguez Paez
Universidad Autónoma del Estado de México
Ricardo Rico Molina
Universidad Autónoma del Estado de México
Mariam Juárez González
Universidad Autónoma del Estado de México
Jesus Dario Botello Jaime
Universidad Autónoma del Estado de México
pág. 15100
DOI: https://doi.org/10.37811/cl_rcm.v9i5.20705
Aplicación de Machine Learning en el Diagnóstico del Cáncer de Mama:
Un Enfoque Basado en Buenas Prácticas
Carmen Liliana Rodriguez Paez1
clrodriguezp@uaemex.mx
https://orcid.org/0000-0002-3856-0797
Universidad Autónoma del Estado de México
México
Ricardo Rico Molina
rricom@uaemex.mx
https://orcid.org/0000-0001-9586-8758
Universidad Autónoma del Estado de México
México
Mariam Juárez González
mjuarezg007@alumno.uaemex.mx
https://orcid.org/0009-0002-3766-2094
Universidad Autónoma del Estado de México
México
Jesus Dario Botello Jaime
Jbotelloj2200@alumno.ipn.mx
https://orcid.org/0009-0003-6375-7166
Instituto Politecnico Nacional
México
RESUMEN
El presente artículo tiene como objetivo identificar y describir buenas prácticas en la construcción de
modelos de clasificación aplicados al diagnóstico de cáncer de mama, utilizando el conjunto de datos
Breast Cancer Wisconsin (Diagnostic). Basado en la revisión de estudios recientes y en la aplicación
práctica de técnicas de modelado, se busca ofrecer una guía comprensible para personas que inician en
el aprendizaje automático. La metodología se estructuró siguiendo el enfoque SEMMA (Sample,
Explore, Modify, Model, Assess), que orientó la selección de variables, la exploración de datos y la
validación de modelos. Se implementaron estrategias metodológicas como SelectKBest para la
selección de características, validación cruzada anidada para asegurar una evaluación rigurosa, y
optimización de hiperparámetros mediante Optuna. Además, se aplicaron procesos de calibración y
ajuste de umbral para mejorar la confiabilidad de las predicciones.Los algoritmos analizados incluyeron
modelos lineales, basados en árboles, máquinas de soporte vectorial (SVM), K-vecinos más cercanos
(KNN), redes neuronales y métodos de ensamble, evaluados con métricas como MCC, AUC-ROC y
Brier Score. Los resultados destacaron CatBoost por su discriminación y calibración (AUC-ROC y
AUC-PR cercanas a 1, Brier bajo), SVM con ponderación de clases por su equilibrio (F1 y MCC
elevados) y XGBoost por su robustez general.
Palabras clave: machine learning, cáncer de mama, diagnóstico asistido por computadora, modelos de
clasificación, metodología SEMMA
1
Autor principal
Correspondencia: clrodriguezp@uaemex.mx
pág. 15101
Application of Machine Learning in Breast Cancer Diagnosis: A Best
Practices Approach
ABSTRACT
The purpose of this article is to identify and describe best practices in the construction of classification
models applied to breast cancer diagnosis, using the Breast Cancer Wisconsin (Diagnostic) dataset.
Based on a review of recent studies and the practical application of modeling techniques, it seeks to
provide a comprehensive guide for those new to machine learning. The methodology was structured
following the SEMMA (Sample, Explore, Modify, Model, Assess) approach, which guided the
selection of variables, data exploration, and model validation. Methodological strategies such as
SelectKBest were implemented for feature selection, nested cross-validation to ensure rigorous
evaluation, and hyperparameter optimization using Optuna. In addition, calibration and threshold
adjustment processes were applied to improve the reliability of predictions. The algorithms analyzed
included linear models, tree-based models, support vector machines (SVM), K-nearest neighbors
(KNN), neural networks, and ensemble methods, evaluated with metrics such as MCC, AUC-ROC, and
Brier Score. The results highlighted CatBoost for its discrimination and calibration (AUC-ROC and
AUC-PR close to 1, low Brier), SVM with class weighting for its balance (high F1 and MCC), and
XGBoost for its overall robustness.
Keywords: machine learning, breast cancer, computer-assisted diagnosis, classification models,
SEMMA methodology
Artículo recibido 26 setiembre 2025
Aceptado para publicación: 29 octubre 2025
pág. 15102
INTRODUCCIÓN
A nivel mundial el cáncer representa uno de los principales problemas de salud pública, con un aumento
constante de acuerdo con la Organización Panamericana de la Salud (2025), se proyecta en un 60% para
el 2045 en la región de la Américas, pasando de 4.2 millones de casos registrados en 2022 a una
estimación de 6.7 millones de casos, de igual forma el cáncer de mama es la neoplasia más común en
mujeres (Palmero et al., 2021; Pérez-Herrero et al., 2023; Sung et al., 2021), con más de 2.3 millones
de casos registrados a nivel mundial desde el 2022, representando el 25% de todos los tipos de cáncer
que existen de acuerdo con cifras de la Organización Mundial de la Salud (2025). En México, las
estadísticas son igualmente altas, durante el año 2024 el Instituto Nacional de Estadística y Geografía,
da a conocer que la mortalidad a causa de tumores malignos es 89,633, siendo el 9% equivalente a
9,034 muertes ocasionados por cáncer de mama. Por consiguiente, la detección temprana es clave, ya
que aumenta las posibilidades de éxito con tratamientos menos invasivos (Díaz et al., 2024). En este
campo, los sistemas de diagnóstico asistido por computadora (CAD) han avanzado de forma notable ya
que permiten analizar volúmenes de información, extraer patrones ocultos y formular modelos
predictivos, lo que ha conllevado a la exploración de interacciones entre múltiples variables y la
predicción de enfermedades a partir de datos históricos, como resultado pueden ser instrumentos muy
útiles en ciertas partes del proceso de detección y diagnóstico del cáncer donde se requiere clasificar
información y encontrar conocimiento en grandes volúmenes de datos (Aljuaid et al., 2022; Zaalouk et
al., 2022). En este punto destaca el Breast Cancer Wisconsin (Diagnostic), uno de los conjuntos de datos
más utilizados para evaluar algoritmos de clasificación (Wolberg et al., 1993), empleado en
investigaciones que van desde modelos simples como la regresión logística y las máquinas de soporte
vectorial, hasta enfoques complejos como árboles de decisión, técnicas de ensemble learning y redes
neuronales profundas (Battineni et al., 2020; Darapureddy & Suman, 2024). A partir de estas
investigaciones, se ha observado que el rendimiento de un modelo depende no solo del algoritmo, sino
también de factores como el tamaño de la muestra, la normalización de datos, la selección de
características relevantes y el ajuste de hiperparámetros. Aunque algunos trabajos reportan precisiones
superiores al 90% (Yan et al., 2020), suelen lograrse bajo condiciones muy específicas, como el uso de
un único modelo entrenado de forma intensiva o preprocesamientos diseñados a la medida.
pág. 15103
A diferencia de investigaciones que se enfocan en un único modelo, este trabajo busca ofrecer una guía
dirigida a personas de distintas áreas que inician en el análisis de datos y en machine learning,
explicando conceptos y técnicas de manera que cualquier lector pueda comprenderlos, reproducir el
proceso y adaptarlo a sus propios contextos. Para ello, se presenta un comparativo de múltiples
clasificadores aplicados al data set señalado, siguiendo un marco metodológico unificado y aplicando
buenas prácticas identificadas en la literatura reciente.
MATERIALES Y METODOS
La investigación se desarrolló siguiendo un enfoque cualitativo y comparativo. En una primera etapa se
realizó una revisión de la literatura reciente en bases de datos cientificas, a partir de la cual se
seleccionaron artículos relevantes para la temática. Estos trabajos permitieron identificar buenas
prácticas metodológicas aplicables al desarrollo de modelos clasificatorios en datos estructurados y
conjuntos de tamaño reducido, como el Breast Cancer Wisconsin (Diagnostic) (WDBC) obtenido de la
plataforma electrónica Kaggle. Se empleó el conjunto WDBC. La variable objetivo distingue tumores
benignos (B) y malignos (M). Para preservar la proporción de clases (≈63% B / 37% M), se aplicó una
partición estratificada en entrenamiento (80%) y prueba (20%).
Para el desarrollo, de los modelos con estas buenas prácticas se utilizó SEMMA, metodología
desarrollada por SAS Institute con el objetivo de estructurar proyectos de minería de datos, cuenta con
cinco fases: Muestreo, Exploración, Modificación, Modelado y Evaluación (Gómez et al., 2017). Cada
una de estas cumplen un papel específico dentro del ciclo de análisis, asegurando que los datos sean
preparados, transformados, modelados y evaluados de forma congruente.
En la segunda etapa, las prácticas identificadas se integraron en un flujo de trabajo reproducible
implementado en Python, que incluyó la normalización de los datos posterior a la división en
entrenamiento y prueba para evitar data leakage, la selección de características relevantes mediante
SelectKBest (criterio univariado), la validación cruzada repetida, anidada para mejorar la estabilidad de
las estimaciones y reducir el sesgo optimista, la optimización de hiperparámetros se realizó con la
herramienta Optuna, acotando espacios plausibles y usando AUC -ROC como objeto interno. El ajuste
de umbral de decisión con base en métricas objetivo y la calibración de probabilidades para modelos
seleccionados.
pág. 15104
Siguiendo este marco metodológico, se entrenaron y evaluaron diferentes tipos de algoritmos
clasificadores, entre ellos modelos lineales como Regresión Logística (con y sin balanceo de clases);
modelos basados en árboles como Árbol de Decisión (criterio entropy, con y sin balanceo), Random
Forest, Gradient Boosting, XGBoost, LightGBM y CatBoost; máquinas de soporte vectorial (SVM, con
núcleo no lineal, con y sin balanceo de clases); métodos basados en instancias como k-vecinos más
cercanos (KNN); redes neuronales como Perceptrón Multicapa (MLP) de arquitectura poco profunda;
y modelos de ensamble como combinaciones Voting Classifier y Stacking Classifier (Figura 1). Este
diseño aseguró que todos los modelos fueran evaluados bajo las mismas condiciones experimentales,
garantizando la comparabilidad y la posibilidad de reproducir los resultados por parte de otros
investigadores.
Figura 1. Método de investigación
RESULTADOS Y DISCUSIÓN
Se identificaron varias prácticas metodológicas para lograr resultados sólidos y reproducibles en el
análisis del conjunto de datos Breast Cancer Wisconsin (Diagnostic) en la clasificación de cáncer de
mama. La primera de ellas, es la normalización posterior a la partición de los datos, aplicada únicamente
sobre el conjunto de entrenamiento. Esto significa que los valores de las variables se ajustan a la misma
escala, pero solo después de separar los datos en los grupos de entrenamiento y prueba. El objetivo es
evitar algo que se mirara en varios espacios, data leakage o “fuga de datos”, esto ocurre cuando la
pág. 15105
información del grupo de prueba se filtra hacia el proceso de entrenamiento, lo que puede llevar a que
el modelo parezca más preciso de lo que realmente es cuando se aplique en nuevos casos (Battineni et
al., 2020; Sung et al., 2021; Zaalouk et al., 2022).
Otra práctica clave implementada fue la validación cruzada anidada y repetida (rnCV), método que
consiste en dividir el conjunto de entrenamiento en múltiples partes y entrenar el modelo varias veces
con distintas combinaciones, de manera que cada parte actúe en algún momento como validación. En
esta hay dos niveles: uno interno para ajustar los parámetros del modelo y otro externo para evaluar su
rendimiento. Al repetir este ciclo varias veces, se reduce el sesgo y se obtiene una estimación más
estable y confiable del rendimiento del modelo (Díaz et al., 2024; Wolberg et al., 1993; Hussain et al.,
2024).
La tercera característica señalada son técnicas como SelectKBest, método que se encarga de analizar
todas las variables del conjunto de datos y asigna una puntuación a cada una según su relación con la
variable objetivo, en este caso si un tumor es benigno o maligno. A partir de estas puntuaciones,
conserva únicamente las variables con mejor capacidad predictiva y descarta aquellas cuya aportación
al modelo es mínima o poco relevante. Utilizar el mismo subconjunto de variables para todos los
modelos permite que las comparaciones sean justas y que el rendimiento se evalúe bajo condiciones
idénticas, evitando que un modelo tenga ventaja por haber usado información distinta (Aljuaidet al.,
2022; Kumar et al., 2022).
En cuanto al ajuste de los modelos, el uso de Optuna para la búsqueda de hiperparámetros se mostró
especialmente útil. Estos últimos son las configuraciones internas de cada modelo y que tienen un rol
en los resultados obtenidos. Lo que hace Optuna es automatizar la búsqueda de las mejores
combinaciones posibles, explorando de forma inteligente un espacio muy amplio de opciones y
maximizando métricas como el AUC-ROC en un número reducido de intentos. Esta métrica AUC-
ROC, cuyo nombre es Área Bajo la Curva de Característica Operativa del Receptor, evalúa la capacidad
de un modelo para diferenciar entre clases, en conjunto de datos que se está manejando si el tumor es
benigno o llega a ser maligno, esto lo hace en distintos umbrales de decisión: un valor de 1 indica una
discriminación entre las perfecta, mientras que un valor de 0.5 refleja un desempeño equivalente al azar
( Wolberg et al., 1993; Boddu & Jan, 2025; Yan et al., 2020).
pág. 15106
Para la evaluación de resultados se recomienda el uso de métricas robustas como el Matthews
Correlation Coefficient (MCC), particularmente valiosa cuando las clases no están perfectamente
equilibradas, ya que considera tanto los aciertos como los errores de cada clase, ofreciendo una visión
más justa que métricas como la exactitud (Accuracy) o el F1-score para el balance ( Díaz et al., 2024).
Esto resulta especialmente funcional en conjunto de datos como el Breast Cancer Wisconsin
(Diagnostic) donde el 62,74 % son Benigno y 37,26 % el Maligno. Tener en cuenta que técnicas como
el sobre muestreo artificial (oversampling). En conjuntos equilibrados, este tipo de técnicas generan
datos sintéticos basados en los datos ya existentes, pero que no representan patrones reales. En lugar de
mejorar el aprendizaje, pueden llevar al modelo a aprender información irrelevante o engañosa es decir
“introducir ruido”, incrementando el riesgo de sobreajuste y reduciendo su capacidad de generalizar a
datos nuevos (Battineni et al., 2020; Darapureddy & Suman, 2024; Hussain et al 2024).
La literatura subraya la importancia de probar múltiples paradigmas de aprendizaje automático desde
modelos lineales hasta redes neuronales y algoritmos basados en árboles de decisión para capturar
patrones complementarios y evitar depender de un único enfoque (SAS Institute Inc, 2023; Sung et al.,
2021; Tuerhong et al., 2023).
En el muestreo, el código carga el conjunto de datos, después se eliminan columnas irrelevantes,
fijándose el índice y transformando la variable objetivo (B o M) en formato numérico. Después se
imprime el tamaño del conjunto de datos y la distribución de clases, para verificar la representatividad
de la muestra, luego se realiza una partición estratificada en entrenamiento y prueba (80/20) para
conservar la proporción de casos B y M para asegurarse que ambos subconjuntos mantengan la
estructura de clases del conjunto original. El primer conjunto se utiliza para ajustar los modelos y que
aprendan los patrones de los datos, mientras que el segundo se utiliza para evaluar su desempeño con
información nueva y que el modelo no ha visto antes, permitiendo simular de esta forma
comportamiento en un escenario real.
En la fase de exploración, el script revisa rápidamente las dimensiones del conjunto de datos y la
distribución de clases, con el fin de confirmar que los tamaños y proporciones son adecuados antes de
iniciar cualquier transformación o modelado. Esta inspección inicial permite detectar posibles
problemas y comprender mejor las características de los datos con los que se trabajará.
pág. 15107
La fase de modificación se desarrolla a través de un pipeline (secuencia automatizada de pasos que
procesa los datos y entrena el modelo de forma ordenada y reproducible) de preprocesamiento que
incluye la imputación de valores faltantes con la mediana y la normalización de los datos (Kumar,
2018), esto último es un proceso que ajusta los valores de las variables a la misma escala para que
ninguna tenga más influencia que otra en el entrenamiento del modelo y se puede aplicar solo a variables
numéricas. Es relevante que el ajuste de este pipeline se realiza solo con el conjunto de entrenamiento
y posteriormente se aplica al de prueba, evitando el data leakage. Además, dentro de cada modelo se
incorpora un paso de selección de características mediante la técnica SelectKBest.
En la fase de modelado, el código implementa un conjunto variado de clasificadores, cada uno integrado
en un pipeline con su correspondiente selector de características. Se incluyen modelos lineales
(Regresión Logística, con y sin balanceo), basados en árboles (Árbol de Decisión, Random Forest,
Gradient Boosting, XGBoost, LightGBM, CatBoost), máquinas de soporte vectorial con núcleo no
lineal (con y sin balanceo), métodos por instancias (KNN), redes neuronales (Perceptrón Multicapa) y
ensambles (Voting y Stacking Classifier). Para cada modelo se define un espacio de hiperparámetros y
se optimiza automáticamente con Optuna, empleando validación cruzada estratificada y AUC-ROC
como métrica objetivo, dentro de un esquema de validación cruzada anidada. Los mejores modelos se
calibran y, cuando es posible, se combinan en un ensamble suave tipo Voting, que consiste en integrar
las predicciones de varios clasificadores y tomar la decisión final según la votación conjunta, ya sea por
mayoría de clases predichas o promediando las probabilidades, con el fin de aprovechar las fortalezas
de cada modelo y mejorar el rendimiento global.
En la evaluación, se revisa qué tambien funciona el modelo usando el grupo de datos que se reservó
para la prueba, antes de hacerlo se ajusta el “punto de corte” o umbral de decisión, que es el valor a
partir del cual el modelo decide si un caso es positivo o negativo. Para comprender mejor las métricas
calculadas, es fundamental entender la matriz de confusión la cual es una herramienta que permite
evlauar el desempeño de un modelo y predecir cada clase del conjunto de datos pruebas (Cotrina et al.,
2024) con sus cuatro componentes: los verdaderos positivos (TP) son casos que son evaluados
adecuadamente como positivos; los verdadero negativos (TN) son casos que son evaluados
correctamente como negativos; los falsos positivos (FP) son casos que fueron evaluados como positivos
pág. 15108
pero en realidad son negativos; y los falsos negativos (FN) son casos que fueron evaluados como
negativos pero en realidad son positivos. Estas categorias forman la base para el cálculo de todas las
métricas de evaluación utilizadas en este estudio.
La exactitud (accuracy), mide el porcentaje total de predicciones correctas sobre el conjunto evaluado,
es decir, de todas las prediciones realizadas por los diferentes modelos cuántas fueron correctass. Este
valor va de 0 a 1 (0%-100%), entre mas cercano este al 1, mejor sera el modelo. La precisión (precision),
que indica de todas las predicciones positivas cuántas son realmente correctas, ayudando a controlar los
falsos positivos. Se enfoca en los TP y los FP, indicando cuantos casos feuron realmente positivos. La
sensibilidad (recall), que refleja la capacidad del modelo para detectar correctamente los casos positivos
reales, reduciendo falsos negativos. El F1-score es la media armónica entre precisión y recall, útil
cuando se busca un equilibrio entre ambas. Se considera que entre más cercano este a 1 es mejor y al 0
es peor.
También se calcula el Matthews Correlation Coefficient (MCC), que evalúa la correlación entre las
predicciones y los valores reales considerando todas las categorías de la matriz de confusión, siendo
más robusto ante desbalances. Su rango de valores va de -1 a 1. Entre mas cercano a 1 se dice que está
mas correlacionado o que su valor es más cercano a la realida; si tiende más a 0 quiere decir que su
predicción es más aleatoria. La especificidad (specificity) mide la capacidad de identificar
correctamente los casos negativos, evitando falsos positivos.
El Area Under the Precision-Recall Curve (AUC-PR) resume la relación entre precisión y recall a
distintos umbrales de decisión, siendo especialmente relevante en conjuntos desbalanceados.
Finalmente, el Brier Score evalúa la calidad de las probabilidades predichas mediante el cálculo del
error cuadrático medio entre estas y los valores reales, de modo que valores más bajos indican una
mejor calibración del modelo (Tabla 1).
pág. 15109
Tabla 1. Comparación de los modelos
Modelo
Accuracy
Precision
F1
Specificity
AUC-
ROC
AUC-
PR
Brier
LogisticRegression_sin
CW
0,9663
0,9683
0,9732
0,9451
0,9931
0,9957
0,0259
LogisticRegression_co
nCW
0,97
0,9693
0,9762
0,9471
0,9931
0,9957
0,0297
RandomForest_sinCW
0,9538
0,9578
0,9633
0,9275
0,9921
0,9954
0,0341
RandomForest_conCW
0,9502
0,9578
0,9604
0,9275
0,9924
0,9955
0,0338
XGBoost
0,9714
0,9714
0,9773
0,951
0,9927
0,9957
0,027
LightGBM
0,9626
0,9603
0,9705
0,9314
0,9914
0,9947
0,0298
SVM_sinCW
0,967
0,9728
0,9737
0,9529
0,9957
0,9974
0,0302
SVM_conCW
0,9714
0,9706
0,9774
0,949
0,9927
0,9956
0,0303
KNN
0,9634
0,9659
0,971
0,9412
0,9881
0,9925
0,0323
MLP
0,9707
0,9664
0,977
0,9412
0,9914
0,9943
0,033
GradientBoosting
0,9575
0,9552
0,9665
0,9216
0,9957
0,9975
0,0307
DecisionTree_sinCW
0,9297
0,9343
0,9449
0,8824
0,9802
0,9865
0,0628
DecisionTree_conCW
0,9377
0,9362
0,9512
0,8882
0,9785
0,9789
0,0362
CatBoost
0, 9678
0,9664
0,9746
0,9412
0,9977
0,9986
0,0175
La Tabla 1 muestra los resultados de aplicar buenas prácticas metodológicas, donde la mayoria de los
modelos presentan un desempeño sobresaliente. En términos de exactitud (Accuracy), todos los
modelos alcanzaron valores superiores a 0.9, lo que indica que más del 90% de las predicciones fueron
correctas. Los modelos con mejor desempeño superaron el 0.96, mientras que incluso aquellos con
menor rendimiento se mantuvieron por encima de 0.90, evidenciando que la metodología implementada
garantiza una alta capacidad predictiva general independientemente del algoritmo seleccionado. Esta
consistencia en el desempeño superior contrasta con estudios previos donde la falta de buenas prácticas
genera una mayor variabilidad entre modelos.
En términos de discriminación, CatBoost fue el más destacado (AUC-ROC y AUC-PR cercanas a 1) y,
además, presentó el Brier score más bajo del conjunto, lo que indica excelente calibración. El SVM con
ponderación de clases (class weight) y XGBoost alcanzaron los valores más altos de MCC, reflejando
una correlación muy fuerte entre predicciones. El SVM sin ponderación obtuvo la mayor especificidad,
útil para minimizar falsos positivos. En contraste, el árbol de decisión simple (con o sin ponderación)
mostró los valores relativos más bajos dentro de la cohorte y sirve como línea base.
pág. 15110
Lectura de métricas clave
Exactitud (Accuracy). Aun cuando la mayoría de modelos superaron el 90%, accuracy por sola
puede ser engañosa bajo desbalance moderado; se privilegió su lectura en conjunto con MCC y AUC-
PR.
Precisión y sensibilidad. La primera controla falsos positivos; la segunda, falsos negativos. El
equilibrio se sintetizó en F1, en el que MLP y SVM con ponderación se ubicaron entre los mejores. Los
colores en esta columna indica en verde más intenso cual es mejor y en rojo cual es menos mejor.
MCC. El coeficiente osciló en valores altos para los mejores modelos; XGBoost y SVM con
ponderación alcanzaron los máximos observados con 0.9394 en verde intenso y el de menor valor fue
el DecisionTree_conCW con 0.8521 en rojo.
Especificidad (specificity). El SVM sin ponderación lideró con respecto a los demás métodos. En la
tabla se observa que el mejor modelo evaluado fue SVM_sinCW con 0.9529 en verde intenso y el más
bajo fue DecissionTree_sinCW con 0.8824 en rojo.
AUC-ROC y AUC-PR. Ambas cercanas a 1 para CatBoost; AUC-PR. En este caso el mejor modelo
fue el CatBoost con 0.9977 en verde intenso y el que obtuvo el menos valor fue el DecisionTree_conCW
con 0.9785 aún muy bueno.
Brier score. CatBoost obtuvo el valor mínimo, lo que respalda la confiabilidad de sus probabilidades.
Un Brier bajo en conjunto con AUC alta sugiere que el modelo no solo separa bien, sino que «sabe cuán
seguro está». En el caso de la tabla a diferencia de las demás la mejor es el modelo CatBoost con 0.0175
y el más bajo es el modelo DecisionTree_sinCW con 0.0628.
En la descripción se citaron los mejores y peores modelos de acuerdo a las diferentes evaluaciones, es
de aclarar que todos los resultados de las evaluaciones son buenos, solo hay algunas con valores más
bajos. Lo anterior se debe a el objetivo del artículo que es la aplicación de modelos usando buenas
prácticas. Lo cual queda demostrado en esta tabla en donde todos los resultados son buenos en mayor
o menor medida.
pág. 15111
CONCLUSIONES
Lo anterior permite mostrar una serie de buenas prácticas para la generación de modelos, como es la
normalización posterior a la partición de datos, la selección de características, la validación cruzada
anidada, la optimización de hiperparámetros y la calibración de probabilidades, que permite generar
acompañada de lo observación de diversas métricas una visión más rica y equilibrada de los
rendimientos de los modelos, que basarlos en una solo métrica, permitiendo analizar el comportamiento
de las diferentes clases de modelos desde múltiples perspectivas, identificando fortalezas y limitaciones.
En el análisis realizado, CatBoost ofreció la mejor combinación de discriminación y calibración; SVM
con ponderación y XGBoost mostraron el mayor equilibrio global (MCC/F1); y los árboles simples
quedaron como referencia de base.
REFERENCIAS BIBLIOGRAFICAS
Aljuaid, H., Alturki, N., Alsubaie, N., Cavallaro, L., & Liotta, A. (2022). Computer-aided diagnosis for
breast cancer classification using deep neural networks and transfer learning. Computer
Methods and Programs in Biomedicine, 223, 106951.
https://doi.org/10.1016/j.cmpb.2022.106951
Battineni, G., Chintalapudi, N., & Amenta, F. (2020) Performance analysis of different machine
learning algorithms in breast cancer predictions. EAI Endorsed Transactions on Pervasive
Health and Technology 6(23), e4. https://doi.org/10.4108/eai.28-5-2020.166010
Boddu, A. S., & Jan, A. (2025). A systematic review of machine learning algorithms for breast cancer
detection. Tissue & cell, 95, 102929. https://doi.org/10.1016/j.tice.2025.102929
Cotrina-Teatino, M. A., Riquelme, A. I., Guartan, J. A., & Marquina, J. J. (2025). Machine Learning
aplicado a la exploración minera usando matriz de confusión. Sciéndo Ingenium, 21(1), 63-74.
https://doi.org/10.17268/rev.cyt.2025.01.06
Darapureddy, N., & Suman, K. (2024). Performance Analysis and Comparison of Machine Learning
Algorithms for Breast Cancer Dataset. Contemporary Perspective on Science, Technology and
Research 6, 89–99. https://doi.org/10.9734/bpi/cpstr/v6/7561E
Díaz, O., Rodríguez-Ruíz, A., & Sechopoulos I. (2024). Artificial Intelligence for breast cancer
detection: Technology, challenges, and prospects. European Journal of Radiology, 175, 111457.
pág. 15112
https://doi.org/10.1016/j.ejrad.2024.111457
Gomez, H., Jiménez, R., Hernández, G., & Martinez, Á. (2017). A comparative between CRISP-DM
and SEMMA through the construction of a MODIS repository for studies of land use and cover
change. Advances in Science, Technology and Engineering Systems Journal, 2(3), 598-604.
https://doi.org/10.25046/aj020376
Hussain, S., Ali, M., Naseem, U., Nezhadmoghadam, F., Jatoi, M. A., Gulliver, T. A., & Tamez-Peña, J.
G. (2024). Breast cancer risk prediction using machine learning: a systematic review. Frontiers
in oncology, 14, 1343627. https://doi.org/10.3389/fonc.2024.1343627
Instituto Nacional de Estadística y Geografía. (2024). Estadísticas a propósito del día internacional de
la lucha contra el cáncer de mama.
https://www.inegi.org.mx/contenidos/saladeprensa/aproposito/2024/EAP_LuchaCMama24.pd
f
Kumar, M., Singhal, S., Shekhar, S., Sharma, B., & Srivastava, G. (2022). Optimized Stacking
Ensemble Learning Model for Breast Cancer Detection and Classification Using Machine
Learning. Sustainability, 14(21), 13998. https://doi.org/10.3390/su142113998
Kumar, V. H. (2018). Python libraries, development frameworks and algorithms for machine learning
applications. International Journal of Engineering Research & Technology (IJERT), 7(04).
https://scholar.google.com/scholar?as_q=Python+Libraries%2C+Development+Frameworks+
and+Algorithms+for+Machine+Learning+Applications&as_occt=title&hl=en&as_sdt=0%2C
31
Organización Mundial de la Salud. (2025). Cáncer de mama. https://www.who.int/es/news-room/fact-
sheets/detail/breast-cancer
Organización Panamericana de la Salud. (2025). Cáncer. https://www.paho.org/es/temas/cancer
Palmero, J., Lasar Rosenthal, J., Juárez, L., & Medina, C. (2021). Cáncer de mama: una visión general.
Acta médica Grupo Ángeles, 19(3), 354-360.
https://www.scielo.org.mx/scielo.php?pid=s1870-72032021000300354&script=sci_arttext
pág. 15113
Pérez-Herrero, M., López-Alvarez, S., & Nebril, B. A. (2023). Factores perioperatorios en el cancer de
mama. Revisión sistemática de su influencia en el pronóstico. Revista de Senología y Patología
Mamaria, 36(1), 100413. https://doi.org/10.1016/j.senol.2022.03.001
SAS Institute Inc. (2023). Introduction to SEMMA. SAS Enterprise Miner Documentation.
https://documentation.sas.com/doc/en/emref/15.3/n061bzurmej4j3n1jnj8bbjjm1a2.htm
Sung, H., Ferlay, J., Siegel, R. L., Laversanne, M., Soerjomataram, I., Jemal, A., & Bray, F. (2021).
Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide
for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians, 71(3), 209-249.
https://doi.org/10.3322/caac.21660
Tuerhong, A., Silamujiang, M., Xianmuxiding, Y., Wu, L., & Mojarad, M. (2023). An ensemble
classifier method based on teaching-learning-based optimization for breast cancer
diagnosis. Journal of cancer research and clinical oncology, 149(11), 9337–9348.
https://doi.org/10.1007/s00432-023-04861-5
Wolberg, W., Mangasarian, O., Street, N., & Street, W. (1993). Breast Cancer Wisconsin (Diagnostic)
[Dataset]. UCI Irvine Machine Learning Repository. https://doi.org/10.24432/C5DW2B
Yan, R.., Ren, F., Wang, Z., Wang, L., Zhang, T., Liu, Y., Rao, X., Zheng, C., & Zhang, F. (2020). Breast
cancer histopathological image classification using a hybrid deep neural
network. Methods, 173, 52-60. https://doi.org/10.1016/j.ymeth.2019.06.014
Zaalouk, A., Ebrahim, G., Mohamed, H., Hassan, H., & Zaalouk, M. (2022). A Deep Learning
Computer-Aided Diagnosis Approach for Breast Cancer. Bioengineering, 9(8), 391.
https://doi.org/10.3390/bioengineering9080391