DOI: https://doi.org/10.37811/cl_rcm.v7i1.5255

Uso de datamining y analisis de clúster para mejorar la productividad de Mipymes de la Ciudad de Pilar

 

Alberto Luis Ríos Vargas

[email protected]

https://orcid.org/0000-0002-7064-5870

Fac. de Ciencias Aplicadas.

Universidad Nacional de Pilar.

Pilar - Paraguay

 

Brian Marin Rios Nicoli

[email protected]

https://orcid.org/0000-0001-7191-828X  

Fac. de Ciencias y Tecnología.

Universidad Católica Campus Itapúa.

Encarnación - Paraguay

 

RESUMEN

El objetivo de este trabajo es proporcionar a los usuarios empresariales conocimientos de las características operativas y de rendimiento en los aspectos de producción del negocio. El mismo presenta un enfoque metodológico para desarrollar una métrica práctica de recopilación de datos para la productividad basada en factores de influencia establecidos en los emprendimientos de carácter industrial.

Este estudio se realizará utilizando una técnica de Datamining denominada “Clúster Analysis” o análisis de clústeres, que permite identificar dentro de un conjunto de datos, un determinado grupo de usuarios según características comunes.

 

Palabras claves: datamining; análisis de cluster; producción; industria.

 

 

 

 

 

 

 

 

Correspondencia: [email protected]

Artículo recibido 26 enero 2023 Aceptado para publicación: 26 febrero 2023

Conflictos de Interés: Ninguna que declarar

Todo el contenido de Ciencia Latina Revista Científica Multidisciplinar, publicados en este sitio están disponibles bajo Licencia Creative Commons https://revistacientifica.uamericana.edu.py/public/site/images/aduarte/cc2.png.

Cómo citar: Ríos Vargas, A. L., & Rios Nicoli, B. M. (2023). Uso de datamining y analisis de clúster para mejorar la productividad de Mipymes de la Ciudad de Pilar. Ciencia Latina Revista Científica Multidisciplinar, 7(1), 10793-10804. https://doi.org/10.37811/cl_rcm.v7i1.5255

Use of datamining and cluster analysis to improve the productivity of MSMEs in the city of Pilar

ABSTRACT

The goal of this paper is to provide business users with insights into operational and performance characteristics in production aspects of business. It presents a methodological approach to develop a practical data collection metric for productivity based on influence factors established in industrial companies.

This study will be carried out using a Datamining technique called "Cluster Analysis", which allows a certain group of users to be identified within a data set according to common characteristics.

 

Palabras claves: datamining; cluster analysis; production; industry.

 


 

1.      INTRODUCCIÓN

Al considerar una empresa, el análisis a través de datamining se refiere a comprobar y explorar grandes cantidades de conjuntos de datos para extraer y verificar los patrones, conexiones y tendencias, y también para tener una mejor idea de la cadena de suministro. Eso ayuda a mantener la fabricación y productividad en el camino correcto y también para averiguar las tendencias de los empleados y relaciones con los clientes.

El presente estudio se llevará a cabo en tres fases: en la primera, se llevará a cabo la recopilación de datos a través de encuestas a trabajadores industriales, la segunda, en la que este conjunto de datos se agrupará en distintos clústeres, y la tercera, en donde se analizará el volumen de los distintos clústeres para determinar los factores que puedan contribuir a la mejora de la producción y, posteriormente, la productividad de la manufacturera.

Datamining

El desarrollo de la tecnología de la información ha generado una gran cantidad de bases de datos y enormes datos en varias áreas. Un ejemplo claro es el área de marketing digital, donde se utilizar la minería de datos para diseñar campañas de marketing personalizadas para cada tipo de cliente, a partir de una gran cantidad de datos, como información de facturación, correo electrónico, mensajes de texto, transmisiones de datos web y servicio al cliente.

La investigación en bases de datos y tecnologías de la información ha dado lugar a un enfoque para almacenar y manipular estos datos valiosos para tomar decisiones adicionales. La minería de datos es un proceso de extracción de información útil y patrones de datos enormes. También se denomina proceso de descubrimiento de conocimientos, minería de conocimientos a partir de datos, extracción de conocimientos o análisis de datos / patrones.

La minería de datos es un proceso lógico que se utiliza para buscar en una gran cantidad de datos con el fin de encontrar datos útiles.

El objetivo de esta técnica es encontrar patrones que antes se desconocían. Una vez estos se encuentran se pueden utilizar además para tomar ciertas decisiones para el desarrollo de sus negocios u otras áreas.

 

 

Análisis de Clústeres

El análisis de clústeres es un método estadístico para procesar datos. Funciona organizando elementos en grupos, o agrupaciones, sobre la base de cuán estrechamente asociados están.

El análisis de clústeres, al igual que el análisis de espacio reducido (análisis factorial), se ocupa de matrices de datos en las que las variables no se han dividido de antemano en subconjuntos de criterio versus predictores. El objetivo del análisis de clústeres es encontrar grupos similares de sujetos, donde la “similitud” entre cada par de sujetos significa alguna medida global sobre todo el conjunto de características.

El análisis de clústeres es un algoritmo de aprendizaje no supervisado, lo que significa que no sabe cuántos clústeres existen en los datos antes de ejecutar el modelo. A diferencia de muchos otros métodos estadísticos, el análisis de clústeres se utiliza normalmente cuando no se hace una suposición sobre las posibles relaciones entre los datos. Proporciona información sobre dónde existen asociaciones y patrones en los datos, pero no cuáles podrían ser o qué significan.

¿Cómo es utilizado?

El uso más común del análisis de clústeres es la clasificación. Los sujetos se separan en grupos para que cada sujeto sea más similar a otros sujetos de su grupo que a sujetos fuera del grupo.

En un contexto de investigación de mercado, esto podría usarse para identificar categorías como grupos de edad, tramos de ingresos, ubicación urbana, rural o suburbana.

En marketing, el análisis de clústeres se puede utilizar para la segmentación de la audiencia, de modo que los diferentes grupos de clientes puedan dirigirse con los mensajes más relevantes.

Los investigadores de la salud pueden usar el análisis de conglomerados para averiguar si diferentes áreas geográficas están vinculadas con niveles altos o bajos de ciertas enfermedades, de modo que puedan investigar los posibles factores locales que contribuyen a los problemas de salud.

Cualquiera que sea la aplicación, la limpieza de datos es un paso preparatorio esencial para un análisis de clúster exitoso. La agrupación funciona a nivel de conjunto de datos donde cada punto se evalúa en relación con los demás, por lo que los datos deben ser lo más completos posible. La agrupación se mide mediante la distancia entre grupos y entre grupos.

En el trabajo “E-Learning Challenges Faced by Academics in Higher Education” de la Universidad de Sheffield Hallam, se dice lo siguiente: Al revisar la literatura sobre e-learning, hay varias críticas a la calidad de los sistemas de e-learning que se están utilizando actualmente. Se han planteado problemas que incluyen: problemas de usabilidad, mal desempeño, instituciones que no pueden personalizar de acuerdo con sus requisitos y, a veces, críticas por tener un sistema centrado en el maestro en lugar de estar centrado en el alumno (Chua y Dyson, 2004).

Justificación en términos de Necesidades y Pertinencia.  

Las empresas requieren una revisión analítica en profundidad de los datos de producción para comprender mejor su entorno empresarial y su capacidad de competitividad. En la era de la información, las empresas deben ver los datos recopilados como una ventaja competitiva. La minería de datos y el análisis de clústeres son técnicas prometedoras para aprovechar el valor potencial de los datos que se encuentran en las organizaciones.

La aplicación de minería de datos y otras herramientas de análisis de datos produce información útil o funciones relacionales que ayudan a los gerentes de manufactureras a tomar decisiones positivas para la empresa.

2.   METODOLOGÍA

Un proceso de revisión debe guiarse por preguntas de revisión, con el fin de organizar y definir el conocimiento existente sobre el tema elegido.

En la bibliografía consultada se define este tipo de revisión como una síntesis de la investigación realizada de manera sistemática, transparente y reproducible, con el objetivo de mejorar la base de conocimiento existente e informar sobre la practicidad y las prácticas existentes en la educación superior.

La metodología consta de las siguientes etapas:

En la primera etapa, se determinarán las principales razones para buscar investigar sobre este tema, que se expresará en forma de preguntas de revisión.

Luego, se desarrollará un protocolo de revisión para utilizarlo para extraer información relevante al tema.

En la segunda etapa, se extraerán los artículos de los que se extraerá la información relevante. El protocolo de revisión se centra en la identificación y selección de artículos de acuerdo con su relevancia para el tema estudiado, así como la eliminación de fuentes no relacionadas con el tema. Una vez hecho esto, el proceso de síntesis de la información relevante continuará.

En la tercera etapa, se realizará el estudio de campo. Utilizando una herramienta de encuestas, se hará un sondeo en las distintas empresas, a modo de recopilar el mayor volumen de datos posible, para poder realizar el procesamiento de los mismos.

En la etapa final, los resultados de la revisión se informarán mediante un informe escrito con la ayuda de tablas explicativas, así como las conclusiones y recomendaciones pertinentes para académicos y profesionales interesados ​​en este tema.

Para el análisis de los datos se utilizará el lenguaje y entorno de desarrollo R. R proporciona una amplia variedad de técnicas estadísticas (modelado lineal y no lineal, pruebas estadísticas clásicas, análisis de series temporales, clasificación, agrupamiento, …) y técnicas gráficas, y es altamente extensible. El lenguaje S suele ser el vehículo elegido para la investigación en metodología estadística, y R proporciona una ruta de código abierto para participar en esa actividad.

El entorno R.

Figura 1: Ejemplo de salida en R.

R es un conjunto integrado de instalaciones de software para la manipulación de datos, el cálculo y la visualización gráfica. Incluye:

§  Una instalación efectiva de manejo y almacenamiento de datos,

§  Un conjunto de operadores para cálculos en arreglos, en particular matrices,

§  Una colección grande, coherente e integrada de herramientas intermedias para el análisis de datos,

§  Facilidades gráficas para el análisis y visualización de datos, ya sea en pantalla o en papel, y

§  Un lenguaje de programación bien desarrollado, simple y efectivo que incluye condicionales, bucles, funciones recursivas definidas por el usuario y facilidades de entrada y salida.

Preparación de Datos.

Tabla 1: Ejemplo de conjuntos de datos (Producción industrial de la ciudad de Pilar)

Fuente: INE

Para realizar un análisis de clústeres en R, generalmente, los datos deben prepararse de la siguiente manera:

§  Las filas son observaciones (individuos) y las columnas son variables

§  Cualquier valor faltante en los datos debe ser eliminado o estimado.

§  Los datos deben estar estandarizados (es decir, escalados) para que las variables sean comparables. La estandarización consiste en transformar las variables de manera que tengan media cero y desviación estándar uno.

Los datos industriales de a ser analizados serán recopilados por los alumnos del 1er curso de la carrera de Ingeniería Industrial, y serán ordenados teniendo en cuenta la siguiente tabla:

Nombre de la Industria (Rama de actividad económica)

Personal Ocupado

Gastos por compras de bienes y servicios

Ingresos por suministro de bienes y servicios

 

 

 

 

 

Figura 2: Datos de la industria pilarense extraídos del Instituto Nacional de Estadística.

Como no queremos que el algoritmo de agrupamiento dependa de una unidad variable arbitraria, comenzamos por escalar/estandarizar los datos usando la función scale de R.

La función scale () en lenguaje R es una función genérica que centra y escala las columnas de una matriz numérica. El parámetro central toma un vector numérico similar o un valor lógico. Si se proporciona el vector numérico, entonces a cada columna de la matriz se le resta el valor correspondiente desde el centro. Si el valor lógico es VERDADERO, las medias de las columnas de la matriz se restan de sus columnas correspondientes. La escala toma un vector numérico similar o un valor lógico.


 

Figura 3: Datos escalados listos para procesamiento.

K-means.

La agrupación en clústeres de K-medias es el algoritmo de aprendizaje automático no supervisado más utilizado para dividir un conjunto de datos dado en un conjunto de k grupos (es decir, k clústeres), donde k representa la cantidad de grupos especificados previamente por el analista. Clasifica objetos en múltiples grupos (es decir, clústeres), de modo que los objetos dentro del mismo conglomerado son lo más similares posible (es decir, alta similitud intraclase), mientras que los objetos de diferentes conglomerados son lo más diferentes posible (es decir, baja inter-clase). semejanza de clase). En el agrupamiento de k-medias, cada grupo está representado por su centro (es decir, centroide) que corresponde a la media de los puntos asignados al grupo.

Cálculo de k-means en R

La función k-means.

Los datos proporcionados por 'x' se agrupan mediante el método k-means, que tiene como objetivo dividir los puntos en grupos de modo que se minimice la suma de los cuadrados de los puntos a los centros de conglomerados asignados.

Como mínimo, todos los centros de conglomerados están en la media de sus conjuntos de Voronoi (el conjunto de puntos de datos que están más cerca del centro de conglomerados).

Podemos calcular k-means en R con la función kmeans. Aquí se agrupará los datos en dos grupos (centers = 2). La función kmeans también tiene una opción nstart que intenta múltiples configuraciones iniciales e informa sobre la mejor. Por ejemplo, agregar nstart = 25 generará 25 configuraciones iniciales

En la siguiente figura se utilizaron 3 centroides (k) y arrojo como resultado 3 clústeres de dimensión 1, 62 y 3. Abajo se denotan los vectores y a que grupo pertenecen.

Figura 4: K-means clustering en R

También podemos ver nuestros resultados usando fviz_cluster. Esto proporciona una buena ilustración de los grupos. Si hay más de dos dimensiones (variables), fviz_cluster realizará un análisis de componentes principales (PCA) y trazará los puntos de datos de acuerdo con los dos primeros componentes principales que explican la mayor parte de la varianza.

3.       RESULTADOS Y DISCUSIÓN

Figura 5: Resultado del análisis de clústeres.

Se estos resultados, y atendiendo a nuestro dataset podemos extraer, por ejemplo, como la industria de Hilandería mueve muchísimo más capital que el resto, y que las ramas de actividad económica Comercio al por menor en comercios no especializados, Comercio al por menor de otros artículos y equipos de uso doméstico en comercios especializados y Comercio al por menor de otros artículos en comercios especializados poseen una mayor cantidad de unidades económicas, pero no tanto movimiento de capital como la industria de hilandería.

4. CONCLUSIONES

En pocas palabras, los clústeres industriales son aglomeraciones regionales de industrias relacionadas. Los clústeres están formados por empresas, proveedores y prestadores de servicios, así como instituciones estatales y otras instituciones que brindan educación, información, investigación y apoyo técnico a la economía regional. Se puede decir entonces que un clúster es una red de relaciones económicas que crea una ventaja competitiva para las empresas relacionadas en una región determinada. Crear nuevos clústeres económicos se convierte en un incentivo para que industrias similares y sus proveedores se desarrollen o se trasladen a la región.

Una forma de crear clústeres completamente nuevos en la región es desarrollar estrategias que mejoren el entorno comercial general, mejoren las habilidades, el acceso a financiamiento e infraestructura, simplifiquen las regulaciones gubernamentales, respalden las necesidades locales y abran la inversión y la competencia extranjeras.

5. LISTA DE REFERENCIAS

Nurul Islam, Martin Beer, Frances Slack. 2015. E-Learning Challenges Faced by Academics in Higher Education: A Literature Review. Sheffield Hallam University, UK. Publicado por Redfame Publishing.

Bharati M. Ramageri. DATA MINING TECHNIQUES AND APPLICATIONS. Indian Journal of Computer Science and Engineering Vol. 1 No. 4 301-305. 2010

Documentación NCSS. Clustering in NCSS. 2020https://www.ncss.com/software/ncss/clustering-in-ncss/

Sunil Kumar. 5 Common Problems Faced By Students In eLearning And How To Overcome Them. 2015https://elearningindustry.com/5-common-problems-faced-by-students-in-elearning-overcome

Explorium Data Science Team. Clustering — When You Should Use it and Avoid It. 2020https://www.explorium.ai/blog/clustering-when-you-should-use-it-and-avoid-it/

 

Tabla 1. Instituto Nacional de Estadística (INE)

Figura 1. scikit-learn.org

Fabián Pedregosa; Gael Varoquaux; Alejandro Gramfort; Vicente Michel; Bertrand Thirion; Olivier Grisel; Mathieu Blondel; Peter Prettenhofer; Ron Weiss; Vicente Dubourg; Jake Vanderplas; Alejandro Passos; David Cournapeau; Matthieu Perrot; Édouard Duchesnay (2011). "Scikit-learn: aprendizaje automático en Python" . Revista de investigación de aprendizaje automático.

Tabla 1. Instituto Nacional de Estadística (INE)

Figura 1. scikit-learn.org

Fabián Pedregosa; Gael Varoquaux; Alejandro Gramfort; Vicente Michel; Bertrand Thirion; Olivier Grisel; Mathieu Blondel; Peter Prettenhofer; Ron Weiss; Vicente Dubourg; Jake Vanderplas; Alejandro Passos; David Cournapeau; Matthieu Perrot; Édouard Duchesnay (2011). "Scikit-learn: aprendizaje automático en Python" . Revista de investigación de aprendizaje automático.

Manjarrés Betancourt, Juan Carlos. 8 algoritmos de agrupación en clústeres en el aprendizaje automático que todos los científicos de datos deben conocer.https://www.freecodecamp.org/espanol/news/8-algoritmos-de-agrupacion-en-clusteres-en-el-aprendizaje-automatico-que-todos-los-cientificos-de-datos-deben-conocer/

Kassambara, A. (2017). Practical guide to cluster analysis in R: Unsupervised machine learning (Vol. 1). Sthda.

George Seif (2018). The 5 Clustering Algorithms Data Scientists Need to Know. (Towards Data Science)

RDocumentation, Nick Carchedi, https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/kmeans