Indexación de Sitios Web para Optimizar la Búsqueda de Paquetes Turísticos Basado en Web Scraping

Gerardino Juvenal  Cauna-Huanca; Jorge  Condori Chávez; Roger  Quispe Caira; Edson Denis  Zanabria Ticona; Ludwin  Arocutipa Marca

doi:10.37811/cl_rcm.v7i4.7943

Gerardino Juvenal Cauna-Huanca Universidad Nacional del Altiplano Puno Perú https://orcid.org/0000-0003-3733-9238
Jorge Condori Chávez Universidad Andina Néstor Cáceres Velásquez: Juliaca, Puno, PERÚ https://orcid.org/0000-0003-1284-7850
Roger Quispe Caira Universidad Nacional del Altiplano Puno- Perú https://orcid.org/0009-0005-4739-4347
Edson Denis Zanabria Ticona Universidad Nacional del Altiplano Puno Perú https://orcid.org/0000-0003-1708-8515
Ludwin Arocutipa Marca Universidad Nacional del Altiplano Puno- Perú https://orcid.org/0000-0003-3463-3933

DOI: https://doi.org/10.37811/cl_rcm.v7i4.7943

Palabras clave: paquetes, recuperación de información, sistema web, scraping, turismo

Resumen

La técnica del Web Scraping permite la extracción de contenido de varios sitios web, recabando información de interés para el usuario. El presente proyecto tiene como finalidad desarrollar un sitio web en la cual pueda almacenar información de los diferentes paquetes turísticos que son ofertados por las agencias de viaje que operan en la región de Puno utilizando la técnica del web Scraping. La población está conformada por 38 páginas web según inscritas en IPERÚ Puno. Para la elaboración del algoritmo de extracción se utilizó la metodología de desarrollo de software XP y para el contaste de la hipótesis se utilizó prueba de rangos con signo de Wilcoxon. Como resultado, el análisis de la estructura DOM permitió el desarrollo del algoritmo de extracción, haciendo uso de Python como lenguaje de programación, también se puso a prueba la eficiencia del algoritmo, el cual demostró ser eficiente en comparación con la el programa webscraper. Se determinó que la complejidad algorítmica es lineal. Del desempeño de nuestro sitio web según la puntuación global de PageSpeed Insights está en la categoría rápida (97 puntos). La evaluación del sitio web basado en la norma ISO 25000 proporcionó una valoración de 6.67/10 puntos como calidad total, considerado como nivel aceptable y grado satisfactorio. Se concluye que la implementación del sitio web facilita la búsqueda de diferentes paquetes turísticos.

Descargas

La descarga de datos todavía no está disponible.

Citas

Almeida de Oliveira, R., & Arantes Baracho Porto, R. M. (2016). Extração de dados do site tripadvisor como suporte na elaboração de indicadores do turismo de minas gerais: Uma iniciativa em big data. Pesq. Bras. em Ci. da Inf. e Bib., 11(2), 026-037.

https://repositorio.ufmg.br/handle/1843/ECIP-AN2PRB

BBVA. (2016, enero 11). Herramientas de extracción de datos: Para principiantes y profesionales. BBVAOpen4U. Recuperado de https://bbvaopen4u.com/es/actualidad/herramientas-de-extraccion-de-datos-para-principiantes-y-profesionales

Contreras, F. (2016, septiembre 27). Conoce que es un YAML - fercontreras. Recuperado de https://fercontreras.com/conoce-que-es-un-yaml-e18e9d21ade4

Dewi, L. C., Meiliana, & Chandra, A. (2019). Social Media Web Scraping using Social Media Developers API and Regex. Procedia Computer Science, 157, 444-449. https://doi.org/10.1016/j.procs.2019.08.237

Gheorghe, M., Mihai, F.-C., & Dârdal, M. (2018). Modern techniques of web scraping for data scientists. Revista Romana de Interactiune Om-Calculator, 11(1), 63-75.

http://rochi.utcluj.ro/rrioc/articole/RRIOC-11-1-Gheorghe.pdf

Hanretty, C. (2013). Scraping the Web for Arts and Humanities. UNIVERSITY OF EAST ANGLIA, 50.

https://silo.tips/download/s-c-r-a-p-i-n-g-t-h-e-w-e-b-f-o-r-a-r-t-s-a-n-d-h-u-m-a-n-i-t-i-e-s

Hernández, A. T., Vázquez, E. G., Rincón, C. A. B., & García, J. M. (2015). Metodologías para análisis político utilizando Web Scraping. Research in Computing Science, 95, 113-121.

https://www.researchgate.net/publication/339207165_Metodologias_para_analisis_politico_utilizando_Web_Scraping

Hernández Herrero, C. (2014). Aplicación de Técnicas de Web Scraping al Boletín Oficial de Castilla y León (BOCyL) [Universidad de Valladolid]. https://uvadoc.uva.es/handle/10324/5794

Huaman Hilari, J. Z., & Quispe Ramos, M. A. (2019). Modelo de búsqueda de productos alimenticios en supermercados online categoría abarrotes utilizando asistente virtual de tipo Chatbot y extracción de datos con Web Scraping. Universidad Tecnológica del Perú.

https://hdl.handle.net/20.500.12867/2381

Januzaj, Y., Luma, A., Aliu, A., Selimi, B., & Raufi, B. (2019). WEB DATA SCRAPING TECHNIQUE AND PREPARATION FOR COMPARISON TECHNIQUES BETWEEN DIFFERENT DOCUMENTS. 11, 17.

https://publons.com/publon/28225522/

Julian, L. R., & Natalia, F. (2015). The use of web scraping in computer parts and assembly price comparison. 2015 3rd International Conference on New Media (CONMEDIA), 1-6. https://doi.org/10.1109/CONMEDIA.2015.7449152

Khalil, S., & Fakir, M. (2017). RCrawler: An R package for parallel web crawling and scraping. SoftwareX, 6, 98-106. https://doi.org/10.1016/j.softx.2017.04.004

Kiran, M., & Mownika, N. (2021). Machine learning integrated emotions detection on lockdowns in India using advanced web scraping. Materials Today: Proceedings. https://doi.org/10.1016/j.matpr.2021.01.460

Landers, R. N., Brusso, R. C., Cavanaugh, K. J., & Collmus, A. B. (2016). A primer on theory-driven web scraping: Automatic extraction of big data from the Internet for use in psychological research. Psychological Methods, 21(4), 475-492. https://doi.org/10.1037/met0000081

Laurente Blanco, L. F., & Machaca Hancco, R. W. (2020). Modelamiento y proyección de la demanda de turismo internacional en Puno-Perú. Revista Brasileira de Pesquisa em Turismo, 14(1), 34-55. https://doi.org/10.7784/rbtur.v14i1.1606

Marcos, J., Arroyo, A., Garzás, J., Piattini, M., Marcos, J., Garzas, J., & Arroyo, A. (2008). La norma ISO/IEC 25000 y el proyecto KEMIS para su automatización con software libre. Revista Española de Innovación, Calidad e Ingeniería del Software, 4(2), 133-144.

https://www.redalyc.org/articulo.oa?id=92218339013

Marres, N., & Weltevrede, E. (2013). SCRAPING THE SOCIAL?: Issues in live social research. Journal of Cultural Economy, 6(3), 313-335. https://doi.org/10.1080/17530350.2013.772070

Muehlethaler, C., & Albert, R. (2021). Collecting data on textiles from the internet using web crawling and web scraping tools. Forensic Science International, 110753. https://doi.org/10.1016/j.forsciint.2021.110753

Muñoz Mandujano, M., Hernández Valerio, J. S., González Serrano, S. R., & Pérez Liévana, A. (2018). Web scraping para la recopilación de datos meteorológicos. Revista NTHE, 24, 91-95.

https://www.researchgate.net/publication/336140626_Web_scraping_para_la_recopilacion_de_datos_meteorologicos

Murillo, D., & Saavedra, D. (2017). Web Scraping de los Perfiles y Publicaciones de una Afiliación en Google Scholar utilizando Aplicaciones Web e implementando un Algoritmo en R 4to Congreso Internacional AmITIC 2017, 8.

https://revistas.utp.ac.pa/index.php/memoutp/article/view/1465/2111

PageSpeed Insights. (2021). https://developers.google.com/speed/pagespeed/insights/

Rizaldi, T., & Putranto, H. A. (2017a). Perbandingan Metode Web Scraping Menggunakan CSS Selector dan Xpath Selector. Teknika, 6(1), 43-46. https://doi.org/10.34148/teknika.v6i1.56

Rizaldi, T., & Putranto, H. A. (2017b). Perbandingan Metode Web Scraping Menggunakan CSS Selector dan Xpath Selector. Teknika, 6(1), 43-46. https://doi.org/10.34148/teknika.v6i1.56

Toffler, A. (1974). El «Shock» del futuro. Plaza & Janés.

Ujwal, B. V. S., Gaind, B., Kundu, A., Holla, A., & Rungta, M. (2017). Classification-Based Adaptive Web Scraper. 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA), 125-132. https://doi.org/10.1109/ICMLA.2017.0-168

Ullah, H., Ullah, Z., Maqsood, S., & Hafeez, A. (2018). Web Scraper Revealing Trends of Target Products and New Insights in Online Shopping Websites. International Journal of Advanced Computer Science and Applications, 9(6), 6. https://doi.org/10.14569/IJACSA.2018.090658

Uriarte, J. I., Toro, G. R. R. M. de, & Larrosa, J. M. C. (2020). Web scraping based online consumer price index: The “IPC Online” case. Journal of Economic and Social Measurement, 44(2-3), 141-159. https://doi.org/10.3233/JEM-190464

Vaca, T., & Jácome, A. (2018). Calidad de software del módulo de talento humano del sistema informático de la Universidad Técnica del Norte bajo la norma ISO/IEC 25000.

https://www.researchgate.net/publication/325022337_Calidad_de_software_del_modulo_de_talento_humano_del_sistema_informatico_de_la_Universidad_Tecnica_del_Norte_bajo_la_norma_ISOIEC_25000

Vàllez, M. (2017). Tesis doctoral – Síntesis. Exploración de procedimientos semiautomáticos para el proceso de indexación en el entorno web. HIPERTEXT.NET. Anuario Académico sobre Documentación Digital y Comunicación Interactiva, 15, 91-99. https://doi.org/10.2436/20.8050.01.50

Villarroel Colque, K. (2015). Infoxicación. Revista de Investigación Scientia, 4(1), versión On-line.

http://www.revistasbolivianas.org.bo/scielo.php?pid=S2313-02292015000100006&script=sci_arttext

Zhao, B. (2017). Web Scraping. En L. A. Schintler & C. L. McNeely (Eds.), Encyclopedia of Big Data (pp. 1-3). Springer International Publishing. https://doi.org/10.1007/978-3-319-32001-4_483-1

Indexación de Sitios Web para Optimizar la Búsqueda de Paquetes Turísticos Basado en Web Scraping

Resumen

Descargas

Citas

Contacto principal:

Institución coeditora:

Institución aliada: