Volver

Inmersión de la visión por computador en el mundo actual

La era digital se caracteriza por el bombardeo constante de información; con el incremento de tecnologías como el internet de las cosas (IoT), smartphones, cámaras, satélites, drones, entre otros, es posible tener a disposición todo tipo de datos; donde herramientas como el aprendizaje de máquina o la visión por computador son capaces de adquirirlos, analizarlos, procesarlos e interpretarlos. Actualmente es posible encontrar este tipo de algoritmos integrados en la cotidianidad con el fin de mejorar la calidad de vida de las personas.

La visión por computador es una rama de la inteligencia artificial que busca realizar un análisis del mundo por medio de imágenes; de ellas es posible extraer datos visuales para interpretar el ambiente o la situación y realizar una posterior toma de decisiones. Esta disciplina ha tenido un gran auge en los últimos años gracias al desarrollo de nuevas tecnologías que permiten adquirir imágenes y publicar en internet una enorme cantidad de información diariamente. Según el reporte anual de tendencias en internet de Mary Meekers [1] más de un trillón de imágenes son compartidas en la red anualmente, siendo los principales canales aplicaciones como Snapchat, Instagram, Whatsapp y Facebook. En muchas ocasiones es probable encontrar algoritmos de visión por computador en tareas diarias que seguramente no habíamos notado, a continuación, se presentan algunas aplicaciones en diferentes sectores. 

En redes sociales

Una de las más grandes limitaciones del uso de la visión por computador es que para generar modelos con un buen desempeño deben ser entrenados con una gran cantidad de datos que necesitan de una costosa supervisión humana para determinar la relación entre el contenido y el significado. Las redes sociales han sido de gran ayuda, teniendo en cuenta que su uso se incrementa diariamente y cada vez existen más propuestas y más usuarios vinculados en este tipo de aplicaciones para socializar, colaborar, comunicar y compartir contenido. El resultado de este proceso es la generación de grandes masas de información donde el mismo usuario se encarga de etiquetar y generar anotaciones sobre el mismo [2]. Un ejemplo claro, es el sistema de detección de identidad de Facebook: Cuando se comparte una foto entre amigos, la aplicación sugiere etiquetas para las personas que aparecen. Igualmente el sistema de hashtags de diversas redes sociales que incita al usuario a que describa la publicación con el uso de un numeral (#) seguido por la etiqueta. Lo anterior no debe generar alarma en el público, seguramente esta forma de uso de información se encuentra en todas las políticas de tratamiento de datos de las empresas cuando nos vinculamos y creamos un perfil voluntariamente.  Además, han permitido que dichas empresas generen contenido para nuestro entretenimiento como los filtros de Snapchat o Instagram donde se mejora temas de iluminación, contraste, cambios de color o se realiza detección del rostro, ojos, boca, entre otros, para colocar diferentes tipos de adornos; y en temas de investigación, por ejemplo, uno de los algoritmos más populares de segmentación por instancias conocido como Mask R-CNN [3] (ver Fig. 1.) desarrollado por investigadores de Facebook ha permitido avances tecnológicos en temas como la conducción automática de vehículos [4] o la detección de nódulos pulmonares para dar seguimiento a la progresión del cáncer [5]

Resultados del algoritmo de segmentación Mask-RCNN

Resultados del algoritmo de segmentación Mask-RCN [3]

En interacciones usuario-máquina

Actualmente, la herramienta de búsqueda de Google es ampliamente utilizada alrededor del mundo, de acuerdo con el mismo buscador, esta plataforma recibe cerca de 3.5 billones de consultas al día; de igual forma esta empresa se ha diversificado en diferentes áreas de desarrollo e investigación. La herramienta de comprensión de texto analiza imágenes para detectar caracteres en más de 50 idiomas deferentes, lo que además permite realizar una traducción de forma casi instantánea. Adicionalmente, su equipo de investigación tiene diversas publicaciones en las conferencias del medio, dónde se pueden destacar FaceNet [6], una red que extrae características del rostro con el fin de mejorar la validación facial, o el sistema de diagnóstico de enfermedades de la piel [7], el cual distingue entre 26 condiciones comunes que afectan este órgano. 

En temas de reconocimiento facial, como se ha mencionado en artículos anteriores, los sistemas de antispoofing o el estudio del sesgo demográfico en este tipo de aplicaciones son de alta importancia con el fin de asegurar transacciones en diferentes sectores como el bancario, plataformas de pago o sistemas de acceso. 

Entre otras aplicaciones, también es posible destacar los algoritmos de sugerencias de productos. En el caso de las plataformas de venta online, con el fin de evitar el uso excesivo de filtros de texto para encontrar los productos deseados, el usuario simplemente selecciona una imagen que contenga una muestra del producto que desea adquirir y el sistema es el encargado de generar sugerencias. Este método es utilizado también en Pinterest [8] donde se han eliminado los filtros manuales de texto y el usuario puede seleccionar cualquier imagen para que el sistema sugiera ítems similares a los presentados. 

En el análisis de imágenes médicas

El número de aplicaciones e investigaciones en medicina son innumerables teniendo en cuenta que cerca del 90% de los datos se constituyen en imágenes [9]. Incluso, este tipo de tecnología ha sido de suma importancia en la contingencia actual debido al COVID 19 que vivimos hoy en día. Este tipo de análisis permiten diagnosticar, localizar, segmentar, alinear espacialmente o mejorar la visualización para garantizar la salud del paciente. MICCAI, una de las más grandes conferencias de imágenes médicas presenta continuamente artículos de investigación con los más recientes avances en este tipo de tecnología.  Entre los progresos presentados el año pasado se destaca el reconocimiento de anormalidades en la retina [10] donde se detectan 36 tipos diferentes de enfermedades, teniendo en cuenta que una persona puede presentar más de una; el estudio para mejorar la segmentación en imágenes histopatológicas indispensable al momento de realizar el diagnóstico del cáncer [11]; o el análisis de fotos de placenta para determinar el riesgo de salud tanto de la madre como del bebé después de nacer [12]. 

En la agricultura

En un país como Colombia donde la agricultura representa la cuarta actividad productiva más dinámica del país en 2019 [13] es importante que se generen y difundan herramientas para la tecnificación del campo, las cuales, brindarían instrumentos para obtener productos de alta calidad, reducir pérdidas y mejorar los procesos productivos. Entre las aplicaciones enfocadas a la visión por computador se puede apreciar el reconocimiento o clasificación de hojas, frutos y vegetales, así como los de detección de defectos y enfermedades, que afectan continuamente los cultivos y cuya identificación temprana permite al agricultor tomar medidas de mitigación y eliminación del riesgo [14]. 

Conclusiones 

La visión por computador se encuentra en la vida de las personas y su correcto uso permite que diferentes desarrollos e investigaciones sean adaptadas a sus actividades diarias, con el fin de poder ofrecerles una mejor calidad de vida. En este artículo se mencionaron diversas aplicaciones donde la utilización de esta tecnología se ve reflejada en campos del entretenimiento, de hábitos de consumo, de seguridad digital, científicos y vitales que pueden verse inmersos en las redes sociales, las interacciones humano máquina, la medicina y la agricultura, entre otros.  Se observa que la investigación en el campo está en crecimiento y que constantemente va superando los obstáculos para obtener un mejor desarrollo.   

Maria Ximena Bastidas Rodríguez.

Bibliografía

[1]       B. Formhals, «6 Insights for Visual Culture from Mary Meeker’s 2019 Internet Trends Report,» https:/www.linkedin.com/pulse/6-insights-visual-culture-from-mary-meekers-2019-trends-formhals/, 2019.

[2]       E. Chatzilari, S. Nikolopoulos, I. Patras y I. Kompatsiaris, «Enhancing Computer Vision Using the Collective Intelligence of Social Media,» New Directions in Web Data Management 1, 2011.

[3]       K. He, G. Gkioxari, P. Dollar y R. Girshick, «Mask R-CNN,» arXiv:1703.06870, 2017.

[4]       A. A. L. 3. C. I. U. B. f. A. Driving, «Xibin Song; Peng Wang; Dingfu Zhou; Rui Zhu; Chenye Guan; Yuchao Dai; Hao Su; Hongdong Li; Ruigang Yang,» CVPR, 2019.

[5]       E. Kopelowitz y G. Engelhard, «Lung Nodules Detection and Segmentation Using 3D Mask-RCNN,» arXiv:1907.07676, 2019.

[6]       F. Schroff, D. Kalenichenko y J. Philbin, «FaceNet: A Unified Embedding for Face Recognition and Clustering,» CVPR , 2015.

[7]       Y. Liu, A. Jain, C. Eng, D. Way y D. D. Coz, «A deep learning system for differential diagnosis of skin diseases,» Nature Medicine, 2020.

[8]       E. Li, E. Kim, A. Zhai, J. Beal y K. Gu, «Bootstrapping Complete The Look at Pinterest,» Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020.

[9]       M. Miliard, «IBM Watson Health, Merge launch new personalized imaging tools at RSNA,» https://www.healthcareitnews.com/news/ibm-watson-health-merge-launch-new-personalized-imaging-tools-rsna, 2016.

[10]    X. Wang, L. J. X. Zhao y Z. Ge, «Retinal Abnormalities Recognition Using Regional Multitask Learning,» MICCAI, 2019.

[11]    H. Qu, Z. Yan, G. M. Riedlinger, S. De y D. N. Metaxas, «Improving Nuclei/Gland Instance Segmentation in Histopathology Images by Full Resolution Neural Network and Spatial Constrained Loss,» MICCAI, 2019.

[12]    Y. Chen, C. Wu, Z. Zhang, J. A. Goldstein, A. D. Gernand y J. Z. Wang, «PlacentaNet: Automatic Morphological Characterization of Placenta Photos with Deep Learning,» MICCAI, 2019.

[13]    Redacción Economía El Nuevo Siglo, «El agro se posiciona como el cuarto sector productivo,» El Nuevo Siglo, 2020.

[14]    M. K. Tripathi y D. D. Maktedar, «A role of computer vision in fruits and vegetablesamong various horticulture products of agriculturefields: A survey,» Information Processing in Agriculture, 2020.

1 comment

  • Buen artículo, se debe profundizar en cada una de las actividades enunciadas

Comments are closed.