La inteligencia artificial ya es una realidad en la vida de las personas al hacer parte de aplicaciones de uso diario, y su impacto solo puede crecer. Los sistemas basados en esta tecnología requieren hacer uso de cantidades importantes de datos para poder aprender y posteriormente generalizar, y así responder ante estímulos no vistos antes. Sin embargo, en muchas ocasiones las bases de datos con las que estos sistemas aprenden no son lo suficientemente representativas. En el caso del reconocimiento facial, se ha visto que las características demográficas de la población con la cual se entrenan los algoritmos tienen un gran efecto en el resultado final, haciendo que estos no funcionen de la misma manera con diferentes poblaciones. En este documento analizamos la importancia de obtener bases de datos que representen de manera adecuada todas las poblaciones en la validación facial y presentamos algunos métodos que sirven para mitigar los efectos que resultan cuando lo anterior es muy difícil de lograr.
En el mundo actual, los algoritmos de inteligencia artificial presentan avances extraordinarios en diferentes campos de acción. Los adelantos tecnológicos permiten que sea posible hablar de sistemas de reconocimiento facial, verificación de identidad, detección de fraudes, entre otros con un alto grado de confianza; Sin embargo, dichos algoritmos varían considerablemente su desempeño dependiendo de las características demográficas de la población.
Actualmente, dichos sistemas se basan en su mayoría en un conjunto de algoritmos denominados ‘aprendizaje profundo’ (Deep Learning en inglés), los cuales tienen la habilidad de obtener información relevante de los datos de entrada del sistema y, a partir de ellos, aprender con el fin de desarrollar la tarea especificada. Es aquí donde los datos con que se entrena el sistema juegan un papel relevante en el resultado final, y dependiendo del muestreo de estos es posible obtener sistemas con mejor o peor desempeño.
De acuerdo con el NIST (National Institute of Standards and Technology) [1], la mayoría de los algoritmos en la industria del reconocimiento facial tienen un peor desempeño en caras no caucásicas, generando por ejemplo más falsos positivos en sistemas de verificación para razas africanas, asiáticas o grupos nativos. Esto es problemático, por ejemplo, en sistemas de seguridad y control, ya que pueden permitir el ingreso a impostores, o en sistemas de diagnóstico de enfermedades donde la información racial juega un papel fundamental. Sin embargo, también resaltan los resultados obtenidos por algoritmos diseñados en países asiáticos donde el desempeño mejora considerablemente entre poblaciones caucásicas y asiáticas, presentando señales importantes que demuestran que si se obtienen bases de datos más diversas es posible generar resultados más equitativos.
Bases de Datos Parciales
Tal como se ha mencionado, los datos de entrenamiento de los sistemas en inteligencia artificial juegan un papel fundamental en el resultado final de los algoritmos. Por lo tanto, es primordial obtener información no sesgada, es decir, un conjunto de datos representativos para cada grupo racial. Sin embargo, lo anterior no es una tarea sencilla, sobre todo cuando se trabaja con subcategorías o razas mixtas, como ocurre en América Latina.
Generalmente, las bases de datos públicas presentan una gran imparcialidad en términos demográficos [2]. Por ejemplo, una de las bases de datos más conocidas en el tema es la denominada ‘Label Faces in the Wild’ que contiene un 83.5 % de las muestras de personas Caucásicas [3]. Para solucionar este inconveniente algunas bases de datos como IJB-A propuesta por NIST, o la propuesta por Escalera et al. [4] de nombre ‘Faces of the World’, buscan tener una representación más diversa en su conjunto de datos.
Es claro que países latinoamericanos como Colombia, cuentan con una riqueza cultural extensa. De acuerdo al reporte del DANE, “Colombia una Nación Multicultural [5]”, según el censo general de 2005, en el país se reconocen tres grupos étnicos: i) Indígena (3,43 % de la población), ii) Afrocolombiana (10,62 % de la población) y iii) Rom o Gitana (0,01 % de la población), mientras que el 85,94 % se cataloga como ‘sin pertenencia étnica’. Es evidente entonces que la mayoría de la población pertenece a razas mixtas resultado de los diferentes procesos migratorios generados en Colombia a partir de la conquista. Por lo anterior, obtener bases de datos con muestras imparciales para el análisis demográfico representa un reto claro, pero de vital importancia para desarrollar sistemas seguros, confiables e incluyentes.
Estrategias de muestreo para combatir bases de datos imparciales
Tal como se mencionó anteriormente, contar con una base de datos imparcial (no todas las clases cuentan con la misma cantidad de imágenes), representa un alto grado de complejidad, por lo tanto, es necesario buscar estrategias con el fin de mitigar el problema de obtener estas bases de datos. Dichas estrategias permitirán que el algoritmo de aprendizaje profundo pueda generalizar ante la presencia de nuevos datos.
Cabe recordar que los algoritmos de aprendizaje profundo no están programados para una tarea específica. Estos corresponden a arquitecturas formadas por tres estructuras básicas: i) capas convolucionales, ii) capas de submuestreo y iii) estructura final, localizadas en arreglos generalmente secuenciales. La primera estructura (capas convolucionales) corresponde a una serie de filtros que se irán enfocando en características más puntuales cada vez que vaya aumentando el número de capas y por ende la profundidad de la red; cada filtro genera un mapa de características en 2D que corresponde a la entrada para la siguiente capa. La segunda estructura (capas de submuestreo), se utilizan para reducir la complejidad de la arquitectura a medida que aumenta el número de filtros en las capas convolucionales; estas consisten en filtros de reducción de la resolución y compresión de las señales de entrada. Posteriormente, la estructura final, busca obtener un descriptor representativo de cada uno de los mapas de características localizados en la última capa de la arquitectura. Esta habilidad de filtrado en la red, le permite obtener rasgos representativos dependientes de las imágenes de entrada y, por ende, aprender de los datos y generalizar ante nuevas entradas.
Existen varias investigaciones que buscan reducir las diferencias en el desempeño geográfico para el reconocimiento facial trabajando con datos desbalanceados. Entre estos es posible destacar, los que utilizan: i) métodos estadísticos, por ejemplo, con el uso de muestreo con pesos fijos, el cual muestrea cada grupo con una probabilidad específica, asignándole un peso fijo a cada grupo; y muestreo con pesos ajustados dinámicamente, estrategia que asigna pesos altos al grupo con peor desempeño, después de algún tiempo de entrenamiento se espera que el desempeño mejore para este grupo y sea otro grupo el que se desempeñe peor que los demás [6]. ii) Síntesis de datos dónde se destacan los trabajos que utilizan redes adversas generativas (GAN por sus siglas en inglés), las cuales emplean arquitecturas de aprendizaje profundo para crear nuevas imágenes a partir de las ya obtenidas [7], y iii) diferentes funciones de costo, por ejemplo, utilizando una función de costo multitarea en la cual no únicamente se clasifique de acuerdo con la identidad racial, pero también teniendo en cuenta otras variables como edad y sexo, las cuales finalmente tendrán una influencia en las características étnicas de las personas [2].
Conclusiones
Teniendo en cuenta que los algoritmos de inteligencia artificial actuales son altamente dependientes de los datos, ya que cuentan con la habilidad de aprender de ellos, se puede ver que aún existe un gran sesgo cuando se trata de hablar de inclusión étnica. La falta de bases de datos públicas parciales en el tema es una limitante al momento de desarrollar algoritmos impactantes. Considerando esta limitante, se han propuesto soluciones que tratan de mitigar el problema utilizando diferentes estrategias de estadísticas, de síntesis de datos, y de multitarea. Este tipo de técnicas son necesarias para el éxito de la implementación de soluciones basadas en el reconocimiento facial.
Maria Ximena Bastidas Rodríguez
Bibliografía
[1] P. G. Hanaoka, M. Ngan y Kayee, «Face Recognition Vendor Test (FRVT),» National Institute of Standards and Technology (NIST), 2019.
[2] A. Das, A. Dantcheva y F. Bremond, «Mitigating Bias in Gender, Age and Ethnicity Classification: a Multi-Task Convolution Neural Network Approach,» The European Conference on Computer Vision ECCV workshop papers, 2018.
[3] H. Han y A. K. Jain, «Age, Gender and Race Estimation from Unconstrained Face Images,» MSU Technical Repor, 2014.
[4] S. Escalera, T. Torres, B. M. Martinez, X. Bar´o, J. Escalante, H. Guyon, I. Tzimiropoulos, G. Corneou, C. Oliu, M. A. Bagheri. y e. al, « Chalearn looking at people and faces of the world: Face analysis workshop and challenge,» Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016.
[5] E. R. Morales, P. J. F. Ayala, H. G. Mejía, C. S. Ríos y M. P. Gómez, «COLOMBIA UNA NACIÓN MULTICULTURAL,» DIRECCIÓN DE CENSOS Y DEMOGRAFÍA, https://www.dane.gov.co/files/censo2005/etnia/sys/colombia_nacion.pdf, 2007.
[6] M. Bruveris, P. Mortazavian, J. Gietema y M. Mahadevan, «Reducing Geographic Performance Differentials for Face Recognition,» WACV workshop, 2020.
[7] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville y Y. Bengio, «Generative Adversarial Networks,» arXiv:1406.2661, 2014.
3 comments
El desarrollo de algoritmos basados en el principio de que todo es cero y unos, como elemento fundamental de un bit, permitirá mejorar esa identificación de rostros tan disímiles.
El artículo es tan interesante, que sin ser experta en el tema de inteligencia artificial, como lectora, sentí como Ma. Ximena nos envuelve en lo fascinate que se siente entrar en esa magia de saber que los investigadores que están logrando esos avances tecnológicos al identificar rostros de todas las culturas y etnias, para evitar fraudes y robos y muchio más, puedan alcanzar metas insospechables y sean incansables en buscar cada vez más nuevos desarrollos a través del conocimiento y la investigación.
Para los que nacimos en los 70s es grandioso ver como los aparatos electrónicos se han ido posicionando en el comportamiento de las personas y de las familias, ya no es raro ver a un gran número de individuos inmersos en cualquier dispositivo que permite reconocer su identidad como su comportamiento ante la vida y la comunidad; los avances en reconocimiento facial, en mi opinión, nos quitan la privacidad y el mal manejo de esa información puede influir negativamente; dado el caso que esa información sea mal interpretada.
Comments are closed.