Volver

El atributo digital como elemento de identificación

El rastro digital ha sido utilizado como mecanismo para identificar a los usuarios, enviar publicidad personalizada, optimizar la ejecución de páginas web e incluso para fines estadísticos. Adicionalmente, se presta para ser utilizado como un elemento dentro del proceso de identificación de los usuarios digitales. En este documento exploramos algunos de los mecanismos utilizados para aprovechar el rastro digital en procesos de identificación, así como los riesgos que pueden presentar.  

Debido a la estrecha relación ente las personas y sus dispositivos digitales, la identificación de un dispositivo puede ser muy útil para tareas en las que es necesario identificar al usuario, como puede ser para enviar publicidad personalizada, o como factor de autenticación en servicios sensibles como la banca digital o servicios médicos. La identificación de un dispositivo, o identificación por rastro digital, se viene realizando desde hace más de una década con diferentes grados de éxito. En particular, se pueden establecer dos grandes categorías para esta identificación: Identificación por rastro digital de dispositivo e identificación por navegación web.  

La identificación por rastro digital de dispositivo se centra en el dispositivo desde el cual se accede a internet, como puede ser una Tablet, un computador personal o un teléfono móvil. En particular, este último es el más interesante debido a la alta penetración de la telefonía móvil ( se calcula que sólo en América Latina había 343 millones de usuarios de internet móvil en 2019 [GSM2020]). Es decir, estar en capacidad de identificar a un usuario de un teléfono móvil permite identificar a más de la mitad de la población de la región. 

Por otro lado, la identificación por navegación web es la más utilizada por diferentes servicios web con el objetivo de saber cuándo un usuario regresa a su página web sin necesidad de depender de las cookies [RID2020], que pueden ser bloqueadas por el navegador o eliminadas por el usuario. Este tipo de identificación aprovecha el intercambio de información que se realiza cuando se quiere acceder a una página web, lo cual se usa por ejemplo para optimizar la presentación de estas en dispositivos diferentes.  

La utilización de estos métodos no es excluyente, y es de gran utilidad en procesos donde se busca garantizar que quien accede a un servicio es quien dice ser, como lo son los servicios bancarios. Es decir, al establecer que el usuario no solamente presenta las credenciales de autenticación ordinarias, como puede ser un nombre de usuario y una contraseña, una foto para biometría facial o un pin, sino que además lo hace desde un dispositivo conocido, se eleva el nivel de confianza en la transacción, lo cual promueve una experiencia de usuario mas suave y un nivel de seguridad mayor para el ecosistema digital.  Sin embargo, su utilización indiscriminada puede afectar la privacidad de los usuarios, sobre todo en páginas donde se recopila esta información y se comparte con terceros sin darle a conocer este proceso a los usuarios. A continuación hablaremos de los dos tipos de identificación y luego daremos a conocer algunos riesgos asociados a estos procesos. 

Rastro digital de dispositivos 

Un principio fundamental en el proceso de identificación y que por lo tanto también afecta la identificación por rastro digital, es que solo por medio de la combinación de atributos es posible identificar con precisión a una persona o dispositivo. Dentro de los elementos que podemos considerar en un dispositivo están sus características de hardware, las cuales nos pueden permitir por ejemplo establecer que un teléfono es un iphone por el tipo de procesador que usa, y no un Samsung u otra marca. También, es posible identificar el dispositivo por el software que tiene instalado. El ejemplo inmediato es el mencionado anteriormente, donde podemos identificar fácilmente si el sistema operativo es Android o iOS. Adicionalmente, los dispositivos móviles cuentan con sensores que miden diferentes variables de los usuarios, como la forma de caminar o de teclear. Si bien estas mediciones pueden ayudar al proceso de identificación, se pueden categorizar como biometría comportamental, y no profundizaremos sobre ella en este documento. 

Un elemento importante en el éxito de un proceso de identificación es que no requiera esfuerzo por parte del usuario. Por ejemplo, en [KHO2018], se busca caracterizar un dispositivo por medio de su implementación del protocolo TCP, el cual se utiliza para conectarse a páginas web, las cuales están basadas en http. En este caso lo único que se requiere es que el usuario se conecte al servicio digital, es decir no existe ninguna carga sobre este. Sin embargo, por medio de esta solución solo se consiguió un 75% de exactitud, lo cual da a entender que se requiere usar otros métodos complementarios. Algunos de estos métodos pueden basarse en las variaciones que tienen los diferentes sensores con los cuales cuenta un dispositivo, como lo son los micrófonos, acelerómetros, giroscopios, GPS, entre otros. Esto sin embargo requiere de una caracterización de diferentes dispositivos lo cual puede resultar engorroso, y como en el caso comentado del TCP, con niveles de exactitud variable.  

Rastro digital web 

La identificación por medio del rastro digital web es la mas común, y desafortunadamente también la que más se utiliza para abusar y violar la privacidad de los usuarios [RID2020]. En [ACA2013], se clasifica la identificación por rastro digital web en 4 categorías: i) basada en Javascript, ii) basada en plugins, iii) basada en extensiones y iv) basada en cabeceras. 

En el caso de la identificación basada en javascript, es posible gracias a la información que se intercambia con el objetivo de optimizar el despliegue de páginas web. En este caso, se aprovechan atributos como la resolución de la pantalla, el idioma, la zona horaria, el grupo de fuentes instaladas, el navegador o el sistema operativo, que en conjunto identifican a un usuario. Debido al éxito de este tipo de identificación, muchas páginas web siguen este procedimiento, guardando la información e incluso vendiéndola sin que el usuario tenga ningún conocimiento. Al contrario de lo que ocurre con las cookies, que pueden ser eliminadas por el usuario, en este caso cada vez que un usuario entre a una página web puede ser identificado como el visitante de otra página web que guarde la misma información. En la identificación basada en plugins, se utilizan las APIs de estos, ya que se les permite ofrecer información adicional sobre el usuario. En [ACA2013] se afirma que por medio de estas APIs se puede obtener información como la versión del kernel del dispositivo, o si el usuario tiene más de una pantalla instalada. En la tercera categoría, se utilizan las extensiones que los usuarios instalan en los navegadores para obtener información del usuario. Paradójicamente, la instalación de algunas extensiones que se utilizan para bloquear publicidad y evitar la identificación de una persona, pueden ser utilizadas como otro atributo de identificación. Finalmente, la evaluación de cabeceras en las comunicaciones, o las direcciones IP pueden ser utilizadas como un elemento de identificación. Sin embargo, esto se puede ver limitado por el uso de proxies o NATs. Dentro de esta categoría se podría incluir el uso del DNS para identificación. En [KLE2019], se propone un método que aprovecha el uso de caché en el proceso de resolución de direcciones para permitir identificar un cliente que entra en una página web del interesado en hacer la identificación. Esto se logra al tener un número alto de IPs asociadas a un dominio, donde cada IP responde de manera diferente al código instalado en el javascript del cliente. Debido a que el navegador guarda las resoluciones de las direcciones para evitar conectarse al servidor DNS frecuentemente, es posible identificar al usuario a medida que navega y se conecta al dominio del ente que busca identificar al usuario. Esto es posible siempre y cuando no se elimine el caché de DNS. 

Como se puede ver, estas técnicas funcionan mejor a medida que más atributos se guardan del dispositivo, y resultan de gran utilidad para procesos de autenticación, donde se busca que los usuarios reales puedan acceder al sistema de una manera fluida, mientras que aquellos sobre los cuales no se tiene suficiente confianza puedan pasar por un proceso más estricto. Por otro lado, algunos atributos son más significativos que otros, pues se comparten con un número más reducido de personas. Adicionalmente, el uso de herramientas que buscan anonimizar al usuario a veces dan lugar a datos contradictorios que terminan por ayudar al proceso de identificación. Esto hace que estas herramientas se utilicen frecuentemente, muchas veces sin que el usuario tenga claro de que forma está siendo identificado. 

Riesgos en el análisis del rastro digital 

Como lo mencionamos en [RID2020], cuando se navega en internet los procesos de identificación no son completamente transparentes, siendo un caso emblemático el uso del recaptcha, el cual acumula información de los usuarios sin ningún tipo de advertencia. Pero no es el único caso, ya que muchas páginas web utilizan identificación basada en javascript, la cual es intercambiada y vendida por actores invisibles para los usuarios. El hecho de que se pueda integrar información de diferentes dominios, hace que sea posible atar la identidad de un usuario que entra a un banco, a una página médica y a un periódico, haciendo que este tipo de información de lugar a inferencias que pueden ser perjudiciales para las personas. Además, el hecho de que el usuario no sea consciente de la información que se está recopilando, hace que sea imposible ejercer su derecho al habeas data.  

Por lo tanto, para que este tipo de herramientas puedan ser utilizadas de manera exitosa, es necesario que el usuario conozca qué tipo de información se está recolectando, y qué uso se le está dando. De otra forma, la percepción sobre este tipo de herramientas, que como hemos mencionado pueden ser muy útiles para reducir el fraude en el mundo digital, puede hacer que sean imprácticas y rechazadas por la población en general. 

Conclusiones 

La identificación por medio del rastro digital tiene ventajas muy interesantes para las transacciones digitales pues pueden ser utilizadas como otro factor de identificación que aseguren los servicios digitales, al tiempo que limitan la carga de autenticación en los usuarios sobre los cuales existe un alto grado de confianza. El hecho de que las personas utilicen los mismos dispositivos para conectarse a servicios digitales, y la repetición de patrones pueden ayudar a mejorar la experiencia de usuario en los procesos de autenticación. Sin embargo, el uso de estas herramientas debe estar atado a una buena comunicación con los usuarios, de tal manera que haya claridad sobre qué se hace con su información, con quién se comparte, y así mismo se permita su acceso, modificación o eliminación.  

Diego Pacheco-Páramo 

Bibliografía 

[GSM2020] La economía mócil en América Latina 2020. GSM Association

[RID2020] Privacidad y navegación por internet. D. Pacheco-Paramo, 2020. ReconoSER ID. https://reconoserid.com/privacidad-y-navegacion-por-internet/ 

[KHO2018] Device Fingerprinting for Authentication. Z. Khodzaev et al. ELECO 2018. 

[ACA2013] FPDetective: Dusting the Web for Fingerprinters. G. Acar et al. 2013. CCS’13, November 4–8, 2013 

[KLE2019] DNS Cache-Based User Tracking. A. Klein and B. Pinkas.  Network and Distributed Systems Security (NDSS) Symposium 2019 24-27 February 2019, San Diego, CA, USA