Con el desarrollo de las redes sociales, la información textual se ha convertido en un objetivo relevante de investigación, proporcionando información valiosa para estudiar y modelar el comportamiento de las personas. Pero surge la pregunta, ¿A partir de información textual podemos identificar una persona? Diferentes autores han mostrado la relación entre el estilo de escritura y los estados mentales, sociales e incluso físicos y psicológicos de los autores. Sin embargo, fue hasta hace solo unos años que se ha explorado como estrategia de identificación y se ha adoptado dentro de sistemas de conocimiento de clientes. En este whitepaper, presentamos el potencial y limitaciones del uso de la estilometría, es decir, el estilo lingüístico, como un rasgo biométrico cognitivo para identificar a una persona.
Sin lugar a duda, Internet ha cambiado la forma de comunicación de las personas y magnificó la importancia del contenido textual en nuestras vidas. El abrumador crecimiento de redes sociales, blogs, foros, etc. nos ha facilitado el intercambio de contenido escrito en tiempo real. Este contenido escrito es en general no estructurado (i.e. no sigue una estructura definida permitiéndole al usuario usar todos los elementos del aparato lingüístico y propio de Internet) y constituye un valioso conocimiento sobre comportamientos, opiniones, experiencias e intereses individuales, lo que lo ha convertido en una fuente valiosa para la construcción de sistemas de recomendación, marketing, análisis de tendencias, entre otros.
Las influencias conductuales o socioculturales pueden definir de forma única el uso lingüístico de una persona. Por tanto, las expresiones lingüísticas de sus pensamientos y sentimientos pueden estar vinculadas a su identidad. Esta noción forma la base de la “hipótesis del estiloma humano” [DAEL2013] y dio lugar al nacimiento de la estilometría.
¿La estilometría se puede considerar un rasgo biométrico?
La estilometría es un área de investigación que tiene por objeto identificar características principalmente lingüísticas a partir de palabras, estructuras sintácticas y semánticas que se encuentran en un texto escrito. Estas características suelen ser propias de la persona y pueden definir su estilo lingüístico. Sin embargo, para que dicho estilo pueda ser considerado un rasgo biométrico debe exhibir como mínimo dos propiedades: singularidad y permanencia [JAIN2008]. En otras palabras, se debe garantizar que cada persona exhibe un estilo lingüístico único y este se mantiene estable en el tiempo.
Las primeras investigaciones estilométricas fueron realizadas sobre texto escrito extenso producido por literatos (i.e. novelas, poemas, etc) [JUOLA2006]. Los resultados de los modelos computacionales construidos sugerían que el estilo era único y poco variable en el tiempo. Por ejemplo [SALEH2014] reportó precisiones superiores al 97% usando libros escritos por 10 diferentes autores. Sin embargo, en entornos altamente digitales, la situación es mucho más desafiante debido al número mucho mayor de usuarios, así como muestras de texto mucho más cortas (generalmente obtenidas de redes sociales).
Los resultados reportados en escenarios más actualizados y acordes a nuestra realidad digital han confirmado la correlación negativa entre las variables (i) tamaño del texto y (ii) número de usuarios/autores a identificar, sobre la capacidad de identificación, lo que claramente limita su uso como método de validación de identidad. Conclusiones de investigaciones recientes han mostrado que en escenarios digitales como Twitter: (i) no todos los usuarios exhiben rasgos lingüísticos únicos, (ii) algunos usuarios exhibieron rasgos muy genéricos que les permitían ser fácilmente suplantados o realizar suplantación a otros, y (iii) cuando se evaluó consistencia en un periodo de 24 meses, se observó que muy pocos usuarios mostraron consistencia estilística [KALA2018].
Si bien el estilo lingüístico no puede identificar de forma única a una persona en los escenarios digitales actuales, si es posible inferir información sobre su identidad, como la edad, el género y su idioma nativo. La identificación de estos rasgos se suele denominar biométrica blanda o perfilamiento demográfico. La información biométrica blanda ayuda a delimitar los candidatos, especialmente en escenarios de identificación a gran escala. Esta información de perfilamiento demográfico, además, puede ser muy útil en diferentes aplicaciones como análisis forense, seguridad, decisiones inteligentes de marketing, etc.
Las investigaciones realizadas en Twitter muestran precisiones superiores al 80% en la detección del género a partir de tweets en Inglés, Portugués, y Español y usando al menos 100 tweets por autor. La identificación del idioma y su variedad (i.e. lugar de procedencia) presenta incluso mejores resultados. También existen investigaciones enfocadas en identificar el nivel de educación y aspectos de personalidad con resultados prometedores [QUERCIA2011].
¿Se puede utilizar la estilometría con otros rasgos biométricos para la autenticación?
Como se estableció en la sección anterior el análisis de estilometría no se puede considera un rasgo biométrico y por lo tanto no se puede usar como factor de identificación de una persona. A pesar de esto se puede combinar con otras estrategias relacionadas a la producción de textos en ambientes digitales como el reconocimiento de la dinámica de pulsación de teclas (más conocido por su nombre en inglés keystroke dynamics).
El reconocimiento de pulsaciones de teclas ha sido definido como el proceso de medir y evaluar un ritmo de escritura en dispositivos digitales como teclados de computadora, teléfonos móviles y en general dispositivos de pantalla táctil. La dinámica de pulsaciones de teclas utiliza estadísticas de tiempos de espera/transición de pulsaciones y liberaciones de teclas. Estas estadísticas representan patrones de escritura y se ha mostrado con porcentajes altos de confianza que son exclusivos de la persona y difíciles de imitar si se evalúan sobre hardware constante (es decir sobre el teclado de un mismo dispositivo) [THE2013]. Dado que la dinámica de las pulsaciones es propensa a verse afectada por cambios de hardware se suele usar en combinación con la estilometría como factor de identificación de una persona.
La estilometría junto con la dinámica de pulsaciones de teclas, supera a la capacidad de identificación de estas estrategias de manera independiente. Los beneficios de la estrategia combinada se pueden resumir en:
- La implementación es simple y económica. La mayoría de los dispositivos digitales poseen alguna forma de teclado.
- La dinámica de las pulsaciones de teclas del usuario no se puede perder, robar ni olvidar, el texto resultante es usado para el análisis estilométrico.
- En textos cortos la dinámica es muy difícil de falsificar, en textos largos la estilometría lo complementa.
- Tanto los falsos positivos como los falsos negativos tienden a ser bajos.
Se puede afirmar que la mayor limitación está relacionada por individuos con muy pocas muestras (i.e. muy pocos ejemplos de texto escrito con la dinámica de pulsaciones capturada) [CAN2014]. Lo anterior, sin embargo, es una limitación de la mayoría de los métodos de identificación biométrica existentes.
Conclusión
La estilometría es un área de investigación que define un conjunto de características estilométricas, a saber, características basadas en palabras, caracteres, sintácticas, estructurales y semánticas para diferenciar los estilos de escritura del autor. Estas características no pueden considerarse un rasgo biométrico en los entornos digitales actuales con millones de usuarios y donde usualmente las publicaciones son textos cortos, por lo tanto, su uso está limitado a escenarios de pequeña escala. A pesar de sus limitaciones como estrategia de identificación de identidad, la estilometría ha sido exitosa para identificar características demográficas, extendiendo su uso a otras áreas como marketing, o sistemas de recomendación. Finalmente, en conjunto con la dinámica de tecleo se convierte en un método lo suficientemente robusto para ser usado como estrategia de identificación. Las ventajas de este método combinado son su implementación simple y económica en la medida que la mayoría (si no todos) los dispositivos digitales poseen algún tipo de teclado.
Rubén Manrique