El National Institute of Standards and Technology, (NIST) es una institución estadounidense encargada de velar por la innovación y la competitividad industrial. Tiene laboratorios encargados de programas de todo tipo, desde ciencias básicas hasta ingeniería, y realiza evaluaciones periódicas de tecnologías e innovaciones que son punteras.
¿En qué se diferencia el NIST de la ISO?
El NIST participa en la elaboración de estándares internacionales siendo miembro activo en la Organización Internacional de Normalización, ISO por sus siglas en inglés (International Organization of Standardization). Muchas de las evaluaciones realizadas por el NIST sirven para establecer los criterios técnicos que luego se trasladan a muchos estándares de ISO.
¿Qué papel juega en NIST en el campo de la biometría y la verificación de la identidad?
El NIST lleva midiendo y evaluando el rendimiento de los sistemas biométricos desde hace más de 60 años, desde huellas hasta caras, pasando por voz, iris, palma de la mano, etc. Estas evaluaciones les han permitido tener un conocimiento único en torno a cuáles son las bondades y los defectos de las diferentes biometrías. También les ha ayudado a establecer bajo qué criterios las tecnologías están listas para su uso masivo en diferentes situaciones, como por ejemplo, el uso de la biometría facial para la verificación de la identidad.
¿Por qué está considerado el NIST como el evaluador de referencia a nivel mundial?
De lo comentado arriba, deducimos que el conocimiento que atesora el NIST al respecto de la biometría es muy grande, lo que le permite definir evaluaciones acertadas y completas. Se une a esto que tiene acceso a recursos federales americanos únicos, y con éstos preparan escenarios de evaluación con datos de operación real. Además, son conjuntos de datos tremendamente grandes, lo que les permite medir el funcionamiento de los sistemas con una precisión del orden de decenas de miles, o incluso del orden de un error por cada millón.
¿Qué tecnologías biométricas evalúa el NIST y en qué aspectos de las mismas se focaliza?
Actualmente, el NIST tiene evaluaciones de biometría facial, voz, huella dactilar, iris y ADN. Dichas evaluaciones se focalizan en escenarios tanto de verificación como de identificación, entendiendo como verificación la confirmación o negación de una identidad mediante la comparación de dos factores biométricos entre sí (ej. dos imágenes de caras o dos voces), o comparación 1:1. Y como identificación, el proceso de descubrir una identidad entre una colección o conjunto de personas (ej. conjunto de imágenes o voces), también conocido como comparación 1:N.
Concretamente, las evaluaciones de biometría facial se centran en la métrica denominada “False Non Match Rate” (FNMR o tasa de falsos negativos en verificación) para el 1:1 o “False Negative Identification Rate” (FNIR o tasa de falsos negativos en identificación) para el 1:N, siendo esta métrica la que mide el porcentaje de veces que una operación con una imagen “fidedigna” no logra verificarse o identificarse positivamente, es decir las veces que para una persona conocida el sistema da un resultado negativo, cuando debería ser positivo.
La otra métrica relevante en el ámbito de la biometría facial es el “False Match Rate” (FMR o tasa de falsos positivos en verificación) para el 1:1 o “False Positive Identification Rate” (FPIR o tasa de falsos positivos en identificación) para el 1:N, midiendo aquí el porcentaje de veces que una operación con una imagen de un “impostor” logra verificarse o identificarse positivamente, es decir, las veces que para una persona que debiera de ser desconocida el sistema da una respuesta positiva. Estas métricas permiten conocer la conveniencia de uso del sistema (funnel) y la seguridad del mismo (robustez ante impostores).
En cambio, cuando hablamos de las evaluaciones de biometría de voz, también conocido como Speaker Recognition Evaluation (SRE), y centrándonos en las últimas evaluaciones (SRE19, SRE20 y SRE 21) la métrica que se está utilizando es una “Primary Metric”, que consiste en un modelo de coste básico para medir el rendimiento de verificación del hablante. Esta métrica se define como una suma ponderada de probabilidades de “False Rejection Rate” (FRR o tasa de falso rechazo) y de “False Accept Rate” (FAR o tasa de falsa aceptación), dando más peso a esta última en la ponderación (se le da un peso 30 veces superior al FAR que al FRR).
Dicha ponderación es impuesta por el NIST, y la misma puede diferir de los intereses de cada caso de uso, por lo que a la hora de comparar sistemas en el ámbito comercial se suele preferir utilizar el “Equal Error Rate” (EER o tasa de error igual). El EER es el lugar de la curva donde la tasa de falsa aceptación y de falso rechazo son iguales.
¿Qué bases de datos utiliza el NIST para evaluar los motores biométricos?
El NIST evalúa los motores biométricos sobre diferentes bases de datos que se asemejan a diferentes casos de producción.
Fijándonos exclusivamente en las evaluaciones de biometría facial, las bases de datos son conjuntos de fotografías de caras que sirven para medir el comportamiento de los sistemas en las diferentes evaluaciones. En el NIST se utilizan bases de datos de diferente tipo, como por ejemplo:
- Visa – Fotografías tomadas cumpliendo con los estándares ISO/ICAO al respecto de fotografía facial. Sería lo correspondiente a fotografías que se usan para pasaportes o documentos de identidad.
- Mugshot – Son fotografías tomadas siguiendo de forma menos estricta los estándares de Visa. Habitualmente son fotografías tomadas por la policía durante el registro de convictos en las penitenciarías.
- Wild – Fotografías sin ningún tipo de control, pudiendo provenir de artículos de noticias, periódicos, eventos deportivos, etc.
- Border – Fotografías tomadas en instalaciones de control de fronteras, típicamente en aeropuertos.
Fuente: Imagen tomada del informe FRVT 1:1 del NIST (https://pages.nist.gov/frvt/reports/11/frvt_11_report.pdf)
En cuanto a la biometría de voz, la filosofía seguida es diferente. En lugar de tener unos conjuntos de datos claramente definidos con los que el propio NIST evalúa los distintos motores de biometría facial, la organización ofrece primero un conjunto de datos solo para entrenamiento de los algoritmos, seguidamente entrega otro dataset pequeño para perfeccionamiento o finetunning y finalmente reparte el conjunto de datos de evaluación con muchos más audios.
A su vez, dentro de las evaluaciones de voz del NIST, cada año se cambia el dataset de entrenamiento (cerrado) y de evaluación. Suelen cambiar el idioma, canal, número de locutores e incluso bases de datos para biometría multimodal.
¿Qué tipos de evaluaciones existen y con qué frecuencia se llevan a cabo?
Respecto a la biometría facial, existe el Face Recognition Vendor Test (FRVT) que es un compendio de evaluaciones continua, sin fecha de finalización:
- FRVT 1:1 – Evalúa sistemas de verificación facial y se utilizan protocolos de evaluación donde se comparan parejas de imágenes etiquetadas como comparaciones “fidedignas” (de la misma persona) o de “impostor” (caras de diferentes personas).
- FRVT 1:N – Evalúa sistemas de identificación facial y se utilizan protocolos donde existe una base de datos de personas conocidas y se hacen búsquedas de personas que se sabe que están en dicha base de datos (búsqueda con resultado esperado positivo), y también búsquedas de personas que se sabe que no están (búsquedas con resultado esperado negativo)
- FRVT Quality – Evalúa algoritmos para medir la calidad de la fotografía tomada a una cara. A día de hoy, se mide la calidad como un predictor de la capacidad de un sistema biométrico de dar una respuesta correcta con una imagen. Por lo tanto, los procedimientos empleados en esta evaluación miden la correlación que existe entre el predictor de calidad de la imagen y la precisión que tiene el sistema con dichas imágenes.
- FRVT Morph – Evalúa la capacidad de detectar ataques de tipo Morphing. En este tipo de ataque el impostor hace una mezcla de dos fotografías, una suya y otra de una persona diferente, logrando que la policía le imprima un pasaporte o documento de identidad usando esa foto mezclada. Luego dicho pasaporte lo utiliza para hacerse pasar por la otra persona, por ejemplo en el paso por fronteras, aeropuertos, etc.
- FRVT PAD – Evalúa ataques de presentación (suplantación de identidad). Los ataques de presentación evaluados consisten en mostrar artefactos físicos (máscaras de papel, fotografías en pantallas, máscaras de látex realistas…) con la intención de hacer pasar dicho artefacto como una muestra real capturada en vivo de la persona a la que quieres reemplazar. También evalúan situaciones de ocultación de la identidad, en las cuales el impostor no busca parecerse a nadie, pero sí que al enrolarse en el sistema la cara capturada no pueda ser relacionada con su cara real.
Hay otras evaluaciones como: FRVT Twins Demonstration, FRVT Face Mask Effects, FRVT Demographic Effects, FRVT Paperless Travel. Pero estas o no han llegado a arrancarse o no han sido repetidas en el tiempo, con lo que no son tan relevantes como las anteriores.
Respecto a la biometría de voz, el objetivo del Speaker Recognition Evaluation, SRE, del NIST no es tanto comparar motores biométricos como el de contribuir a la dirección de los esfuerzos de investigación y la calibración de las capacidades técnicas del reconocimiento de hablantes independientes del texto. En definitiva, las evaluaciones de voz siempre han tenido como foco impulsar la tecnología, medir el estado del arte y encontrar los enfoques algorítmicos más prometedores.
Los challenges del SRE (anuales o bianuales) cambian con cada edición, por lo que no es posible enunciarlos en este post sin quedarse obsoleto. Al comienzo de las evaluaciones, el NIST anuncia el plan de evaluación oficial, estableciendo claramente las tareas, los datos, la métrica de desempeño y las reglas de participación. La evaluación culmina con un taller de seguimiento, donde el NIST informa los resultados oficiales junto con los análisis de desempeño, y los investigadores comparten y discuten sus hallazgos con el NIST y entre ellos.
¿Qué requisitos hay que cumplir para poder presentar una solución a una evaluación del NIST?
En este apartado también existen diferencias entre las evaluaciones de motores biométricos faciales y de voz. Si nos enfocamos en los primeros, el FRVT pone como requisito enviar un sistema que pueda ser desplegado en una aplicación comercial, además de que el sistema debe ser compilado con una API (en C++) que el NIST ofrece. El sistema se les entrega a los organizadores de forma confidencial y gratuita, siendo al mismo tiempo gratuita la participación en la evaluación. Es decir, en el caso de la biometría facial, los participantes entregan una versión de sus algoritmos y el NIST los evalúa con datos que no comparte.
Al contrario, si hablamos del SRE, la organización envía los datos de entrenamiento y evaluación y los participantes han de enviar el resultado de las comparaciones que se realicen, de tal manera que solamente NIST puede evaluar el resultado. Por tanto, aquí los participantes pueden poner en juego toda la capacidad y recursos que estimen convenientes para obtener el mejor resultado posible (fusión de diferentes sistemas, calibraciones, etc.) ya que, entre otras cosas, no tienen que enviar el algoritmo como tal al NIST.
La participación en el SRE está abierta a todos aquellos que encuentren interés en la evaluación y estén en condiciones de cumplir con las reglas de evaluación establecidas en el plan de evaluación. Aunque tampoco hay costo para participar en SRE21 (es decir, la evaluación, los datos, la plataforma web y el software de puntuación estarán disponibles de forma gratuita), el NIST exige que los equipos participantes estén representados en el taller posterior a la evaluación.
Cabe insistir en que a diferencia de la biometría facial, en la evaluación de voz, el objetivo no es comparar soluciones comerciales (no es “vendor test”), sino obtener una percepción en cuanto al estado del arte y promover su evolución dentro de la comunidad científica. Por esta razón, la organización del SRE permite la anonimización de los participantes (que generalmente están formados por equipos de diferente índole como universidades, laboratorios e institutos tecnológicos, empresas, etc.), así como establece fuertes restricciones en cuanto al uso de los resultados obtenidos por parte de la industria.
¿Por qué es importante que los diferentes proveedores de tecnología biométrica estén evaluados por el NIST?
Actualmente, existe un vacío normativo al respecto de cómo asegurar técnicamente que los sistemas biométricos se comportan como se espera. Hay certificaciones que permiten testar sistemas, como la ISO-30107 redactada para evaluar la capacidad de detectar ataques de presentación en el ámbito de la biometría facial. Pero ninguna de estas normas da un nivel de certificación vinculante, sino que sólo sirven para dar conformidad a una metodología de evaluación.
Como consecuencia de esta situación, en Europa, e internacionalmente también, se están desarrollando normas que permitan cubrir este hueco. Y es aquí en donde el NIST está jugando un papel muy importante para cubrir el vacío existente, ofreciendo una forma única de comparar a los distintos competidores bajo unas mismas condiciones.
¿Cuáles son los retos que abordará el NIST con respecto al futuro de la biometría?
El NIST está hablando mucho de tres problemas principales, cuando nos referimos a motores de biometría facial:
- Diferenciales demográficos. Es lo que se conoce vulgarmente como “sesgos”, y es de esperar que sigan haciendo hincapié en analizar el estado del arte en cuanto a estos diferenciales y comparar en el tiempo la evolución de los sistemas al respecto de este tema.
- Biometría con gemelos. Representan alrededor del 4% de la población en USA, con lo que existe un gran interés en mejorar el desempeño de los sistemas biométricos en este sentido. Parece que la tecnología no está todavía lista, pero seguro que el NIST plantea retos de este tipo para que los desarrolladores de tecnología se animen a participar y mostrar el estado real de sus sistemas con gemelos.
- Morphing. NIST ya tiene una evaluación concreta relacionada con este aspecto, pero es de suponer que trabajarán más en este tema, haciendo quizá algún informe especial que permita conocer cómo está evolucionando la tecnología de detección de morphing. Es cierto que, al parecer, la tecnología todavía no está lista para una explotación satisfactoria en producto, pero es un problema importante al que se están enfrentando los estados, sobre todo en el paso de ciudadanos por fronteras entre países.
En lo que respecta al campo de la biometría de voz, en las pasadas ediciones del SRE los retos explorados son el cruce de idioma, donde se deja entrenar al sistema sólo con el idioma (ej. inglés) y se evalúa con idiomas totalmente diferentes (ej. cantones y tagalo en SRE16 o tunecino en SRE18). En la pasada evaluación también se evaluó en cruce de canal, donde se comparaban audios telefónicos con audios extraídos de video, incluso hubo una tarea que evaluaba los sistemas de biometría multimodal usando cara y voz.
Veridas, presente en las evaluaciones del NIST de biometría facial y biometría de voz
En línea con nuestro fiel compromiso con la transparencia y la regulación de las tecnologías biométricas, desde Veridas sometemos periódicamente nuestros motores de biometría facial y biometría de voz a las evaluaciones del NIST. Y lo hacemos porque, a día de hoy, el NIST es la mejor referencia que existe para saber qué sistemas son competitivos y por tanto útiles en producción, y cuáles no alcanzan los resultados esperados.
En Veridas presentamos al NIST solo aquellos motores biométricos que luego entregamos a clientes reales para su uso en producción, evitando posibles ajustes que pudieran estar explotando otros participantes para tener los mejores resultados con sistemas que en realidad nunca llegan a ser comercializados. Y a pesar de ello, en Veridas siempre obtenemos fantásticos resultados en todas las categorías, situándonos entre los mejores motores biométricos del mundo.
Concretamente, y a fecha de noviembre de 2022, Veridas se sitúa en el top 20% de empresas del mundo en las evaluaciones de biometría facial (FVRT 1:1), siendo la 5º mejor empresa europea en este respecto. En cuanto a la biometría de voz, la normativa del NIST nos impide comunicar nuestra posición exacta, aunque cabe indicar Veridas está considerada entre los mejores sistemas del mundo de manera muy destacada.
Gracias a esta apuesta continua por la excelencia, ya contamos con clientes de primer nivel en más de 25 países. Clientes que apostaron por tecnología certificada, transparente y completamente automatizada. Tecnología made in Veridas.
Paco Zamora
Experto en Biometría facial
Santiago Prieto
Experto en Biometría de voz
Ramón Fernandez
Experto en Biometría