Automatic Speaker Recognition systems show interesting properties, such as speed of processing or repeatability of results, in contrast to speaker recognition by humans. But they will be usable just if they are reliable. Testability, or the ability to extensively evaluate the goodness of the speaker detector decisions, becomes then critical. In the last 20 years, the US National Institute of Standards and Technology (NIST) has organized, providing the proper speech data and evaluation protocols, a series of text-independent Speaker Recognition Evaluations (SRE). Those evaluations have become not just a periodical benchmark test, but also a meeting point of a collaborative community of scientists that have been deeply involved in the cycle of evaluations, allowing tremendous progress in a specially complex task where the speaker information is spread across different information levels (acoustic, prosodic, linguistic…) and is strongly affected by speaker intrinsic and extrinsic variability factors. In this paper, we outline how the evaluations progressively challenged the technology including new speaking conditions and sources of variability, and how the scientific community gave answers to those demands. Finally, NIST SREs will be shown to be not free of inconveniences, and future challenges to speaker recognition assessment will also be discussed. NIST de reconocimiento de locutor (1996NIST de reconocimiento de locutor ( -2014.-Los sistemas automáticos de reconocimiento de locutor son críticos para la organización, etiquetado, gestión y toma de decisiones sobre grandes bases de datos de voces de diferentes locutores. Con el fin de procesar eficientemente tales cantidades de información de voz, necesitamos sistemas muy rápidos y, al no estar libre de errores, lo suficientemente fiables. Los sistemas actuales son órdenes de magnitud más rápidos que tiempo real, permitiendo tomar decisiones automáticas instantáneas sobre enormes cantidades de conversaciones. Pero tal vez la característica más interesante de un sistema automático es la posibilidad de ser analizado en detalle, ya que su rendimiento y fiabilidad puede ser evaluada de manera ciega sobre cantidades enormes de datos en una gran diversidad de condiciones. En los últimos 20 años, el Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU. ha organizado, proporcionando los datos de voz y protocolos de evaluación adecuada, una serie de evaluaciones de reconocimiento de locutor independiente del texto. Esas evaluaciones se han convertido no sólo en una prueba comparativa periódica, sino también en punto de encuentro de una comunidad colaborativa de científicos que han estado profundamente involucrados en el ciclo de evaluaciones, lo que ha permitido un enorme progreso en una tarea especialmente compleja en la que la información individualizadora del locutor se encuentra dispersa en diferentes niveles de información (acústica, prosódica, lingüística...) y está fuertemente afectada por factores de variabilidad intrínsecos y extrínsecos al ...