En este artículo proponemos un método que permite mejorar la clasificación de imágenes en conjuntos de datos en los que la imagen contiene un único objeto. Para ello, consideramos los mapas de prominencia como si se trataran de mapas topográficos y filtramos las características del fondo de la imagen mejorando de esta forma la codificación que realiza sobre la imagen completa un modelo clásico basado en Bag of Visual Words (BoVW). En primer lugar, evaluamos seis conocidos algoritmos para la generación de mapas de prominencia y seleccionamos los métodos de GBVS y SIM al determinar que son los que retienen la mayor parte de la información del objeto. Utilizando la información de dichos mapas de prominencia eliminamos los descriptores SIFT extraídos de forma densa pertenecientes al fondo mediante el filtrado de características en base a imágenes binarias obtenidas a diversos niveles del mapa de prominencia. Realizamos el filtrado de descriptores obteniendo capas a diversos niveles del mapa de prominencia, y evaluamos la fusión temprana de los descriptores SIFT contenidos en dichas capas en cinco conjuntos de datos diferentes. Los resultados obtenidos en nuestra experimentación indican que el método propuesto mejora siempre al método de referencia cuando se combinan las dos primeras capas de GBVS o de SIM y el dataset contiene imágenes con un único objeto.
En este trabajo se realiza la evaluación de tres métodos de detección de rostros con cuatro conjuntos de imágenes utilizados en la literatura relacionada con este problema. Los métodos evaluados son el método de detección de objetos de Viola & Jones, un método basado en una modificación de HOG implementado en la librería DLib, y un método basado en Redes Neuronales Convolucionales llamado Multi-task Cascaded Convolutional Neural Networks (MTCNN). Los resultados obtenidos con los conjuntos de datos evaluados indican que el método que mejores resultados globales ha obtenido ha sido MTCNN, tanto en términos de FScore como en recall, i.e. tasa de verdaderos positivos.
Building datasets for Computer Vision tasks require a source of a large number of images, like the ones provided by the Internet search engines, joined with automated scraping tools, to construct them in a reasonable time. In this paper it is presented Oculus-Crawl, a tool designed to crawl and scrape images from the search engines Google and Yahoo Images to build datasets of pictures, that is modular, scalable and portable. It is also discussed a benchmark for this crawler and an internal feature for storing and sharing big datasets, that makes it suitable for Computer Vision and Machine Learning tasks. In our tests we were able to crawl and fetch 11.555 images in less than 14 minutes, including also their meta-data description, showing that it might be well-suited for retrieving large datasets.
Identifying key content from a video is essential for many security applications such as motion/action detection, person re-identification and recognition. Moreover, summarizing the key information from Child Sexual Exploitation Materials, especially videos, which mainly contain distinctive scenes including people’s faces is crucial to speed-up the investigation of Law Enforcement Agencies. In this paper, we present a video summarization strategy that combines perceptual hashing and face detection algorithms to keep the most relevant frames of a video containing people’s faces that may correspond to victims or offenders. Due to legal constraints to access Child Sexual Abuse datasets, we evaluated the performance of the proposed strategy during the detection of adult pornography content with the NDPI-800 dataset. Also, we assessed the capability of our strategy to create video summaries preserving frames with distinctive faces from the original video using ten additional short videos manually labeled. Results showed that our approach can detect pornography content with an accuracy of 84.15% at a speed of 8.05 ms/frame making this appropriate for realtime applications.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.