Dedico esse trabalho a meus pais e à minha noiva, que sempre me apoiaram e ajudaram em todos os momentos.
AgradecimentosAgradeço em primeiro lugar a Deus, por ter me iluminado durante todo o desenvolvimento do trabalho, dando a paciência e a inspiração necessária para sua realização.Agradeço também, a meu orientador, pelos infindáveis conselhos e por sua orientação sempre tão pertinente.Agradeço aos professores das matérias realizadas no mestrado, que certamente contribuíram beneficamente para a realização dessa pesquisa.Agradeço aos colegas e amigos do laboratório de pesquisa, que sempre me apoiaram e me deram forças nos momentos de desânimo.Agradeço ao CNPq pelo auxílio financeiro, processo n°134245/2011-3. Agradeço à FAPESP pelo auxílio financeiro, processo n°2011/05238-0, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP). "As opiniões, hipóteses e conclusões ou recomendações expressas neste material são de responsabilidade do(s) autor(es) e não necessariamente refletem a visão da FAPESP".
Resumo
Diversas áreas da Computação (Personalização e Adaptação de Conteúdo, Recuperação de Informação, entre outras) se beneficiam da segmentação de vídeo em unidades menores de informação. A literatura apresenta diversos métodos e técnicas cujo objetivo é identificar essas unidades. Uma limitação é que tais técnicas não tratam o problema da detecção de cenas em segmentos semanticamente complexos, definidos como trechos de vídeo que apresentam mais de um assunto ou tema, e cuja semân-tica latente dificilmente pode ser determinada utilizando-se somente uma única mídia. Esses segmentos são muito relevantes, pois estão presentes em diversos domínios de vídeo, tais como filmes, noticiários e mesmo comerciais.A presente Dissertação de Mestrado propõe uma técnica de segmentação de vídeo capaz de identificar cenas em segmentos semanticamente complexos. Para isso utiliza a semântica latente alcançada com o uso de Bag of Visual Words para agrupar os segmentos de um vídeo. O agrupamento é baseado em multimodalidade, analisando-se características visuais e sonoras de cada vídeo e combinando-se os resultados por meio da estratégia fusão tardia. O presente trabalho demonstra a viabilidade técnica em reconhecer cenas em segmentos semanticamente complexos. The literature reports lots of techniques and methods, whose goal is to identify these units. One of these techniques' limitations is that they don't handle scene detection in semantically complex segments, which are defined as video snippets that present more than one subject or theme, whose latent semantics can hardly be determined using only one media. Those segments are very relevant, since they are present in multiple video domains as movies, news and even television commercials. This Master's dissertation proposes a video scene segmentation technique able to detect scenes in semantically complex segments. In order to achieve this goal it uses latent semantics extracted by the Bag of Visual Words to group a video segments. This grouping process is based on multimodalit...