Técnicas de fusão prévia têm sido propostas em tarefas de análise multimídia como uma maneira de melhorar a eficácia ao gerar representações de dados mais compactas, expressivas e capazes de preservar a semântica presente nos dados. Os trabalhos recentes no domínio de vídeo digital empregam multimodalidade fazendo jus à natureza multimodal de um vídeo. Esse espaço heterogêneo, somado à dificuldade de se obter uma etapa de fusão prévia desacoplada e separável do restante do processamento, limita possíveis melhorias que poderiam ser alcançadas nas etapas isoladamente. Além disso, técnicas foram projetadas para problemas específicos, não podendo ser generalizadas, o que também as tornam inseparáveis da tarefa de análise de vídeo em questão. Motivado por esse cenário, este trabalho de mestrado propõe a aplicação dos operadores de fusão prévia, Soma, Máximo e Concatenação, que atuem no médio nível semântico, desacoplando o operador de qualquer tarefa específica e, ao mesmo tempo, com um custo computacional mais simples. Os operadores foram aplicados em duas bases de dados publicamente disponíveis da tarefa de Segmentação Temporal de Vídeo em Cenas. Os resultados atingidos competem com os do estado da arte com a vantagem de simplicidade computacional.