Web data are heterogeneous and unstructured, which defines challenges for data crawling, integration and preprocessing. Different studies are "data-oriented" (i.e. based on the available data) but their results are restricted to their specific data. In contrast, there are various problems prior to identifying what data is needed to solve them, and often multiple data sources are needed. In this context, crawling, integrating and preprocessing data appropriately enables to create datasets for solving such problems. Therefore, this short course addresses these three activities by discussing challenges and practical solutions.
ResumoAtividades de coleta, integração e pré-processamento representam diferentes desafios para pessoas que necessitam de lidar com dados extraídos da Web por serem heterogêneos e não estruturados. Ademais, existem diferentes fontes de dados na Web que podem ser sites e aplicativos, mídias e redes sociais e até mesmo bancos (ou bases) de dados já construídos e disponibilizados. Considerar dados dessas diferentes fontes pode parecer irrelevante quando avaliados de forma isolada. Entretanto, quando combinados, conhecimentos novos, integrados e úteis podem ser descobertos. Tais dados podem ser aplicados na solução de problemas em diferentes campos, como sistemas inteligentes, ao permitir a ampliação dos dados utilizados como treinamento; marketing, ao possibilitar a identificação de público alvo; sistemas de recomendação, ao viabilizar a construção do Anais do XXIV Simpósio Brasileiro de Sistemas Multimídia e Web: Minicursos