Firstly, I am grateful to my family, especially my mother, for supporting me through this whole trajectory.I am very grateful to my advisor, João Meidanis, for his patience and continuous support. Even though I doubted myself several times, João has always pushed me forward and cared for me greatly; I was fortunate to have an amazing advisor by my side. I am also grateful to the Institute of Computing and the University of Campinas for providing us with an outstanding faculty and an stimulating environment.This project was funded by grant #2020/00740-8, São Paulo Research Foundation (FAPESP). We are very grateful to FAPESP for funding our research in the past two years.
ResumoSob uma perspectiva computacional, genomas podem ser modelados como uma coleção de segmentos orientados, comumente denominados blocos sintênicos, que representam regiões conservadas ao longo da evolução. Tais regiões são suscetíveis a mutações em larga escala -conhecidas como rearranjos de genomas -que permutam os blocos sintênicos em diferentes configurações. Ao longo dos anos, diversos modelos de distância baseados em rearranjos foram desenvolvidos a fim de calcular eficientemente a distância evolutiva entre genomas. Dentre eles, a distância de posto baseia-se na modelagem de genomas como matrizes e na utilização do posto como métrica de distância. A distância de posto é a sucessora da distância algébrica, um modelo de distância que representa genomas como permutações e é fundamentado na teoria de grupos de permutação.Recentemente, a distância de posto foi estendida para abarcar eventos de inserção e remoçãoindels. Embora existam algoritmos eficientes para calcular o posto nesse contexto, muitos resultados da teoria matricial para rearranjo de genomas ainda são fundamentados em noções de teoria de grupos de permutação. Em adição, os resultados são em grande parte teóricos, e pouco se conhece sobre a aplicabilidade biológica dessa extensão da distância de posto.Neste trabalho, consolidamos e expandimos os resultados recentes referentes à extensão da distância de posto que considera eventos de indel. Em particular, introduzimos uma estrutura de dados denominada grafo de colunas a fim de elaborar fórmulas mais simples para calcular o posto em tempo linear. Este ferramental permitiu que a teoria matricial para rearranjo de genomas e algoritmos derivados fossem simplificados consideravelmente. Em adição, realizamos experimentos em inferência filogenética utilizando dados simulados e genomas reais para averiguar a aplicabilidade biológica da distância de posto. Nossos resultados atestam que a distância de posto é competitiva quando comparada com a distância DCJ-Indel, um método estado-da-arte em rearranjo de genomas. Finalmente, apresentamos uma contribuição para o estudo de enumeração de cenários de ordenação sob a distância de posto.