Os dados de expressão gênica geralmente sofrem de problemas de valor perdido devido a uma variedade de razões experimentais. Em bases de dados de câncer de mama, a análise subsequente e a classificação de subtipos podem sofrer fortemente com dados omissos, sendo assim é primordial tratar esse problema. Várias abordagens para estimação desses valores em dados de expressão gênica foram desenvolvidas, mas a tarefa é difícil devido a fatores como a existência ou não de uma estrutura de correlação nos dados e à alta dimensionalidade (número de genes x número de amostras) dos dados. Nesta pesquisa, desenvolvemos um método, para tratar valores ausentes em expressões gênicas de cancêr de mama, que lida com a alta dimensinalidade dos dados realizando a seleção de genes que melhor caracterizam o cancêr de mama, a partir do uso de informações de correlação entre genes. O método foi avaliado utilizando as métricas RMSE e MAE.
Redes Sociais Online (RSO) permitem aos usuários compartilhar conteúdo de qualquer tipo. Nestas redes, os usuários podem ser vistos como sensores sociais, onde suas opini˜oes e comentários a respeito de um evento podem ser utilizados para estudo (e.g., caracterização de eventos, reconhecimento de entidades influentes). RSO podem ser modeladas como redes complexas, onde as entidades são representadas pelos vértices e as arestas caracterizam a conexão entra elas. Utilizando esta abordagem, podemos determinar quais são as entidades mais influentes no contexto estudado através de medidas de centralidade (e.g., Betweenness e Pagerank). Com base nisto, este artigo apresenta uma análise das entidades mais fluentes sob a perspectiva de um evento em Redes Sociais Online e apresenta um estudo das comunidades detectadas. Como resultados percebemos que as medidas de centralidade apresentam diferentes entidades influentes, isto demonstra que embora todas as entidades façam parte do mesmo evento, algumas tem influência maior dependendo do aspecto estudado. Com relação a detecção de comunidades percebemos que entidades que foram agrupadas juntas, estão diretamente ligadas a um sub-evento dentro do contexto estudado.
O câncer de mama é o segundo tipo de câncer mais comum e é a principal causa de mortes relacionadas ao câncer em todo o mundo. Por ser uma doença heterogênea, a subtipagem do câncer de mama desempenha um papel importante na realização de um tratamento específico. Neste trabalho, propomos uma abordagem que utiliza diferentes técnicas de aprendizado de máquina para uma análise mais ampla da lista PAM50 na classificação de subtipos de câncer de mama. Os experimentos mostram que o melhor método a ser utilizado na classificação dos subtipos de câncer de mama é o SVM com kernel linear, que apresentou valor F1 de 0,97 para o subtipo Basal e 0,83 para o subtipo Her 2, os dois subtipos de pior prognóstico, respectivamente.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.