DOI: 10.11606/t.55.2003.tde-08032004-164855
|View full text |Cite
|
Sign up to set email alerts
|

"Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado"

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
1
0
17

Publication Types

Select...
7

Relationship

0
7

Authors

Journals

citations
Cited by 12 publications
(18 citation statements)
references
References 60 publications
0
1
0
17
Order By: Relevance
“…Em outras palavras, um dos objetivosé que o número de exemplos de treinamento necessários para se atingir uma dada precisão do modelo construído por um algoritmo de aprendizado (complexidade da amostra) cresça lentamente em relação ao número de atributos não importantes. Por exemplo, na tarefa de classificação de texto, nãoé incomum a descrição de exemplos utilizando mais de 10 4 atributos para representar um texto, sabendo-se que apenas uma pequena fração desses atributosé crucial para o aprendizado do conceito (Matsubara and Monard, 2005;Martins, 2003;Sebastiani, 2002). Nosúltimos anos, uma quantidade crescente de pesquisas em AM, tanto teóricas quanto práticas, tem-se voltado para o desenvolvimento de algoritmos que trabalhem bem na presença de muitos atributos, em geral, irrelevantes 1 .…”
Section: O Problema Da Seleção De Atributosunclassified
“…Em outras palavras, um dos objetivosé que o número de exemplos de treinamento necessários para se atingir uma dada precisão do modelo construído por um algoritmo de aprendizado (complexidade da amostra) cresça lentamente em relação ao número de atributos não importantes. Por exemplo, na tarefa de classificação de texto, nãoé incomum a descrição de exemplos utilizando mais de 10 4 atributos para representar um texto, sabendo-se que apenas uma pequena fração desses atributosé crucial para o aprendizado do conceito (Matsubara and Monard, 2005;Martins, 2003;Sebastiani, 2002). Nosúltimos anos, uma quantidade crescente de pesquisas em AM, tanto teóricas quanto práticas, tem-se voltado para o desenvolvimento de algoritmos que trabalhem bem na presença de muitos atributos, em geral, irrelevantes 1 .…”
Section: O Problema Da Seleção De Atributosunclassified
“…Figura 2.5: Clusters versus classes: (a) conjunto de treinamento (b) clusters encontrados (c) clusters diferentes expressando o mesmo conceito (mesma classe) (Martins, 2003) O caso (a) ilustra um conjunto de exemplos de treinamento rotulados com a classe "+" e "−". Após submeter esses exemplos a um algoritmo de aprendizado supervisionado que induz o conceito utilizando uma árvore de decisão, por exemplo, as regras induzidas representadas graficamente na Figura 2.5 (b) seriam do tipo if x < a and y < b then classe "-" if x ≥ a and y ≥ b then classe "-" if x < a and y ≥ b then classe "+" if x ≥ a and y < b then classe "+" Entretanto, no caso de desconhecer a classe, os exemplos de treinamento poderiam ser vistos pelo algoritmo de clustering como mostrado na Figura 2.5(b), i.e., apenas como pontos no espaço de busca que podem ser agrupados de acordo com algum critério de similaridade.…”
Section: Aprendizado Não-supervisionadounclassified
“…Assim, é muito importante que o ambiente DISCOVER ofereça uma base sólida para manipular dados e conhecimento. Essa base é composta por sintaxes padrões para a representação de dados e de conhecimento, e por bibliotecas que oferecem um conjunto de funcionalidades básicas de manipulação de dados e conhecimento (Batista & Monard, 2003;Martins, 2003;Prati, Baranauskas, & Monard, 2001b,a;Melanda & Rezende, 2003;Pugliesi, 2004), o sistema terá uma interface grá-fica (Geromini, 2002) e um framework de integração (Prati, 2003;Baranauskas, 2001;Milaré, 2003). Atualmente, existem definidas sintaxes padrões para a representação de dados e para a representação do conhecimento induzido de diversos algoritmos de aprendizado de máquina, bem como bibliotecas que oferecem diversas funcionalidades sobre essas sintaxes padrão.…”
Section: Projeto E Implementação Do Algoritmounclassified
See 1 more Smart Citation
“…A representação mais comumente utilizada em Mineração de Textosé baseada no modelo espaço-vetorial (Salton, 1989) dos documentos e termos utilizados. Normalmente, essa representaçãoé matricial, eé conhecida como Matriz Documento Termo (Martins, 2003), apresentada na Tabela 2.1, na qual d i corresponde ao i-ésimo documento, t j representa o j-ésimo atributo (termo) e a ijé a medida que relaciona o i-ésimo documento com o j-ésimo atributo. Caso os documentos possuam rótulos, ainda haverá umaúltima coluna que corresponde a classe dos documento (y i ).…”
Section: Pré-processamentounclassified