“…Porém, outros recursos também são usados em alguns estudos para estabelecimento das dimensões, como por exemplo: uso de hiperônimos do dicionário Word-Net, POS tag (Part-of-speech tagging) para a extração de substantivos, n-gramas [5]; extração de tags relacionadas aos itens sob recomendação [16]. Uma vez escolhidas as dimensões,é preciso atribuir valores a elas, e para isso são empregadas diferentes estratégias: a binária [9,31], em qué e atribuído 1 se o valor de uma dimensão ocorre no documento ou 0 se não ocorre; a frequência de termos (TF) [5,7,8,16,19,23,26,27,28,29], que considera o número de vezes que o valor de uma dimensão ocorre no documento; e a clássica normalização TF-IDF [5,7,8,9,19,26,29], na qual a frequênciaé relativa em relação ao corpus de documentos. Também na etapa de pré-processamento, são utilizadas técnicas simples para simplificar ou reduzir a dimensionalidade dos vetores de representação, como filtro de stopwords, que são palavras que não adicionam informaçãoútil ao VSM [5,8,9,16,19,27,31]; stemming, que reduz cada palavra para o seu radical [5,8,9,19,27,31]; e filtragem de termos abaixo ou acima de um limiar de frequência [5,8].…”