CluWords: Explorando Clusters Semânticos entre Palavras para Aprimorar Modelagem de Tópicos

Christian Reis Fagundes Gomes, Felipe Augusto Resende Viegas, Washington Luiz Miranda da Cunha, Leonardo Chaves Dutra da Rocha

Resumo


Neste trabalho avançamos o estado-da-arte na modelagem de tópicos por meio de uma nova representação de documentos baseada em word embeddings pré-treinados para fatoração de matriz não-probabilística. Nossa estratégia, chamada CluWords, explora as palavras mais próximas em um determinado espaço word embedding pré-treinado para gerar meta-palavras que são capazes de melhorar a representação de documentos, tanto em termos de informações sintáticas quanto semânticas. Em nossa avaliação, considerando 12 bases de dados e 8 linhas de base, obtivemos melhoras na maioria dos casos, com ganhos de mais de 50%. Nosso método também é capaz de melhorar representação dos documentos para a tarefa de classificação automática.

Palavras-chave


Processamento de Linguagem Natural; Machine Learning; Text Classification

Texto completo:

PDF


A REIC mudou de endereço! Para acessar as edições publicadas e/ou submeter seu artigo, acesse https://sol.sbc.org.br/journals/index.php/reic.