HASCH: Um Corretor Ortográfico Automático de Alto Desempenho para Textos Oriundos da Web

Guilherme Neri Andrade, Felipe Teixeira, Carolina Xavier, Leonardo Rocha

Resumo


A Web 2.0 provocou uma democratização no âmbito da geração de dados, providos na grande maioria na forma de textos, tanto formais, como reportagens providas por portais de noticias, quanto informais ("Internetês"), como comentários em micro-blogging. Tratar essa heterogeneidade é uma preprocessamento indispensável para que esses dados possam ser utilizados por ferramentas que visam inferir informações precisas. Apresentamos nesse trabalho o HASCH: High Performance Automatic Spell CHecker, um corretor ortográfico automático, completamente paralelizado em memória compartilhada, cujo objetivo é preprocessar grandes volumes de textos em português coletados da Web, de forma eficiente.

Palavras-chave


Corretor Ortográfico, Paralelização, web 2.0

Texto completo:

PDF


A REIC mudou de endereço! Para acessar as edições publicadas e/ou submeter seu artigo, acesse https://sol.sbc.org.br/journals/index.php/reic.