Descoberta de conhecimento a partir de informações não estruturadas por meio de técnicas de correlação e associação
DOI:
https://doi.org/10.19132/1808-5245222.87-113Palavras-chave:
Descoberta de conhecimento. Correlação. Associação. Informações não estruturadas. Temporalidade.Resumo
O atual momento da tecnologia vem promovendo meios para o aumento exponencial no volume de informações disponíveis na internet ou em organizações. Considerando que grande parte desta informação encontra-se em formato textual, este fato representa um desafio para as áreas de coleta, armazenamento, recuperação e análise de informações visando à explicitação de conhecimento. Este trabalho tem como objetivo apresentar um modelo para Descoberta de Conhecimento com base nas técnicas de correlação e associação temporal a partir de grandes coleções de documentos. Os procedimentos metodológicos utilizados compreenderam uma pesquisa descritiva e exploratória, envolvendo artigos coletados da base de dados Science Direct® como uma ferramenta para a coleta e a análise dos dados. Através deste tipo de informação é possível extrair regras, padrões, tendências e redes, capazes de auxiliar no processo de tomada de decisão nas organizações a fim de gerar vantagem competitiva. Como principal contribuição destaca-se a proposição de um modelo voltado ao entendimento de aspectos temporais, considerando relacionamentos factuais (através de correlações) ou não (através de associação) entre termos de um domínio.Downloads
Referências
AHMED, K.; MOORE, G. An introduction to topic maps. The Architecture Journal, [S.l.], v. 5, n. 5, jul. 2005. Disponível em: <http://msdn.microsoft.com/en-us/library/aa480048.aspx>. Acesso em: 31 ago. 2015.
BARALIS, E. et al. GraphSum: discovering correlations among multiple terms for graph-based summarization. Information Sciences, New York, v. 249, p. 96-109, nov. 2013.
CAO, L. et al. Flexible Frameworks for Actionable Knowledge Discovery. IEEE Transactions on Knowledge and Data Engineering, [S.l.], v. 22, n. 9, p. 1299-1312, set. 2010.
CHEN, Y. et al. Keyword search on structured and semi-structured data. In: ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 1., 2009, Providence. Proceedings… Providence: ACM, 2009.
CHURCH, K. W.; GALE, W. A. Concordances for Parallel Text. In: ANNUAL CONFERENCE OF THE UW CENTRE FOR THE NEW OED AND TEXT RESEARCH, 8. 1991, Oxford. Proceedings… Oxford: [s.n], 1991. p. 40-62.
CHURCH, K. W.; HANKS, P. Word association norms, mutual information, and lexicography. Computational Linguistics, Cambridge, v. 16, n. 1, p. 22-29, mar. 1990.
CHURCH, K. W.; MERCER, R. L. Introduction to the Special Issue on Computational Linguistics Using Large Corpora. Computational Linguistics, Cambridge, v. 19, n. 1, p. 1-24, mar. 1993.
COHEN, T.; SCHVANEVELDT, R. W. The trajectory of scientific discovery: concept co-occurrence and converging semantic distance. Studies in Health Technology and Informatics, Amsterdam, v. 160, p. 661-665, 2010. Disponível em: <http://ebooks.iospress.nl/publication/13521>. Acesso em: 22 abr. 2016.
COHEN, T.; SCHVANEVELDT, R.; WIDDOWS, D. Reflective Random Indexing and Indirect Inference: A Scalable Method for Discovery of Implicit Connections. Journal of Biomedical Informatics, San Diego, v. 43, n. 2, p. 240-256, abr. 2010.
CONRAD, J. G.; UTT, M. H. A system for discovering relationships by feature extraction from text databases. In: ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 17., 1994, Dublin. Proceedings… New York: Springer-Verlag New York, 1994. p. 260-270.
COULOURIS, G. et al. Sistemas distribuídos: conceitos e projeto. 5. ed. Porto Alegre: Bookman, 2013.
EGGHE, L.; MICHEL, C. Strong similarity measures for ordered sets of documents in information retrieval. Information Processing and Management, [S.l.], v. 38, n. 6, p. 823-848, nov. 2002.
FENG, Y. Towards knowledge discovery in Semantic era. In: INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY, 7., 2010, Yantai. Proceedings… Yantai: IEEE, 2010. p. 2071-2075.
FLEUREN, W. W. M.; ALKEMA, W. Application of text mining in the biomedical domain. Methods, [S.l.], v. 74, p. 97-106, mar. 2015.
GANTZ, J.; REINSEL, D. The digital universe decade – are you ready? Framingham: Idc – Iview, 2010. Disponível em: <https://www.emc.com/collateral/analyst-reports/idc-digital-universe-are-you-ready.pdf>. Acesso em: 21 abr. 2016.
HASHIMI, H.; HAFEZ, A.; MATHKOUR, H. Selection criteria for text mining approaches. Computers in Human Behavior, Oxford, v. 51, p. 729-733, out. 2015.
HILBERT, M.; LÓPEZ, P. The World’s Technological Capacity to Store, Communicate, and Compute Information. Science Magazine, Washington, v. 332, p. 60-65, 01 abr. 2011. Disponível em: <http://science.sciencemag.org/content/332/6025/60>. Acesso em: 21 abr. 2016.
IVANOV, Nikita; DMITRIY, Setrakyan. Real Time Big Data Processing with GridGain. 2012.
JONES, W. P.; FURNAS, G. W. Pictures of relevance: a geometric analysis of similarity measures. Journal of the American Society for Information Science, [S.l.], v. 38, n. 6, p. 420-442, nov. 1987.
LIM, E. H. Y.; LIU, J. N. K.; LEE, R. S. T. Knowledge Discovery from Text Learning for Ontology Modeling. In: INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY, 6., 2009, Tianjin. Proceedings… Tianjin: IEEE, 2009. p. 227-231.
MAIA, L. C. G.; SOUZA, R. R. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da Informação, Belo Horizonte, v. 15, n. 1, p.154-172, jan./abr. 2010. Disponível em: <http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/875/717>. Acesso em: 22 abr. 2016.
MANNING, C. D.; SCHÜTZE, H. Foundations of statistical natural language processing. Cambridge: MIT, 1999.
NOACK, T.; SCHMITT, I. Monitoring mobile cyber-physical systems by means of a knowledge discovery cycle. In: INTERNATIONAL CONFERENCE ON RESEARCH CHALLENGES IN INFORMATION SCIENCE (RCIS), 7., 2013, Paris. Proceedings… Paris: IEEE, 2013. p. 1-12.
RAMOS, H. de S. C.; BRÄSCHER, M. Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de C&T. Ciência da Informação, Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009. Disponível em: <http://revista.ibict.br/ciinf/article/view/1245/1423>. Acesso em: 22 abr. 2016.
RÊGO, B. L. Gestão e governança de dados: promovendo dados como ativo de valor nas empresas. Rio de Janeiro: Brasport, 2013.
SABOL, V. et al. Visual Knowledge Discovery in Dynamic Enterprise Text Repositories. In: INTERNATIONAL CONFERENCE INFORMATION VISUALISATION, 13., 2009, Barcelona. Proceedings… Barcelona: IEEE, 2009. p. 361-368.
SÉRGIO, Marina Carradore. Uma arquitetura de descoberta de conhecimento baseada na correlação e associação temporal de padrões textuais. 2013. 125 f. (Graduação em Tecnologias da Informação e Comunicação) Universidade Federal de Santa Catarina, Araranguá, 2013. Disponível em: <https://repositorio.ufsc.br/bitstream/handle/123456789/105488/TCC-Marina-Final_Com_Ficha.pdf?sequence=1&isAllowed=y>. Acesso em: 22 abr. 2016.
SHABBIR, A. et al. Predictive Data Mining and pattern recognition in the medical sector: Implementation and experience. In: WORLD CONGRESS ON COMPUTER APPLICATIONS AND INFORMATION SYSTEMS (WCCAIS), 1., 2014, Hammamet. Proceedings… Hammamet: IEEE, 2014.
SILVA, E. R. G.; ROVER, A. J. O Processo de descoberta do conhecimento como suporte à análise criminal: minerando dados da Segurança Pública de Santa Catarina. In: INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT, 8., 2011, São Paulo. Anais… São Paulo: FEA, 2011.
SMALHEISER, N. R. Literature-Based Discovery: Beyond the ABCs. Journal of the American Society for Information Science and Technology, [S.l.], v. 63, n. 2, p. 218-224, fev. 2012. Disponível em: <http://onlinelibrary.wiley.com/doi/10.1002/asi.21599/epdf>. Acesso em: 22 abr. 2016.
SOMASUNDARAM, G.; SHRIVASTAVA, A. armazenamento e gerenciamento de informações: como armazenar, gerenciar e proteger informações digitais. Porto Alegre: Bookman, 2011. 476 p.
SWANSON, D. R. Fish oil, Raynaud's syndrome, and undiscovered public knowledge. Perspectives in Biology and Medicine, Baltimore, v. 30, n. 1, p. 7-18, jan. 1986.
TANENBAUM, A. S.; STEEN, M. Van. Distributed Systems: principles and paradigms. 2. ed. Upper Saddle River: Prentice Hall, 2008.
VASHISHTHA, J.; KUMAR, D.; RATNOO, S. Revisiting Interestingness Measures for Knowledge Discovery in Databases. In: INTERNATIONAL CONFERENCE ON ADVANCED COMPUTING & COMMUNICATION TECHNOLOGIES, 2., 2012, Rohtak. Proceedings… Rohtak: IEEE, 2012. p. 72–78.
WOSZEZENKI, C. R.; GONÇALVES, A. L. Mineração de textos biomédicos: uma revisão bibliométrica. Perspectivas em Ciência da Informação, Belo Horizonte, v. 18, n. 3, p. 24-44, jul./set. 2013. Disponível em: <http://portaldeperiodicos.eci.ufmg.br/index.php/pci/article/view/1733/1189>. Acesso em: 22 abr. 2016.
WU, X. et al. Data Mining with Big Data. IEEE Transactions on Knowledge and Data Engineering, [S.l.], v. 26, n. 1, p. 97-107, jan. 2014.
YETISGEN-YILDIZ, M.; PRATT, W. A new evaluation methodology for literature-based discovery systems. Journal of Biomedical Informatics, San Diego, v. 42, n. 4. p. 633-643, ago. 2009. Disponível em: <https://faculty.washington.edu/melihay/publications/JBI_2010.pdf>. Acesso em: 22 abr. 2016.
ZHU, F. et al. Biomedical text mining and its applications in cancer research. Journal of biomedical informatics, San Diego, v. 46, n. 2, p. 200-211, abr. 2013. Disponível em: <http://www.sciencedirect.com/science/article/pii/S1532046412001712>. Acesso em: 22 abr. 2016.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2016 Marina Carradore Sérgio, Thales do Nascimento da Silva, Alexandre Leopoldo Gonçalves
Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos:
Autores mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho licenciado sob a Licença Creative Commons Attribution (CC BY 4.0), que permite o compartilhamento do trabalho com reconhecimento da autoria.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicada nesta revista, como publicar em repositório institucional, com reconhecimento de autoria e publicação inicial nesta revista.
Os artigos são de acesso aberto e uso gratuito. De acordo com a licença, deve-se dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Não é permitido aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.