XVIII SEMEAD

RESUMO

Código: 929
Tema: Sistemas de Informações e Impactos Organizacionais da TI
Abrir Arquivo
	Avaliação de Métodos de Classificação Textual Para Apoio A Análise de Conteúdo Aplicada A Gestão da Informação no Mercado de Café

	A cafeicultura exige dados qualitativos para apoio a tomada de decisões, por exemplo, notícias publicadas na web que impactam os setores da cadeia produtiva. Como abordagem qualitativa, a análise de conteúdo é adequada a estes dados textuais, porém, a natureza não estruturada destes dados da web suscita recursos que dificultam sua utilização. Por outro lado, O avanço de técnicas computacionais facilitam o uso da informação textual em diferentes contextos o que é objeto de estudo neste artigo. O Bureau de Inteligência Competitiva do Café emprega a Análise de Conteúdo em notícias publicadas na web. Em uma etapa, especialistas buscam e classificam as notícias em categorias temáticas pré-definidas. Porém, o processo é restrito a capacidade de busca e leitura dos especialistas, consome recursos humanos e tempo. O objetivo deste trabalho é verificar a viabilidade de métodos de classificação textual com aprendizado de máquina para promover a análise de conteúdo realizada pelo Bureau. O artigo tem como referencial teórico a Análise de Conteúdo (Bardin, 2006) como abordagem qualitativa, a cadeia produtiva do café no Brasil descrita em (Farina & Zylbersztajn, 1998) como referência na criação das categorias para classificação das notícias, o problema clássico de classificação textual discutido em (Sebastiani, 2002) e métodos por aprendizado de máquina apresentados pelo autor como classificadores. A natureza experimental do trabalho inclui o desenvolvimento de um sistema para comparação de métodos de classificação e coleta de dados da web, assim é adotado Design Science Research como método de pesquisa. A ideia central é que a aquisição de conhecimento e a solução de um problema acontecem pela construção e aplicação de um artefato para um contexto do problema específico. O artefato é o sistema de coleta e classificação automática de notícias para apoio a análise de conteúdo do Bureau. O resultado mostra um desempenho superior de classificadores Bayesianos comparados com Árvore de Decisão e SVM em testes com base de treinamento constante e variável para dados do Bureau. O comportamento dos métodos altera com características do conjunto de treinamento, pré-processamento e parâmetros dos próprios classificadores. Aponta necessidade de uma base de treinamento com notícias irrelevantes para eliminar ruídos na coleta e consultas diárias para maior cobertura de notícias relevantes.