Utilize este identificador para citar ou criar um atalho para este documento: https://hdl.handle.net/10923/1454
Tipo: masterThesis
Título: Combinação de classificadores na categorização de textos
Autor(es): Linden, Gustavo Sandini
Orientador: Lima, Vera Lúcia Strube de
Editora: Pontifícia Universidade Católica do Rio Grande do Sul
Programa: Programa de Pós-Graduação em Ciência da Computação
Data de Publicação: 2008
Palavras-chave: INFORMÁTICA
CATEGORIZAÇÃO (LINGUÍSTICA)
LINGUÍSTICA COMPUTACIONAL
PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO)
APRENDIZAGEM DE MÁQUINA
Resumo: Este trabalho apresenta e avalia uma proposta para Categorização Hierárquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa série de experimentos os quais fizeram uso da coleção Folha-RIcol de textos em língua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avaliação hold-out, e após, de modo combinado. A combinação proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combinação por voto. Em síntese, a combinação k-NN+SVM não apresentou desempenho superior às demais alternativas, todavia o estudo permitiu a observação do comportamento dos classificadores e seu uso combinado, a identificação de problemas e possíveis soluções, bem como algumas considerações sobre a coleção de documentos utilizada.
This study presents and evaluates a proposal for Hierarchical Text Categorization combining k- Nearest Neighbors (k-NN) and Support VectorMachines (SVM) classifiers. The study was based on several experiments which made use of Folha-RIcol text collection in Portuguese language. The texts in this collection are hierarchically organized in categories. In the experiments, the performance of k-NN and SVM classifiers was analyzed, individually first, with a variant of hold-out evaluation methodology, and then combined. The proposed combination, referred to as k-NN+SVM, had its performance compared to the individual classifiers and also to the combination by vote. In synthesis, the k-NN+SVM combination did not present better performance to the alternative ones, however the study allowed to observe the classifiers’ behavior and its combined use, the identification of problems and possible solutions, as well as taking into consideration the document collection used.
URI: http://hdl.handle.net/10923/1454
Aparece nas Coleções:Dissertação e Tese

Arquivos neste item:
Arquivo Descrição TamanhoFormato 
000409150-Texto+Completo-0.pdfTexto Completo902,26 kBAdobe PDFAbrir
Exibir


Todos os itens no Repositório da PUCRS estão protegidos por copyright, com todos os direitos reservados, e estão licenciados com uma Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional. Saiba mais.