Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10923/1454
Tipo: masterThesis
Título: Combinação de classificadores na categorização de textos
Autor(es): Linden, Gustavo Sandini
Orientador: Lima, Vera Lúcia Strube de
Editor: Pontifícia Universidade Católica do Rio Grande do Sul
Programa: Programa de Pós-Graduação em Ciência da Computação
Fecha de Publicación: 2008
Palabras clave: INFORMÁTICA
CATEGORIZAÇÃO (LINGUÍSTICA)
LINGUÍSTICA COMPUTACIONAL
PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO)
APRENDIZAGEM DE MÁQUINA
Resumen: Este trabalho apresenta e avalia uma proposta para Categorização Hierárquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa série de experimentos os quais fizeram uso da coleção Folha-RIcol de textos em língua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avaliação hold-out, e após, de modo combinado. A combinação proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combinação por voto. Em síntese, a combinação k-NN+SVM não apresentou desempenho superior às demais alternativas, todavia o estudo permitiu a observação do comportamento dos classificadores e seu uso combinado, a identificação de problemas e possíveis soluções, bem como algumas considerações sobre a coleção de documentos utilizada.
This study presents and evaluates a proposal for Hierarchical Text Categorization combining k- Nearest Neighbors (k-NN) and Support VectorMachines (SVM) classifiers. The study was based on several experiments which made use of Folha-RIcol text collection in Portuguese language. The texts in this collection are hierarchically organized in categories. In the experiments, the performance of k-NN and SVM classifiers was analyzed, individually first, with a variant of hold-out evaluation methodology, and then combined. The proposed combination, referred to as k-NN+SVM, had its performance compared to the individual classifiers and also to the combination by vote. In synthesis, the k-NN+SVM combination did not present better performance to the alternative ones, however the study allowed to observe the classifiers’ behavior and its combined use, the identification of problems and possible solutions, as well as taking into consideration the document collection used.
URI: http://hdl.handle.net/10923/1454
Aparece en las colecciones:Dissertação e Tese

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
000409150-Texto+Completo-0.pdfTexto Completo902,26 kBAdobe PDFAbrir
Ver


Todos los ítems en el Repositorio de la PUCRS están protegidos por derechos de autor, con todos los derechos reservados, y están bajo una licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional. Sepa más.