Please use this identifier to cite or link to this item: https://hdl.handle.net/10923/1454
Type: masterThesis
Title: Combinação de classificadores na categorização de textos
Author(s): Linden, Gustavo Sandini
Advisor: Lima, Vera Lúcia Strube de
Publisher: Pontifícia Universidade Católica do Rio Grande do Sul
Graduate Program: Programa de Pós-Graduação em Ciência da Computação
Issue Date: 2008
Keywords: INFORMÁTICA
CATEGORIZAÇÃO (LINGUÍSTICA)
LINGUÍSTICA COMPUTACIONAL
PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO)
APRENDIZAGEM DE MÁQUINA
Abstract: Este trabalho apresenta e avalia uma proposta para Categorização Hierárquica de Textos com uso combinado dos classificadores k-Nearest Neighbors (k-NN) e Support Vector Machines (SVM). O estudo foi embasado numa série de experimentos os quais fizeram uso da coleção Folha-RIcol de textos em língua portuguesa, que se encontram hierarquicamente organizados em categorias. Nos experimentos realizados, os classificadores k-NN e SVM tiveram seu desempenho analisado, primeiro individualmente, com uma variante da metodologia de avaliação hold-out, e após, de modo combinado. A combinação proposta, denominada k-NN+SVM, teve seu desempenho comparado com aquele dos classificadores individuais e com o da combinação por voto. Em síntese, a combinação k-NN+SVM não apresentou desempenho superior às demais alternativas, todavia o estudo permitiu a observação do comportamento dos classificadores e seu uso combinado, a identificação de problemas e possíveis soluções, bem como algumas considerações sobre a coleção de documentos utilizada.
This study presents and evaluates a proposal for Hierarchical Text Categorization combining k- Nearest Neighbors (k-NN) and Support VectorMachines (SVM) classifiers. The study was based on several experiments which made use of Folha-RIcol text collection in Portuguese language. The texts in this collection are hierarchically organized in categories. In the experiments, the performance of k-NN and SVM classifiers was analyzed, individually first, with a variant of hold-out evaluation methodology, and then combined. The proposed combination, referred to as k-NN+SVM, had its performance compared to the individual classifiers and also to the combination by vote. In synthesis, the k-NN+SVM combination did not present better performance to the alternative ones, however the study allowed to observe the classifiers’ behavior and its combined use, the identification of problems and possible solutions, as well as taking into consideration the document collection used.
URI: http://hdl.handle.net/10923/1454
Appears in Collections:Dissertação e Tese

Files in This Item:
File Description SizeFormat 
000409150-Texto+Completo-0.pdfTexto Completo902,26 kBAdobe PDFOpen
View


All Items in PUCRS Repository are protected by copyright, with all rights reserved, and are licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. Read more.