Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10923/1636
Tipo: masterThesis
Título: Integração de ferramentas para compilação e exploração de corpora
Autor(es): Silveira, Filipe Pereira da
Orientador: Lima, Vera Lúcia Strube de
Editor: Pontifícia Universidade Católica do Rio Grande do Sul
Programa: Programa de Pós-Graduação em Ciência da Computação
Fecha de Publicación: 2008
Palabras clave: INFORMÁTICA
LINGUÍSTICA COMPUTACIONAL
PROCESSAMENTO DE TEXTOS (COMPUTAÇÃO)
LINGUÍSTICA DE CORPUS
Resumen: Este trabalho realiza um estudo da tipologia e disponibilidade de corpora. São discutidas questões referentes ao projeto de um corpus no que se refere a sua compilação. São apresentadas funcionalidades para exploração de corpora e analisadas ferramentas e recursos disponíveis para trabalhar com corpus. A seleção de ferramentas adequadas para compilação e exploração de corpora de textos em língua natural representa hoje um desafio aos pesquisadores da área. Muitas das ferramentas disponíveis dependem de licenças e plataformas específicas para serem executadas, limitam o uso de vários formatos de documento ou criam padrões próprios de codificação de corpus e de anotações, dificultando a criação, a interoperabilidade e o compartilhamento de recursos lingüísticos entre grupos de pesquisas. Nesse sentido é apresentada e descrita uma ferramenta para a lingüística de corpus que construímos e oferecemos à comunidade de pesquisadores em língua portuguesa – a ferramenta ENTRELINHAS. Esta ferramenta facilita a compilação e agrega funcionalidades essenciais para exploração de corpora. A ferramenta adere a um formato de codificação compatível com o Portal de Córpus do NILC/USP contribuindo com o intercâmbio de recursos para o processamento da língua portuguesa. Uma análise quanto ao uso dessa ferramenta também é apresentada.
In this work we present a brief study on the taxonomy and availability of text corpora in order to introduce questions concerning corpus design and corpus compiling. We present corpus exploring functionalities and we bring comments on available tools and resources to work with corpora. Selecting the suitable tools for corpora compiling and analysis is still a challenge to researchers in the field. Many of the available tools are commercially distributed, depend on specific platforms, restrict file format usage or create their own standards for corpus codification and annotation, what makes it more difficult to interoperate and to share linguistic resources among research groups. In this context we present and detail ENTRELINHAS, the corpus linguistics tool we built and we make available to Portuguese language researchers in this field. ENTRELINHAS eases corpus compiling and makes basic resources for Portuguese language corpora exploring available. The tool adheres to an encoding standard that keeps it compatible with NILC/USP's Portal de Córpus. A discussion on the report of the use of ENTRELINHAS is also presented.
URI: http://hdl.handle.net/10923/1636
Aparece en las colecciones:Dissertação e Tese

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
000414886-Texto+Completo-0.pdfTexto Completo1,34 MBAdobe PDFAbrir
Ver


Todos los ítems en el Repositorio de la PUCRS están protegidos por derechos de autor, con todos los derechos reservados, y están bajo una licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional. Sepa más.