Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/10923/1636
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.advisorLima, Vera Lúcia Strube deen_US
dc.contributor.authorSilveira, Filipe Pereira daen_US
dc.date.accessioned2013-08-07T18:43:21Z-
dc.date.available2013-08-07T18:43:21Z-
dc.date.issued2008pt_BR
dc.identifier.urihttp://hdl.handle.net/10923/1636-
dc.description.abstractEste trabalho realiza um estudo da tipologia e disponibilidade de corpora. São discutidas questões referentes ao projeto de um corpus no que se refere a sua compilação. São apresentadas funcionalidades para exploração de corpora e analisadas ferramentas e recursos disponíveis para trabalhar com corpus. A seleção de ferramentas adequadas para compilação e exploração de corpora de textos em língua natural representa hoje um desafio aos pesquisadores da área. Muitas das ferramentas disponíveis dependem de licenças e plataformas específicas para serem executadas, limitam o uso de vários formatos de documento ou criam padrões próprios de codificação de corpus e de anotações, dificultando a criação, a interoperabilidade e o compartilhamento de recursos lingüísticos entre grupos de pesquisas. Nesse sentido é apresentada e descrita uma ferramenta para a lingüística de corpus que construímos e oferecemos à comunidade de pesquisadores em língua portuguesa – a ferramenta ENTRELINHAS. Esta ferramenta facilita a compilação e agrega funcionalidades essenciais para exploração de corpora. A ferramenta adere a um formato de codificação compatível com o Portal de Córpus do NILC/USP contribuindo com o intercâmbio de recursos para o processamento da língua portuguesa. Uma análise quanto ao uso dessa ferramenta também é apresentada.pt_BR
dc.description.abstractIn this work we present a brief study on the taxonomy and availability of text corpora in order to introduce questions concerning corpus design and corpus compiling. We present corpus exploring functionalities and we bring comments on available tools and resources to work with corpora. Selecting the suitable tools for corpora compiling and analysis is still a challenge to researchers in the field. Many of the available tools are commercially distributed, depend on specific platforms, restrict file format usage or create their own standards for corpus codification and annotation, what makes it more difficult to interoperate and to share linguistic resources among research groups. In this context we present and detail ENTRELINHAS, the corpus linguistics tool we built and we make available to Portuguese language researchers in this field. ENTRELINHAS eases corpus compiling and makes basic resources for Portuguese language corpora exploring available. The tool adheres to an encoding standard that keeps it compatible with NILC/USP's Portal de Córpus. A discussion on the report of the use of ENTRELINHAS is also presented.en_US
dc.language.isoPortuguêspt_BR
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpt_BR
dc.subjectINFORMÁTICApt_BR
dc.subjectLINGUÍSTICA COMPUTACIONALpt_BR
dc.subjectPROCESSAMENTO DE TEXTOS (COMPUTAÇÃO)pt_BR
dc.subjectLINGUÍSTICA DE CORPUSpt_BR
dc.titleIntegração de ferramentas para compilação e exploração de corporapt_BR
dc.typemasterThesispt_BR
dc.degree.grantorPontifícia Universidade Católica do Rio Grande do Sulpt_BR
dc.degree.departmentFaculdade de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.degree.levelMestradopt_BR
dc.degree.date2008pt_BR
dc.publisher.placePorto Alegrept_BR
Aparece en las colecciones:Dissertação e Tese

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
000414886-Texto+Completo-0.pdfTexto Completo1,34 MBAdobe PDFAbrir
Ver


Todos los ítems en el Repositorio de la PUCRS están protegidos por derechos de autor, con todos los derechos reservados, y están bajo una licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional. Sepa más.