Utilize este identificador para citar ou criar um atalho para este documento: https://hdl.handle.net/10923/27232
Registro Completo de Metadados
Campo DCValorIdioma
dc.contributor.advisorBarros, Rodrigo Coelho
dc.contributor.advisorKupssinskü, Lucas Silveira
dc.contributor.authorDelucis, Marcelo Mussi
dc.date.accessioned2025-07-10T12:02:41Z-
dc.date.available2025-07-10T12:02:41Z-
dc.date.issued2025pt_BR
dc.identifier.urihttps://hdl.handle.net/10923/27232-
dc.description.abstractO presente trabalho tem foco no reconhecimento isolado da língua de sinais na Língua Brasileira de Sinais, fundamental para promover acessibilidade digital à comunidade surda. Porém, a escassez de dados e a diversidade limitada de sinais disponíveis e atores dificultam o desenvolvimento de modelos capazes de generalização e avanço na área. Trabalhos anteriores, como o dataset MINDS, limitam-se a vocabulários reduzidos, ambientes controlados e baixa diversidade de sinalizadores, o que tende a resultar, em alguns casos, em modelos super-especializados e com baixa acurácia em cenários diferentes do que é visto no conjunto de treinamento. Com o intuito de abordar as atuais limitações, foi desenvolvido um conjunto de dados, MALTA-LIBRAS, construído pela coleção de vídeos de LIBRAS disponíveis publicamente, introduzindo variabilidade em sinalizadores, ambientes e condições de gravação. Três arquiteturas baseadas em Transformers, VideoMAE, TimeSformer e ViViT, são investigadas em três configurações experimentais: pré-treinamento em conjuntos de dados de reconhecimento de ações, aplicação de estratégias de aumento de dados e exploração de possível transferência de conhecimento entre línguas de sinais a partir de conjuntos de dados das línguas de sinais norte americana e russa. Resultados no dataset MALTA-LIBRAS indicam que os modelos pré-treinados em tarefas de reconhecimento de ações atingem 29% de acurácia, enquanto modelos sem pré-treino atingem o equivalente a predição aleatória. Técnicas de aumento de dados auxiliam na generalização do modelo, aumentando a acurácia de 29% para 33,6%. A transferência de conhecimento entre línguas para LIBRAS mostrou-se limitada, com ganhos de 2,7% em acurácia, reforçando a necessidade de adaptação específica por domínio.Conclui-se que a diversidade de dados (sinalizadores, ambientes) é tão crucial quanto o volume para aplicações reais, e é proposto um framework unificado para SLR em cenários de baixos recursos, combinando pré-treinamento em ações humanas, aumento de dados direcionado e fine-tuning.pt_BR
dc.description.abstractThe present work focuses on the isolated recognition of sign language in Brazilian Sign Language (LIBRAS), essential for promoting digital accessibility for the Deaf community. However, data scarcity and the limited diversity of available signs and actors hinder the development of models capable of generalization and advancement in the field. Previous works, such as the MINDS dataset, are limited to reduced vocabularies, controlled environments, and low signer diversity, which tends to result, in some cases, in super-specialized models with low accuracy in scenarios different from what is seen in the training set. To address current limitations, a dataset, MALTA-LIBRAS, was developed, constructed by collecting publicly available LIBRAS videos, introducing variability in signers, environments, and recording conditions. Three architectures based on Transformers, VideoMAE, TimeSformer, and ViViT, are investigated in three experimental configurations: pre-training on action recognition datasets, application of data augmentation strategies, and exploration of possible knowledge transfer between sign languages using datasets from North American and Russian sign languages. Results on the MALTA-LIBRAS dataset indicate that models pre-trained on action recognition tasks achieve 29% accuracy, while models without pre-training achieve the equivalent of random prediction. Data augmentation techniques aid model generalization, increasing accuracy from 29% to 33.6%. Knowledge transfer between languages to LIBRAS proved limited, with gains of 2.7% in accuracy, reinforcing the need for domain-specific adaptation. It is concluded that data diversity (signers, environments) is as crucial as volume for real-world applications, and a unified framework for SLR in low-resource scenarios is proposed, combining pre-training on human actions, targeted data augmentation, and fine-tuning.en_US
dc.language.isoPortuguêspt_BR
dc.publisherPontifícia Universidade Católica do Rio Grande do Sulpt_BR
dc.rightsopenAccessen_US
dc.subjectLÍNGUA BRASILEIRA DE SINAISpt_BR
dc.subjectACESSIBILIDADEpt_BR
dc.subjectINFORMÁTICApt_BR
dc.titleIsolated sign language recognition in LIBRASpt_BR
dc.title$$Breconhecimento De Sinais Isolados De Librasen_US
dc.typemasterThesispt_BR
dc.degree.grantorPontifícia Universidade Católica do Rio Grande do Sulpt_BR
dc.degree.departmentFaculdade de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.degree.levelMestradopt_BR
dc.degree.date2025pt_BR
dc.publisher.placePorto Alegrept_BR
Aparece nas Coleções:Dissertação e Tese

Arquivos neste item:
Arquivo Descrição TamanhoFormato 
000510359-Texto+completo-0.pdfTexto completo2,73 MBAdobe PDFAbrir
Exibir


Todos os itens no Repositório da PUCRS estão protegidos por copyright, com todos os direitos reservados, e estão licenciados com uma Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional. Saiba mais.