Please use this identifier to cite or link to this item: http://hdl.handle.net/10923/12779
Type: masterThesis
Title: Análise de grafos aplicada a produções textuais de alunos do ensino fundamental e seu potencial preditivo da dislexia do desenvolvimento
Author(s): Luz, Joana Paim da
Advisor: Buchweitz, Augusto
Meneguzzi, Felipe Rech
Publisher: Pontifícia Universidade Católica do Rio Grande do Sul
Graduate Program: Programa de Pós-Graduação em Letras
Issue Date: 2018
Keywords: APRENDIZAGEM DE MÁQUINA
ESCRITA
LEITURA
TEORIA DOS GRAFOS
DISLEXIA
LINGUÍSTICA
Abstract: A dislexia é um transtorno de aprendizagem de natureza neurobiológica, caracterizado por uma inesperada dificuldade em decodificar e compreender textos escritos, decorrente de um aprendizado insatisfatório do princípio alfabético e de uma associação grafo-fonêmica deficitária. A exploração científica da expressão escrita de disléxicos tem se dedicado, em grande medida, a investigar aspectos linguísticos associados à ortografia e às classes de palavras empregadas por sujeitos com dislexia. Estudos de natureza quantitativa focados em mensurar a estrutura dos textos deste grupo clínico são desconhecidos. O principal objetivo do presente trabalho foi identificar padrões de conectividade textual em bons leitores, maus leitores e disléxicos, a partir da análise de medidas de grafo extraídas de suas produções textuais e de técnicas de Aprendizado de Máquina. Essencialmente, buscou-se investigar (a) se o tipo de transcrição dos textos - corrigidos ou originais - e a normalização das medidas de grafo pelo número de palavras interferem significativamente na classificação das crianças entre grupos de fluência e escolaridade; (b) se há diferenças significativas entre os atributos do grafo dos bons leitores, maus leitores e disléxicos; (c) se as medidas de cada ano de coleta de dados convergem para valores semelhantes e se são significativamente diferentes entre os anos; (d) se os atributos de grafo obtidos com a utilização do Speech Graphs, quando associados às técnicas de Aprendizado de Máquina, podem prever níveis de fluência de leitura e, especificamente, a dislexia de desenvolvimento. As hipóteses, para as questões listadas, eram todas afirmativas.Para verificá-las, os textos produzidos por 181 crianças e adolescentes do Projeto ACERTA foram transcritos e divididos em dois grupos experimentais: Ambulatório (N = 52, todos disléxicos) e Escolas (N = 129, subdividido em leitores bons, médios e maus leitores). Esses textos transcritos serviram de entrada para o software Speech Graphs, que extraiu atributos de grafo representativos da estrutura de cada texto. As análises estatísticas descritivas e inferenciais revelaram (a) a prevalência de significância dos atributos de grafo extraídos de transcrições originais não normalizadas (63,07% de significância entre análises); (b) padrões de conectividade textual por grupo de fluência de leitura e (c) padrões de conectividade textual por cada ano de coleta de dados com base em diferenças significativas encontradas em cinco atributos de grafo: nós, arestas, maior componente conectado, densidade e caminho menor médio; (d) 2016 como o melhor ano para classificar as crianças em seus grupos de fluência de leitura fazendo uso de classificadores SVM, considerando que eles alcançaram a maior acurácia (85%), revocação (83%), precisão (85%) e pontuação F1 ( 83%) ao classificar textos de bons leitores e de crianças disléxicas, com base em medidas de grafo de 2016. Estas descobertas fornecem evidências que indicam a possibilidade de se explorar e aprimorar um novo aparato teórico-metodológico para avaliar a fluência de leitura, a partir de textos escritos e com base na Teoria dos Grafos.
Dyslexia is a learning disorder of neurobiological origin, which is characterized by an unexpected difficulty when decoding written texts, due to an unsatisfactory learning of the alphabetical principle and a deficient graphological-phonemic association. The ways dyslexia affects writing skills have been scientifically explored so as to investigate linguistic aspects associated with spelling and classes of words used by subjects who suffer from dyslexia. Quantitative studies focused on measuring the structure of their texts are unknown. The main objective of this study was to identify patterns of textual connectivity in good readers, bad readers and dyslexic children, based on the analysis of graph measures extracted from their texts and Machine Learning techniques. Essentially, it sought to investigate (a) whether the type of transcription of the texts - corrected or original - and the normalization of the graph attributes by the number of words of each text interfere significantly in sorting the children in their fluency and schooling groups; (b) whether there is significant differences among good readers’, bad readers’ and the dyslexic participants’ graph attributes; (c) whether measures of each year of data collection converge to similar values and if they are significantly different among the years; (d) whether the graph attributes obtained with Speech Graphs, when associated with Machine Learning techniques, can predict reading fluency levels and, specifically, developmental dyslexia. The hypotheses for the questions listed were all affirmative.To verify them, texts produced by 181 children and adolescents from the ACERTA Project were transcribed and divided in two experimental groups: Ambulatory (N = 52, all dyslexic) and Schools (N = 129, subdivided into good, medium and bad readers). These transcribed texts served as input for Speech Graphs software, which extracted graph attributes representative of the structure of each text. Descriptive and inferential statistical analyzes revealed (a) the prevalence of significance among graphs attributes extracted from non-normalized original transcripts (63.07% significance between analyzes); (b) patterns of textual connectivity by each reading fluency group and (c) patterns of textual connectivity by year of data collection based on significant differences found in five graphs attributes - nodes, edges, largest connected component, density and average smallest path; (d) 2016 as the best year to sort the children in their reading fluency groups by making use of SVM classifiers, considering they reached the highest accuracy (85%), recall (83%), precision (85%) and F1 score (83%) when sorting good readers and dyslexic children texts, based on 2016 graph measures. These findings provide evidences that indicate the possibility to explore and improve a new methodological frame to assess reading fluency through written texts and based on Graph Theory.
URI: http://hdl.handle.net/10923/12779
Appears in Collections:Dissertação e Tese

Files in This Item:
File Description SizeFormat 
000489755-Texto+Completo-0.pdfTexto Completo3,61 MBAdobe PDFOpen
View


All Items in PUCRS Repository are protected by copyright, with all rights reserved, and are licensed under a Creative Commons Attribution-NonCommercial 4.0 International License. Read more.