Utilize este identificador para citar ou criar um atalho para este documento: https://hdl.handle.net/10923/19344
Tipo: masterThesis
Título: Convolutional neural networks compression for object detection
Autor(es): Salvi, Andrey de Aguiar
Orientador: Barros, Rodrigo Coelho
Editora: Pontifícia Universidade Católica do Rio Grande do Sul
Programa: Programa de Pós-Graduação em Ciência da Computação
Data de Publicação: 2021
Palavras-chave: REDES NEURAIS (COMPUTAÇÃO)
ARQUITETURA DE REDES
INFORMÁTICA
Resumo: Aprendizado Profundo é o estado da arte em tarefas de Visão Computacional, tais como Classificação de Imagens, Detecção de Objetos, Segmentação de Instâncias, Geração de Conteúdo, entre outros. Ao longo do tempo, os modelos se tornaram maiores, mais profundos, e de maior acurácia, mas também super-parametrizados, pesados e lentos, dificultando o uso de tais modelos em automação de processos em dispositivos limitados, com poder de processamento reduzido, memória, ou energia. Consequentemente, a Compressão de Modelos emergiu na literatura para reduzir o tamanho do modelo e o custo de processamento o máximo possível, impactando o mínimo possível na performance do modelo na tarefa alvo. Embora existam muitos estudos de compressão de modelos na literatura versando sobre diferentes abordagens, existem poucos estudos trazendo comparações práticas entre diferentes abordagens, e nenhum deles com o foco em Detecção de Objetos. Portanto, este trabalho contribui à literatura ao comparar e explorar os trade-offs existentes entre Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), e uma reconstrução de modelo baseada em convoluções eficientes. Para alcançar tal objetivo, modelos baseados na YOLOv3 foram treinados com a mesma estratégia de data-augmentation em dois conjuntos de dados, PASCAL VOC e Exclusively Dark Images, e avaliados de acordo com Mean Average Precision, número de parâmetros, tamanho de armazenamento, e Multiply-Accumulate Operation (MAC). Os resultados mostram que um Pruning mais agressivo foi capaz de gerar o melhor trade-off, onde o seu mAP ultrapassou a abordagem de NAS + KD, além de produzir um modelo com o menor número de parâmetros e com a maior redução efetiva em MACs.
Deep Learning (DL) is the state-of-the-art in Computer Vision tasks, such as Image Classification, Object Detection, Instance Segmentation, Content Generation, among others. Over time, the models have become broader, deeper, and more accurate, but also hyperparameterized, heavier, and slower, making their use harder for automating tasks based on constrained devices, such as those with reduced processing power, or with memory or energy consumption constraints. Consequently, Model Compression emerges in the literature to reduce the model’s size and processing cost as much as possible, while impacting as little as possible in the model’s performance within its target task. Although there are many model compression studies in the literature exploring several different approaches, there are few studies in the literature bringing practical comparisons between different approaches and none of those focusing on Object Detection. Therefore, this work contributes to the literature by comparing and exploring the existing trade-offs between Pruning, Knowledge Distillation (KD), Neural Architecture Search (NAS), and a model reconstruction based on efficient convolutions. To achieve this goal, we train models based on YOLOv3 with the same data augmentation on two datasets, PASCAL VOC and Exclusively Dark Images, and we evaluate them according to Mean Average Precision, number of parameters, storage size, and Multiply-Accumulate Operations (MACs). Results show that a more aggressive Pruning was capable of generating the best trade-off: its mAP surpassed a NAS + KD approach, in addition to producing a model with the smallest number of parameters and with a most effective reduction in MACs.
URI: https://hdl.handle.net/10923/19344
Aparece nas Coleções:Dissertação e Tese

Arquivos neste item:
Arquivo Descrição TamanhoFormato 
000500982-Texto+completo-0.pdfTexto completo14,75 MBAdobe PDFAbrir
Exibir


Todos os itens no Repositório da PUCRS estão protegidos por copyright, com todos os direitos reservados, e estão licenciados com uma Licença Creative Commons - Atribuição-NãoComercial 4.0 Internacional. Saiba mais.