Abstract: | Drug Development is one of the biggest challenges of current science since it deals with a process involving time and high costs. One of the most interesting problems in this area is the conformation and energy prediction between ligand and target proteins (or receptors) interaction, where such interaction is evaluated through molecular docking. It is very common to make simplifications such as to treat the receptor structure as rigid during a molecular docking. However, proteins are inherently flexible, and its flexibility is essential for its function. The inclusion of receptor flexibility in docking experiments is not a trivial task, since the allowance of mobility to some receptor atoms implies in an exponential increase in the numbers of degrees of freedom to be considered. Nowadays there are a variety of alternatives to treat this problem, as such the one chosen for this work: to consider the receptors explicit flexibility through a series of molecular docking simulations, using in each one, one different conformation (or snapshot) from a dynamic trajectory, generated by a molecular dynamic simulation (MD). This method execution, however, has the disadvantage of being very time-consuming. In doing so, the aim of this work is to contribute to the selection of receptors conformations in order to execute docking experiments faster, still taking into account the fully receptors flexibility. Besides, this work introduces new methodologies to analyze receptor-ligand interaction in this kind of docking simulations. To achieve this, it is applied a Knowledge Discovery in Databases (KDD) process. The first step required the development of a database, called FReDD. Such a database store detailed information about the receptors and its conformations, ligands and molecular docking results. From the data stored on FReDD, it was possible to apply different data mining techniques. The first set of experiments was performed with the J48 classification algorithm. The second one was executed using M5P regression algorithm, where despite the interesting results, the application of the induced models directly on snapshot selection seems to be not promising. Finally, clustering experiments were executed with 10 different algorithms with a variety of inputs. For these clustering algorithms, we developed different similarity functions where the final results, combined with the P-MIA data pattern, allowed the effective reduction in the amount of docking experiments to be performed. O desenvolvimento de fármacos é um dos grandes desafios da ciência atual por se tratar de um processo onde os custos e o tempo envolvido são elevados. Um dos problemas mais interessantes nessa área é a predição da conformação e da energia envolvida na interação entre ligantes e suas proteínas-alvo ou receptores. É nos experimentos de docagem molecular que essa interação é avaliada. É muito comum que durante a docagem molecular se façam simplificações onde o receptor é tratado como rígido. Porém, proteínas são inerentemente sistemas flexíveis e essa flexibilidade é essencial para a sua função. A inclusão da flexibilidade do receptor em experimentos de docagem molecular não é uma tarefa trivial, pois, para permitir mobilidade a certos átomos do receptor, há um aumento exponencial do número de graus de liberdade a serem considerados. Há atualmente diversas alternativas para contornar esse problema, entre elas, a que se optou neste trabalho: considerar a flexibilidade explícita do receptor por meio da execução de uma série de simulações de docagem molecular, utilizando em cada um deles uma conformação diferente da trajetória dinâmica do receptor, gerada por uma simulação por dinâmica molecular (DM). Um dos maiores problemas desse método é o tempo necessário para executá-lo. Sendo assim, o objetivo desse trabalho é contribuir para a seleção de conformações do receptor de forma a acelerar a execução de experimentos de docagem molecular com o receptor completamente flexível. Além do mais, o trabalho apresenta novas metodologias para a análise da interação receptor-ligante em simulações de docagem deste tipo. Para alcançar esses objetivos, é aplicado um processo de descoberta de conhecimento.A primeira etapa consistiu no desenvolvimento de um banco de dados para armazenar informações detalhadas sobre o receptor e suas conformações, ligantes e experimentos de docagem molecular, chamado FReDD. Com os dados organizados no FReDD, foi possível a aplicação de diferentes técnicas de mineração de dados. O primeiro conjunto de experimentos foi realizado utilizando o algoritmo de classificação J48. O segundo conjunto de experimentos foi executado com o algoritmo de regressão M5P, onde apesar de resultados interessantes, a utilização direta para seleção de conformações em futuros experimentos de docagem molecular não se mostrou promissora. Finalmente, foram executados os experimentos de agrupamento com 10 diferentes algoritmos, com entradas variadas. Para os algoritmos de agrupamento foram desenvolvidas diferentes funções de similaridade onde os resultados finais utilizados em conjunto com o padrão de dados P-MIA permitiu a redução efetiva da quantidade de experimentos de docagem. |