Nel 2003, dopo più di una decada di ricerca, il progetto genoma umano (HGP) è stato completato. Gli obiettivi del HGP erano identificare la sequenza dei 3 miliardi di base di cui è composto il DNA che complessivamente formano il genoma umano, nonché identificare la posizione di tutti i geni in questa enorme quantità di dati. I singoli geni all'interno dei lunghi filamenti di DNA, e gli elementi che controllano i geni, sono ancora in fase di essere identificati completamente. Una delle prime speranze del progetto è stato quello di individuare specifici geni che causano malattie genetiche. Ora sappiamo che la risposta è molto più complessa, la maggior parte delle malattie genetiche sono complesse e causate da una combinazione di fattori genetici, ambientali e di stile di vita. Tuttavia, le informazioni acquisite dal HGP negli ultimi anni insieme alla ricerca di base hanno il potenziale per trasformare per sempre l'assistenza sanitaria. Siamo già entrati in un'epoca in cui è possibile analizzare genomi umani interi (attraverso il ri-sequenziamento) o regioni del DNA mirate in tempi e costi ragionevoli. Recentemente il presidente Americano Obama ha lanciato l’iniziativa “Precision Medicine Initiative” (PMI), la quale cerca di identificare le basi genetiche che sono alla base delle malattie con lo scopo di sviluppare nuovi e più efficaci terapie. La medicina di precisione consiste nell'uso di nuovi metodi di analisi molecolare per gestire meglio la malattia di un paziente o per prevedere la predisposizione verso quella malattia. Ciò comporta l'introduzione di nuovi test diagnostici, molti dei quali sono derivati da tecnologie di Next-Generation Sequencing (NGS). I ricercatori stanno quindi setacciando segmenti del DNA per cercare varianti genetiche, ovvero cercano significative differenze che potrebbero potenzialmente portare a un trattamento. Attualmente, i medici si stano concentrando nella medicina personalizzata, cioè utilizzano informazioni personali, come ad esempio i dati clinici, genetici, genomici e ambientali del paziente. Poiché questi fattori sono diversi per ogni persona, lo sono anche le basi delle loro malattie, tra cui l’insorgenza, il decorso, e come potrebbero rispondere a farmaci o altri interventi. Le tecnologie NGS si stano dimostrando esitose nella ricerca delle cause di malattie Mendeliana e rare. Questo rappresenta un enorme progresso nella nostra capacità di fornire diagnosi corrette per i pazienti con malattie ereditarie rare e per le loro famiglie. Non solo è possibile diagnosticare, in maniera rapida e sicura, tutti i difetti noti di un singolo gene, ma anche nuove cause di malattia nei casi precedentemente irrisolti possono anche essere identificati. Tutto questo sta portando sempre di più all'uso delle tecnologie NGS nella diagnostica medica. Questa tesi si propone di valutare i principali protocolli per ricercare le varianti genetiche associate a malattie attraverso l’uso di tecnologie NSG e di valutare l'affidabilità delle informazioni acquisite. Al fine di valutare la procedura complessiva per individuare le varianti genetiche associate a malattia, diversi casi di studio sono state realizzati in modo da valutare le singole sotto-procedure individualmente cioè la chiamata delle varianti, l’annotazione delle varianti e la prioritizzazione delle varianti. Oltre alla conoscenza delle varianti genetiche che sono associate a una malattia, è anche importante capire come queste varianti influenzano le proteine codificate. Una profonda caratterizzazione delle relazioni struttura/funzione tra la proteina “wild type” e quella mutata è quindi necessaria per una valutazione completa dei putativi effetti della variante. Inoltre, PMI introduce test diagnostici che verrano utilizzati per selezionare terapie appropriate e ottimali in base al contesto genetico di un paziente, cioè, la farmacogenomica, quindi introdurre nuovi farmaci personalizzati e anticorpi a contrastare l'influenza di proteine causative di malattia, ad esempio, il farmaco Imatinib è stato progettato per inibire un enzima alterato dovuto alla fusione di due geni che provocano la leucemia mieloide cronica (CML). Tutto questo viene realizzato analizzando e caratterizzando le proteine, le quali sono considerate la mano d’opera di un gene. Tuttavia, ci troviamo di fronte a difficoltà oggettive nell’utilizzare tecniche sperimentali, perche queste rappresentano uno sforzo molto costoso in termini di tempo e denaro. Ciò richiama alle tecniche di biologia computazionale, le quali possono essere utilizzati per studiare gli effetti di una variante in una proteina. “Protein bioinformatics” cerca di spiegare tutti gli aspetti delle proteine, tra cui l’analisi della sequenza e della struttura, la predizione delle strutture proteiche, il ripiegamento delle proteine, la stabilità di una proteina, e le interazioni tra proteine, tutto questo attraverso diversi strumenti di bioinformatica disponibili nella comunità scientifica per l'analisi, la caratterizzazione e la predizione delle proteine. Questa tesi si propone quindi di sviluppare un protocollo efficace che sia in grado di dare spunti sugli effetti strutturali/funzionali della variante genetica associata a malattia a livello di proteina utilizzando strumenti di “protein bioinformatics”. Con lo scopo di applicare questi metodi e quindi di poter sviluppare questo protocollo computazionale, sono stati realizzati diversi casi di studio utilizzando strumenti di “protein bioinformatics”, ognuno con diverse mutazioni in proteine associate a diverse malattie genetiche.

In 2003, after more than a decade of research, the Human Genome Project (HGP) was completed. The goals of the HGP were to identify the sequence of the 3 billion units of DNA that go into making a human genome, as well as to identify all of the genes located in this vast amount of data. The individual genes within the long strands of DNA, and the elements that control the genes, are still in the process of being identified completely. One of the early hopes of the genomic project was to pinpoint specific genes that cause genetic diseases. Now we know the answer is more complex, most of the genetic diseases are complex and caused by a combination of genetic, environmental and lifestyle factors. Nevertheless, the information gained from the HGP and basic research in last years has the potential to forever transform healthcare. We have already entered into an era in which it is now possible to analyze complete human genomes (through re-sequencing) or targeted sequencing tests within reasonable time frames and at a reasonable cost. Recently the American president Obama has launched Precision Medicine Initiative (PMI) which seeks to identify genetically-based drivers of disease in order to develop new, more effective treatments. Precision medicine consists in the use of new methods of molecular analysis to better manage a patient’s disease or to predict the predisposition toward the disease. This involves the introduction of new diagnostic tests, many of which are derived from Next-Generation Sequencing (NGS) technologies. Researchers are combing through segments of this data to look for genetic variants, potentially meaningful differences that might eventually result in a treatment. Currently, the medical doctors are focused in personal medicine, which use personal information, such as the clinical, genetic, genomic and environmental data. Because these factors are different for every person, then so are also the basis of their diseases, including their onset, their course, and how they might respond to drugs or other interventions. The NGS technologies have been remarkably successful in finding the causes of Mendelian and rare diseases. This represents a huge advance in our ability to provide correct diagnoses for patients with rare inherited disorders and their families. Not only can rapid and safe diagnostics of virtually all known single-gene defects now be established, but novel causes of disease in previously unsolved cases can also be identified. All of this is leading increasingly to the use of these NGS technologies in the medical diagnostics. This thesis aims to assess the main protocols to search for disease-associated genetic variants through NSG as well as the reliability of the genetic information acquired. In order to assess the overall procedure necessary to detect disease-associated genetic variants, several case studies were made so to assess individually single sub-procedures regarding variant calling, variant annotation and variant prioritization pipelines. In addition to knowledge of the disease-associated genetic variants, it is also important to understand how these affect the encoded proteins. A deep characterization of the structure/function relationships of the wild type and mutated protein is thus needed for a complete assessment of the putative effect of the variant. Further, PMI is introducing diagnostic testing which will be used for selecting appropriate and optimal therapies based on the genetic context of a patient, i.e., pharmacogenomics, thus to introduce new personalized drugs and antibodies designed to counter the influence of specific molecular drivers, e.g., the drug Imatinib was designed to inhibit an altered enzyme produced by a fused version of two genes found in Chronic Myelogenous Leukemia (CML). All of this is accomplished by analyzing and characterizing proteins, which are considered the task force of a gene. However, we face the objective difficulties of using experimental techniques in a protein, representing a very expensive effort in terms of time and money. This calls for computational biology techniques, which can be used to study the effects of a variant on a protein. Protein bioinformatics explains all aspects of proteins including sequence and structure analysis, prediction of protein structures, protein folding, protein stability, and protein interactions through several bioinformatics tools available in the literature for protein analysis, characterization and prediction. This thesis aims also to develop an efficient computational protocol able to give insights into the structural/functional effects of the disease-associated genetic variant at the protein level through protein bioinformatics tools. In order to apply these methods to develop this computational protocol, several cases of study were performed using protein bioinformatics tools, each one with several mutations on proteins associated to different genetic diseases.

Functional characterization of disease-associated genetic variants: insights from protein bioinformatics

Marin Vargas, Sergio Paul
2016-01-01

Abstract

In 2003, after more than a decade of research, the Human Genome Project (HGP) was completed. The goals of the HGP were to identify the sequence of the 3 billion units of DNA that go into making a human genome, as well as to identify all of the genes located in this vast amount of data. The individual genes within the long strands of DNA, and the elements that control the genes, are still in the process of being identified completely. One of the early hopes of the genomic project was to pinpoint specific genes that cause genetic diseases. Now we know the answer is more complex, most of the genetic diseases are complex and caused by a combination of genetic, environmental and lifestyle factors. Nevertheless, the information gained from the HGP and basic research in last years has the potential to forever transform healthcare. We have already entered into an era in which it is now possible to analyze complete human genomes (through re-sequencing) or targeted sequencing tests within reasonable time frames and at a reasonable cost. Recently the American president Obama has launched Precision Medicine Initiative (PMI) which seeks to identify genetically-based drivers of disease in order to develop new, more effective treatments. Precision medicine consists in the use of new methods of molecular analysis to better manage a patient’s disease or to predict the predisposition toward the disease. This involves the introduction of new diagnostic tests, many of which are derived from Next-Generation Sequencing (NGS) technologies. Researchers are combing through segments of this data to look for genetic variants, potentially meaningful differences that might eventually result in a treatment. Currently, the medical doctors are focused in personal medicine, which use personal information, such as the clinical, genetic, genomic and environmental data. Because these factors are different for every person, then so are also the basis of their diseases, including their onset, their course, and how they might respond to drugs or other interventions. The NGS technologies have been remarkably successful in finding the causes of Mendelian and rare diseases. This represents a huge advance in our ability to provide correct diagnoses for patients with rare inherited disorders and their families. Not only can rapid and safe diagnostics of virtually all known single-gene defects now be established, but novel causes of disease in previously unsolved cases can also be identified. All of this is leading increasingly to the use of these NGS technologies in the medical diagnostics. This thesis aims to assess the main protocols to search for disease-associated genetic variants through NSG as well as the reliability of the genetic information acquired. In order to assess the overall procedure necessary to detect disease-associated genetic variants, several case studies were made so to assess individually single sub-procedures regarding variant calling, variant annotation and variant prioritization pipelines. In addition to knowledge of the disease-associated genetic variants, it is also important to understand how these affect the encoded proteins. A deep characterization of the structure/function relationships of the wild type and mutated protein is thus needed for a complete assessment of the putative effect of the variant. Further, PMI is introducing diagnostic testing which will be used for selecting appropriate and optimal therapies based on the genetic context of a patient, i.e., pharmacogenomics, thus to introduce new personalized drugs and antibodies designed to counter the influence of specific molecular drivers, e.g., the drug Imatinib was designed to inhibit an altered enzyme produced by a fused version of two genes found in Chronic Myelogenous Leukemia (CML). All of this is accomplished by analyzing and characterizing proteins, which are considered the task force of a gene. However, we face the objective difficulties of using experimental techniques in a protein, representing a very expensive effort in terms of time and money. This calls for computational biology techniques, which can be used to study the effects of a variant on a protein. Protein bioinformatics explains all aspects of proteins including sequence and structure analysis, prediction of protein structures, protein folding, protein stability, and protein interactions through several bioinformatics tools available in the literature for protein analysis, characterization and prediction. This thesis aims also to develop an efficient computational protocol able to give insights into the structural/functional effects of the disease-associated genetic variant at the protein level through protein bioinformatics tools. In order to apply these methods to develop this computational protocol, several cases of study were performed using protein bioinformatics tools, each one with several mutations on proteins associated to different genetic diseases.
2016
mendelian disease, genetic variant, mutation, protein bioinformatics, bioinformatics
Nel 2003, dopo più di una decada di ricerca, il progetto genoma umano (HGP) è stato completato. Gli obiettivi del HGP erano identificare la sequenza dei 3 miliardi di base di cui è composto il DNA che complessivamente formano il genoma umano, nonché identificare la posizione di tutti i geni in questa enorme quantità di dati. I singoli geni all'interno dei lunghi filamenti di DNA, e gli elementi che controllano i geni, sono ancora in fase di essere identificati completamente. Una delle prime speranze del progetto è stato quello di individuare specifici geni che causano malattie genetiche. Ora sappiamo che la risposta è molto più complessa, la maggior parte delle malattie genetiche sono complesse e causate da una combinazione di fattori genetici, ambientali e di stile di vita. Tuttavia, le informazioni acquisite dal HGP negli ultimi anni insieme alla ricerca di base hanno il potenziale per trasformare per sempre l'assistenza sanitaria. Siamo già entrati in un'epoca in cui è possibile analizzare genomi umani interi (attraverso il ri-sequenziamento) o regioni del DNA mirate in tempi e costi ragionevoli. Recentemente il presidente Americano Obama ha lanciato l’iniziativa “Precision Medicine Initiative” (PMI), la quale cerca di identificare le basi genetiche che sono alla base delle malattie con lo scopo di sviluppare nuovi e più efficaci terapie. La medicina di precisione consiste nell'uso di nuovi metodi di analisi molecolare per gestire meglio la malattia di un paziente o per prevedere la predisposizione verso quella malattia. Ciò comporta l'introduzione di nuovi test diagnostici, molti dei quali sono derivati da tecnologie di Next-Generation Sequencing (NGS). I ricercatori stanno quindi setacciando segmenti del DNA per cercare varianti genetiche, ovvero cercano significative differenze che potrebbero potenzialmente portare a un trattamento. Attualmente, i medici si stano concentrando nella medicina personalizzata, cioè utilizzano informazioni personali, come ad esempio i dati clinici, genetici, genomici e ambientali del paziente. Poiché questi fattori sono diversi per ogni persona, lo sono anche le basi delle loro malattie, tra cui l’insorgenza, il decorso, e come potrebbero rispondere a farmaci o altri interventi. Le tecnologie NGS si stano dimostrando esitose nella ricerca delle cause di malattie Mendeliana e rare. Questo rappresenta un enorme progresso nella nostra capacità di fornire diagnosi corrette per i pazienti con malattie ereditarie rare e per le loro famiglie. Non solo è possibile diagnosticare, in maniera rapida e sicura, tutti i difetti noti di un singolo gene, ma anche nuove cause di malattia nei casi precedentemente irrisolti possono anche essere identificati. Tutto questo sta portando sempre di più all'uso delle tecnologie NGS nella diagnostica medica. Questa tesi si propone di valutare i principali protocolli per ricercare le varianti genetiche associate a malattie attraverso l’uso di tecnologie NSG e di valutare l'affidabilità delle informazioni acquisite. Al fine di valutare la procedura complessiva per individuare le varianti genetiche associate a malattia, diversi casi di studio sono state realizzati in modo da valutare le singole sotto-procedure individualmente cioè la chiamata delle varianti, l’annotazione delle varianti e la prioritizzazione delle varianti. Oltre alla conoscenza delle varianti genetiche che sono associate a una malattia, è anche importante capire come queste varianti influenzano le proteine codificate. Una profonda caratterizzazione delle relazioni struttura/funzione tra la proteina “wild type” e quella mutata è quindi necessaria per una valutazione completa dei putativi effetti della variante. Inoltre, PMI introduce test diagnostici che verrano utilizzati per selezionare terapie appropriate e ottimali in base al contesto genetico di un paziente, cioè, la farmacogenomica, quindi introdurre nuovi farmaci personalizzati e anticorpi a contrastare l'influenza di proteine causative di malattia, ad esempio, il farmaco Imatinib è stato progettato per inibire un enzima alterato dovuto alla fusione di due geni che provocano la leucemia mieloide cronica (CML). Tutto questo viene realizzato analizzando e caratterizzando le proteine, le quali sono considerate la mano d’opera di un gene. Tuttavia, ci troviamo di fronte a difficoltà oggettive nell’utilizzare tecniche sperimentali, perche queste rappresentano uno sforzo molto costoso in termini di tempo e denaro. Ciò richiama alle tecniche di biologia computazionale, le quali possono essere utilizzati per studiare gli effetti di una variante in una proteina. “Protein bioinformatics” cerca di spiegare tutti gli aspetti delle proteine, tra cui l’analisi della sequenza e della struttura, la predizione delle strutture proteiche, il ripiegamento delle proteine, la stabilità di una proteina, e le interazioni tra proteine, tutto questo attraverso diversi strumenti di bioinformatica disponibili nella comunità scientifica per l'analisi, la caratterizzazione e la predizione delle proteine. Questa tesi si propone quindi di sviluppare un protocollo efficace che sia in grado di dare spunti sugli effetti strutturali/funzionali della variante genetica associata a malattia a livello di proteina utilizzando strumenti di “protein bioinformatics”. Con lo scopo di applicare questi metodi e quindi di poter sviluppare questo protocollo computazionale, sono stati realizzati diversi casi di studio utilizzando strumenti di “protein bioinformatics”, ognuno con diverse mutazioni in proteine associate a diverse malattie genetiche.
File in questo prodotto:
File Dimensione Formato  
Thesis.pdf

non disponibili

Descrizione: Doctoral Thesis of Sergio Paul Marin Vargas
Tipologia: Tesi di dottorato
Licenza: Dominio pubblico
Dimensione 9.8 MB
Formato Adobe PDF
9.8 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/939384
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact