L'avvento della Seconda Generazione delle tecnologie di sequenziamento ha cambiato profondamente il processo di generazione di dati a partire dalle molecole di DNA, che è diventato più economico e più veloce. La varietà di tecnologie e strumenti per la ricostruzione disponibili, ognuna con differenti punti di forza e debolezze, rende difficoltoso il compito di definire il set-up sperimentale ottimale per ricostruire il genoma di una nuova specie. In questo lavoro è stata affrontata la ricostruzione di genomi di diverse specie con molteplici strategie. Questo ha reso possibile definire dei protocolli che ottimizzano costi e risultati in funzione delle caratteristiche genetiche dell’oggetto dello studio. Nel caso di organismi batterici, la ridotta lunghezza e la bassa complessità della sequenza genetica permette di ottenere risultati di alta qualità anche utilizzando una singola libreria Illumina standard, in maniera indipendente da quale algoritmo si decida di utilizzare per la ricostruzione. Genomi fungini mostrano invece, assieme ad una lunghezza maggiore, un’aumentata complessità rispetto ai genomi di procarioti. L’uso di librerie standard Illumina da sole non consente di eliminare il problema della frammentazione e l’ottimizzazione delle procedure bioinformatiche migliora solo marginalmente i risultati. L’aggiunta di librerie Mate Pair oppure il sequenziamento con tecnologia PacBio sono due alternative che portano, con costi similari, a risultati di alta qualità. I genomi delle piante oltre ad essere essere più lunghi presentano li maggiore grado di complessità, con un elevato contenuto in ripetizioni e alti tassi di eterozigosità. Le librerie standard di Illumina, a causa della ridotta lunghezza dei frammenti sequenziati, non possono ridurre il problema della frammentazione delle sequenze consenso. Le librerie Mate Pair, invece, riescono a ridurre il problema, le più lunghe superano ripetizioni più estese mentre le più corte migliorano al ricostruzione del contenuto dei gap. La tecnologia PacBio ha dimostrato di essere una soluzione efficace nella riduzione della frammentazione, ma il costo proibitivo ne impedisce l’uso da sola. L’assemblaggio ibrido è una possibile alternativa combinando un’elevata profondità di sequenziamento di reads Illumina, corte ma economiche e affidabili, con una limitata quantità di reads PacBio, lunghe ma con un alto tasso d’errore. Questa soluzione porta ad una riduzione dei costi di sequenziamento ma anche a risultati di qualità inferiore, in aggiunta le risorse computazionali necessarie crescono a dismisura. Sono disponibili molteplici soluzioni al problema della ricostruzione della sequenza di un genoma ma sono le caratteristiche del genoma stesso che indicano la combinazione di tecnologia di sequenziamento e procedimento informatico che meglio ottimizzano i costi e le qualità dei risultati ottenibili.

The advent of the Second Generation of sequencing technologies deeply changed the process of generating data from DNA molecules, which has become cheaper and faster. The multiplicity of technologies and assembly tools available, each with different strengths and weaknesses, turns the choice of a proper experimental set-up when approaching the genome of a new species into a difficult task. In this work, multiple strategies have been adopted for reconstructing the genomes of different species. This has allowed profiling of the practices that best optimize costs and results according to the genetic characteristics of the subject of study. When dealing with bacterial organisms, the short genome length and a low complexity of the underlying sequence allows to obtain a high quality draft even when using only one standard Illumina library - regardless of the assembly procedure adopted. Fungal genomes show an increased length and a higher complexity when compared with prokaryotic organisms. Standard Illumina libraries are not sufficient to overcome the fragmentation issue of the draft sequence, and improving the computational assembly pipeline shows only a limited power in ameliorating the results. Additional Mate Pair sequencing data or PacBio long reads sequencing can be adequate alternatives, as they both lead to high quality assembly results at similar expenses. Long plant genomes show the highest complexity degree, with an elevated repetitive content and high heterozygosity rate. Standard Illumina libraries are not sufficient to overcome the fragmentation problem due to the limited insert size. Mate pair sequences greatly improve the results, with longer libraries spanning longer repeats and shorter ones improving the gap reconstruction. PacBio showed to be an effective solution to this problem, but given its high sequencing costs it is prohibitive to adopt this technology alone for reconstruction. Hybrid assembly is a possible alternative, combining an high coverage of Illumina short but cheap and reliable reads with a low coverage of longer but more erroneous PacBio reads. This solution has lower sequencing costs, but the quality of the results is limited by the coverage of long reads; moreover, the computational resources necessary to perform error correction and assembly are massively increased. -4- When approaching the reconstruction of a genome, therefore, multiple solutions are available – but it is the available knowledge of its characteristics that indicates the best combination of assembly tools and sequencing technologies to optimise both expenses and quality of the results.

Genome Assembly With 2nd Generation Sequencing Technologies: Definition of Best Experimental Design In Relation To Genomic Features

Minio, Andrea
2015

Abstract

L'avvento della Seconda Generazione delle tecnologie di sequenziamento ha cambiato profondamente il processo di generazione di dati a partire dalle molecole di DNA, che è diventato più economico e più veloce. La varietà di tecnologie e strumenti per la ricostruzione disponibili, ognuna con differenti punti di forza e debolezze, rende difficoltoso il compito di definire il set-up sperimentale ottimale per ricostruire il genoma di una nuova specie. In questo lavoro è stata affrontata la ricostruzione di genomi di diverse specie con molteplici strategie. Questo ha reso possibile definire dei protocolli che ottimizzano costi e risultati in funzione delle caratteristiche genetiche dell’oggetto dello studio. Nel caso di organismi batterici, la ridotta lunghezza e la bassa complessità della sequenza genetica permette di ottenere risultati di alta qualità anche utilizzando una singola libreria Illumina standard, in maniera indipendente da quale algoritmo si decida di utilizzare per la ricostruzione. Genomi fungini mostrano invece, assieme ad una lunghezza maggiore, un’aumentata complessità rispetto ai genomi di procarioti. L’uso di librerie standard Illumina da sole non consente di eliminare il problema della frammentazione e l’ottimizzazione delle procedure bioinformatiche migliora solo marginalmente i risultati. L’aggiunta di librerie Mate Pair oppure il sequenziamento con tecnologia PacBio sono due alternative che portano, con costi similari, a risultati di alta qualità. I genomi delle piante oltre ad essere essere più lunghi presentano li maggiore grado di complessità, con un elevato contenuto in ripetizioni e alti tassi di eterozigosità. Le librerie standard di Illumina, a causa della ridotta lunghezza dei frammenti sequenziati, non possono ridurre il problema della frammentazione delle sequenze consenso. Le librerie Mate Pair, invece, riescono a ridurre il problema, le più lunghe superano ripetizioni più estese mentre le più corte migliorano al ricostruzione del contenuto dei gap. La tecnologia PacBio ha dimostrato di essere una soluzione efficace nella riduzione della frammentazione, ma il costo proibitivo ne impedisce l’uso da sola. L’assemblaggio ibrido è una possibile alternativa combinando un’elevata profondità di sequenziamento di reads Illumina, corte ma economiche e affidabili, con una limitata quantità di reads PacBio, lunghe ma con un alto tasso d’errore. Questa soluzione porta ad una riduzione dei costi di sequenziamento ma anche a risultati di qualità inferiore, in aggiunta le risorse computazionali necessarie crescono a dismisura. Sono disponibili molteplici soluzioni al problema della ricostruzione della sequenza di un genoma ma sono le caratteristiche del genoma stesso che indicano la combinazione di tecnologia di sequenziamento e procedimento informatico che meglio ottimizzano i costi e le qualità dei risultati ottenibili.
genomics; Genome assembly; De novo assembly
The advent of the Second Generation of sequencing technologies deeply changed the process of generating data from DNA molecules, which has become cheaper and faster. The multiplicity of technologies and assembly tools available, each with different strengths and weaknesses, turns the choice of a proper experimental set-up when approaching the genome of a new species into a difficult task. In this work, multiple strategies have been adopted for reconstructing the genomes of different species. This has allowed profiling of the practices that best optimize costs and results according to the genetic characteristics of the subject of study. When dealing with bacterial organisms, the short genome length and a low complexity of the underlying sequence allows to obtain a high quality draft even when using only one standard Illumina library - regardless of the assembly procedure adopted. Fungal genomes show an increased length and a higher complexity when compared with prokaryotic organisms. Standard Illumina libraries are not sufficient to overcome the fragmentation issue of the draft sequence, and improving the computational assembly pipeline shows only a limited power in ameliorating the results. Additional Mate Pair sequencing data or PacBio long reads sequencing can be adequate alternatives, as they both lead to high quality assembly results at similar expenses. Long plant genomes show the highest complexity degree, with an elevated repetitive content and high heterozygosity rate. Standard Illumina libraries are not sufficient to overcome the fragmentation problem due to the limited insert size. Mate pair sequences greatly improve the results, with longer libraries spanning longer repeats and shorter ones improving the gap reconstruction. PacBio showed to be an effective solution to this problem, but given its high sequencing costs it is prohibitive to adopt this technology alone for reconstruction. Hybrid assembly is a possible alternative, combining an high coverage of Illumina short but cheap and reliable reads with a low coverage of longer but more erroneous PacBio reads. This solution has lower sequencing costs, but the quality of the results is limited by the coverage of long reads; moreover, the computational resources necessary to perform error correction and assembly are massively increased. -4- When approaching the reconstruction of a genome, therefore, multiple solutions are available – but it is the available knowledge of its characteristics that indicates the best combination of assembly tools and sequencing technologies to optimise both expenses and quality of the results.
File in questo prodotto:
File Dimensione Formato  
Tesi_CdR.pdf

non disponibili

Tipologia: Abstract
Licenza: Accesso ristretto
Dimensione 7.46 MB
Formato Adobe PDF
7.46 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: http://hdl.handle.net/11562/915782
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact