Optimization of library preparation methods to improve RNA-Sequencing analysis

Avanzato, Carla Giuseppina

L’ arrivo del Sequenziamento di Nuova Generazione ha rivoluzionato il mondo della transcrittomica, permettendo l’affermarsi dell’ RNA-Sequencing (RNA-Seq), che in breve tempo ha soppiantato i precedenti microarrays e le altre tecniche basate sul sequenziamento Sanger. Un esperimento di RNA-Seq, dopo essere stato messo a punto ed avvenuta l’estrazione dell’ RNA, prevede: una fase di “selezione” in cui vengono scartati gli rRNA che costituiscono la componente piu’ abbondante del trascrittoma, ma inutile per questo tipo di analisi, la fase successiva e’ la produzione di una libreria di cDNA. I metodi standard di produzione delle librerie non ci permettono di capire da quale strand del DNA il trascritto viene codificato;tuttavia sono stati sviluppati metodi per la produzione di librerie direzionali grazie alle quali e’ possibile capire lo strand di provenienza di ogni trascritto. Ad ogni modo, il metodo di Selezione dell’ RNA e di preparazione della libreria dipendono dall’ obbiettivo finale e dovrebbero essere scelti con estrema attenzione prima di iniziare l’ esperimento. Lo scopo di questo lavoro e’ quello di ottimizzare i protocolli di produzione delle librerie al fine di trovare il metodo piu’ efficiente per rispondere alle esigenze e domande di ogni progetto di ricerca. Trovare quindi, una strategia che permetta di rispondere al quesito biologico in questione, e di farlo utilizzando budget e tempistiche disponibili. All’ inizio di questo lavoro e’ stato ottimizzato il protocollo del kit TruSeq RNA dell’ Illumina, in modo da rendere la produzione delle librerie il piu’ veloce ed efficiente possibile. I cambiamenti al protocollo sono stati apportati nelle seguenti fasi: tempo di frammentazione, numero dei cicli di PCR, tempo di incubazione delle Ampure XP beads (utilizzate per purificare) e inoltre, per le librerie che andranno sequenziate in Paired – Ends, e’ stata aggiunta una fase di size selection finale. Successivamente sono state confrontate reads prodotte da sequenziamento in Paired – ends (PE) e Single – ends (SE) per capire se, per studi di analisi di espressione differenziale, fosse necessario il sequenziamento in PE. Infatti, nell’analisi di espressione differenziale e’ necessario utilizzare almeno 3 replicati per ogni condizione; questo comporta un costo molto elevato, specialmente quando si sequenzia in PE. Certamente, le reads prodotte dal sequenziamento in PE permettono una piu’ completa e accurata ricostruzione del trascrittoma e, quindi, dovrebbero essere sempre utilizzate quando si lavora con specie per le quali non c’e’ un genoma o trascrittoma di riferimento e deve essere fatto un assemblaggio de-novo. Tuttavia, la nostra comparazione mostra che i dati prodotti dal sequenziamento in PE e SE degli stessi campioni, producono un ugual numero di frammenti mappanti e hanno livelli di espressione altamente correlati. Per cui, possiamo affermare che il sequenziamento in SE e’ sufficiente ed economico nei casi in cui lo scopo del progetto e’ la misura dell’ espressione genica. Nella seconda parte di questo lavoro e’ stata dimostrata la superiorita’ delle librerie direzionali, poiche’ solo con il loro utilizzo si possono ben distinguere due o piu’ geni sovrapposti. Le librerie direzionali sono poi state utilizzate in due progetti in cui lo scopo principale era quello di utilizzare i dati RNA-Seq per fare annotazione genica. Nel primo caso, per l’annotazione del genoma della Melanzana (Solanum melongena), sono state prodotte e sequenziate in PE 20 librerie direzionali. Nel caso invece dell’ annotazione di Nebbiolo (Vitis vinifera cultivar), in cui si aveva a disposizione un budget limitato, 28 differenti campioni sono stati uniti e dal pool e’ stata prodotta una sola libreria direzionale, che e’ stata normalizzata tramite trattamento con Duplex Specific Nuclease (DSN) prima di essere sequenziata, al fine di abbassare il segnale proveniente dai trascritti piu’ espressi e permettere, quindi, di caratterizzare anche quelli poco espressi e i tessuto-specifici; infine la libreria e’ stata sequenziata in PE. In entrambi i casi e’ stato prodotto un buon data set di trascritti da utilizzare per la successiva annotazione. La strategia implementata per l’ annotazione di Nebbiolo non solo si e’ rivelata altamente efficace per lo scopo previsto, ma e’ anche un metodo molto piu’ economico e veloce se comprato con la produzione di diverse librerie indipendenti, come e’ stato fatto per Melanzana. Tuttavia, mentre la produzione di una singola libreria normalizzata e’ limitata al solo scopo di fare annotazione genica, dall’ altra parte, la produzione di librerie indipendenti, mantenendo l’individualita’ di ogni campione, permette l’utilizzo dei dati prodotti per ulteriori applicazioni, come per esempio la valutazione dei livelli di espressione. In conclusione, quindi, in questo settore, non esiste un unico metodo ideale, ma la strategia da scegliere dipende sempre dal fine ultimo dell’ esperimento e dalle risorse a disposizione. Il nostro compito e’ quello di comprendere al meglio le tecnologie e utilizzarle in maniera efficiente per rispondere alle diverse esigenze di ogni progetto di ricerca.

Advent of New Generation Sequencing Technology has revolutionized transcriptomic studies by allowing RNA analysis through cDNA sequencing at massive scale (RNA-Sequencing), supplanting previously microarrays and Sanger sequencing based approaches. After the design of experiment and RNA isolation, the first steps in RNA-Seq workflow are RNA Selection, that is done to remove rRNAs that are the most abundant and less useful components of transcriptome, and cDNA library production. Standard libraries do not discriminate from which DNA strand a transcript is encoded, but methods to produce directional libraries were developed. Directional libraries have the ability to preserve strandness information. Anyway RNA Selection and Library preparation methods depend on the final goal of experiment and should be carefully established before the starting. The aim of this work is to optimize protocols for RNA-Seq library, in order to find the more suitable strategy for each research project. A strategy that on one hand gives the required biological answer and, on the other hand, allows to use available resources in terms of time and money. Firstly the protocol of Illumina TruSeq RNA kit is optimized in order to produce libraries in less time and more efficiently manner. The adjustment focused on the following steps: time of fragmentation, number of PCR cycles, time of Ampure XP beads (used to purify) incubation and also, for finished libraries that will be sequenced in Paired – Ends, size selection step is added. Then Paired – Ends (PE) and Single - Ends (SE) reads, produced for differential gene expression study, were compared, because a good study of differential expression requires at least 3 replicates for each condition and the costs could be high, especially when PE sequencing is done. Even if PE sequencing allows a more accurate transcriptome reconstruction and should be compulsory for species that do not have reference genome or transcriptome and require de novo assembly, our comparison shows that PE and SE data, from the same samples, produce an equal number of mapping fragments and have highly correlated expression level. These considerations demonstrate that production of SE data can be sufficient and more cost effective when the aim of the project is to quantify gene expression. In the second part of this work superiority of directional libraries was demonstrated, because they allow to resolve overlapping genes. Then directional libraries were used for two genome annotation projects. For Eggplant (Solanum melongena) genome annotation, 20 separated directional libraries were produced and sequenced in PE; while for Nebbiolo (Vitis vinifera cultivar) genome annotation, budget was limited and an alternative strategy was find: only one directional library from a pool of 28 different RNA samples was produced; finished library was normalized by Duplex Specific Nuclease (DSN) treatment in order to reduce the signal from more expressed transcripts and allow to characterize also the less represented and tissue specific ones; finally normalized library was sequenced in PE. In both cases a good set of transcripts to use for genome annotation, was produced. DSN-method implemented for the Nebbiolo annotation allows to perform the entire experiment by producing one single normalized library, thus making this approach certainly faster and economically convenient. However data from normalized library cannot be used for applications other than annotation itself. While in the analysis of separated samples, as used for eggplant, identity of each one is maintained and generated data can be exploited for further application, as for example to identify expression level of each tissues. In conclusion in RNA-Seq field there is not an unique ideal method, but the choice of workflow depends on the final goal of the project and the available resources. Our role is to know and understand technology, in order to use it in more efficient manner in each different situation.