Performance assessment of different microarray designs using RNA-Seq as reference

Dago, DOUGBA Noel

Abstract Nell’ ultimo decennio il completamento del sequenziamento di numerosi genomi ha reso possibile lo sviluppo di potenti tecniche di analisi del trascrittoma. La tecnologia del microarray è tra le innovazioni più importanti in questo settore (analisi del trascritoma). Essa permette di quantificare contemporaneamente l’espressione di migliaia di geni di un tessuto o di une cellula di interesse tramite l’ibridazione di essi (geni) con delle sonde precedentemente immobilizzate su una piccola superficie solida (chip). La tecnologia del microarray ha fortemente contribuito ad affrontare numerose questioni biologiche su scala genomica che in precedenza non era possibile risolvere. Tuttavia, le enormi dimensioni dei dati microarray porta a problemi di progettazione sperimentale e di analisi statistiche, che nella stragrande maggioranza dei casi sono sconosciuti a molti biologi molecolari. Il tipo di array utilizzato, il designo sperimentale, il numero di repliche sperimentale e il metodo statistico per l’analisi dei dati dovrebbero essere scelti in base agli scopi scientifici del ricercatore. Nel presente lavoro abbiamo confrontato due diverse strategie di disegni microarray (singola sonda per trascritto replicata e sonde multiple per trascritto) in due piattaforme microarray altamente personalizzabili (CombiMatrix e NimbleGen). In questo lavoro abbiamo implementato una metodologia statistica basata sul confronto dei dati di espressione tra microarray e RNA-Seq per evidenziare le differenze e le cause di esse tra le diverse piattaforme/disegni. Il nostro lavoro ha dimostrato che, i quattro disegni microarray analizzati hanno diversi vantaggi e svantaggi a seconda del parametro statistico considerato (sensibilità, specificità, accuratezza). Pertanto i nostri risultati hanno fornito delle informazioni che potranno guidare il ricercatore nella scelta della piattaforma e della strategia di disegno microarray più adatto alla sua meta scientifica.

Abstract In the past decade, the completion of sequencing of higher organisms has led to the development of whole transcriptome analysis techniques. Among the most important innovations in this field is the microarray technology. It allows to quantify the expression for thousand of genes simultaneously by measuring the hybridization from a tissue or cell of interest to probes immobilized on a solid surface. This powerful technology has applications in addressing many biological questions at genomic scale that were not approachable previously; however, the enormous size of microarray data sets leads to issues of experimental design and statistical analysis that are unfamiliar to many molecular biologists. The type of array used, the design of the biological experiment, the number of experimental replicates, and the statistical method for data analysis should all be chosen based on the scientific goals of the investigator. Here we compare two different strategies of array design (single replicate probe per transcript and multiple probes per transcript) in two highly customizable microarray platforms (CombiMatrix and NimbleGen). In this work we implemented a statistical methodology based on comparison of microarrays with RNA-Seq data to highlight the differences among different platforms and array designs and the causes of such differences. Our work showed that, the four analyzed microarray designs exhibited different advantages depending on the considered parameter (sensibility, specificity, accuracy and predictive positive values ).Thus, our results provide insights and guidance that can be used by researchers for properly selecting the approach more suitable to their scientific goal.