Nel genoma sequenziato è stata rilevata, oltre ai circa 30.000 geni, un’enorme quantita di sequenze di cui ancora non si conoscono funzionamento e scopo. A seconda delle possibili considerazioni, la maggior parte dell’intera sequenza viene reputata non codificante, o “DNA-spazzatura”, in una stima che varia dal 72% al 98%. Sono dunque molti gli sforzi che si concentrano sull’analisi della sequenza di nucleotidi e con questa tesi si vuol proporre un nuovo contributo in questo contesto. L’analisi formale delle sequenza ha sviluppato il concetto di cluster di geni, ovvero delle regioni “interessanti” dal punto di vista dell’analisi biologica. I cluster possono essere visti come stringhe con ripetizioni oppure permutazioni di elementi tutti distinti. Approcci che non prevedono l'uso di un modello di dati, senza introdurre perdita d'informazione, catturano importanti caratteristiche sulla struttura interna dei motif e ne riducono drasticamente il numero da analizzare, conferendo un senso all'enorme numero di risultati. Utilizzando il modello a permutazioni, è stato fatto ricorso alla proprieta esibita dagli Alberi PQ di catturare un particolare tipo di pattern in una coppia di permutazioni. In questa tesi propongo un approccio alla codifica delle sequenze nucleotidiche altamente ridondanti, tale da produrre permutazioni numeriche. Questa metodologia, che usa i Suffix Tree, mira a generare codifiche esenti da alterazioni o artefatti dell'informazione genetica producendo, per design, permutazioni "compatibili" con i minimal consensus PQ Tree, i quali sono usati per la creazione della notazione massimale. Si forniscono le motivazioni che hanno ispirato questo approccio, basato sull'analisi della struttura permutativa interna delle stringhe. Si delineano alcuni possibili sviluppi e si forniscono molti esempi accompagnati da un caso d'uso reale.
Algoritmi efficienti per la scoperta di pattern ripetuti a intervalli
Rosario Lombardo
2008-01-01
Abstract
Nel genoma sequenziato è stata rilevata, oltre ai circa 30.000 geni, un’enorme quantita di sequenze di cui ancora non si conoscono funzionamento e scopo. A seconda delle possibili considerazioni, la maggior parte dell’intera sequenza viene reputata non codificante, o “DNA-spazzatura”, in una stima che varia dal 72% al 98%. Sono dunque molti gli sforzi che si concentrano sull’analisi della sequenza di nucleotidi e con questa tesi si vuol proporre un nuovo contributo in questo contesto. L’analisi formale delle sequenza ha sviluppato il concetto di cluster di geni, ovvero delle regioni “interessanti” dal punto di vista dell’analisi biologica. I cluster possono essere visti come stringhe con ripetizioni oppure permutazioni di elementi tutti distinti. Approcci che non prevedono l'uso di un modello di dati, senza introdurre perdita d'informazione, catturano importanti caratteristiche sulla struttura interna dei motif e ne riducono drasticamente il numero da analizzare, conferendo un senso all'enorme numero di risultati. Utilizzando il modello a permutazioni, è stato fatto ricorso alla proprieta esibita dagli Alberi PQ di catturare un particolare tipo di pattern in una coppia di permutazioni. In questa tesi propongo un approccio alla codifica delle sequenze nucleotidiche altamente ridondanti, tale da produrre permutazioni numeriche. Questa metodologia, che usa i Suffix Tree, mira a generare codifiche esenti da alterazioni o artefatti dell'informazione genetica producendo, per design, permutazioni "compatibili" con i minimal consensus PQ Tree, i quali sono usati per la creazione della notazione massimale. Si forniscono le motivazioni che hanno ispirato questo approccio, basato sull'analisi della struttura permutativa interna delle stringhe. Si delineano alcuni possibili sviluppi e si forniscono molti esempi accompagnati da un caso d'uso reale.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.