As testified by the COVID-19 pandemic, the ability to rapidly identify and genetically characterize emerging viruses, with focus on ones with zoonotic impact, is increasingly crucial for public health. Viruses have high mutation rates and may be involved in frequent recombination and reassortment events. These evolutionary properties lead to high genetic diversity and the emergence of new variants that may have higher zoonotic impact, virulence, and increased spread. In a scenario like this, having laboratory protocols and bioinformatic pipelines capable of promptly identifying and characterizing emerging viral variants is crucial in early warning plans aimed at preventing or promptly controlling new infectious threats. This thesis focuses on the identification and characterization of genetic sequencing data, developing a comprehensive workflow for NGS data analysis, starting from raw data generated using different sequencing approaches to the consensus sequence creation and the phylogenetic and phylodynamic methods application to study evolutionary dynamics. For the characterization of SARS-CoV-2, causative agent of the COVID-19 pandemic, specific protocols were developed, and a comparison was conducted between second-generation sequencing technologies (MiSeq, Illumina) and third-generation sequencing technologies (MinION, Nanopore). Second-generation sequencing technologies and their protocol were applied to the genetic analysis of SARS-CoV-2 identified in a domestic cat, revealing an infection with the B.1.177 variant. Improvements, optimizations, and the application of bioinformatic analyses of NGS data were also accomplished for the identification and characterization of the complete genome of Hantavirus detected in mice. Additionally, using an "untargeted" direct sequencing approach, the genome of two DNA viruses in parrots in Italy, namely Polyomavirus and a possible new Circovirus, could be characterized. Bioinformatic approaches were also applied to the analysis and study of the genome of highly pathogenic avian influenza virus (subtype H5) (HPAI). Specifically, by generating the complete genome of hundreds of H5 HPAI viruses identified during the Italian epidemic waves of 2020-2023 that affected domestic and wild birds and subsequently applying Bayesian phylogenetic and phylogeographic analyses, it was possible to reveal the co-circulation of different viral genotypes, reconstruct the pathogen's spread dynamics across the national territory, and explore the role played by different hosts in the infection. However, the study of the genome of HPAI viruses was not limited to the national situation and avian species. A severe epidemic, caused once again by H5 HPAI viruses, affected cats in Poland in the summer of 2023. Molecular and evolutionary analyses applied to the complete genome of the viruses involved in the infection revealed the circulation of a virus with mutations capable of increasing the adaptation of the avian virus to mammals and clarified that all animals involved in the epidemic event had been exposed to a common source of infection, presumably of food origin. The results generated in this PhD project emphasize the strategic importance of genetic data and bioinformatic analyses in understanding the dynamics of emergence, evolution, and dissemination of viruses and providing key information in the assessment of the risk associated with viral pathogens.

Come testimoniato dalla pandemia COVID-19, la capacità di identificare rapidamente e caratterizzare geneticamente i virus emergenti, con un focus su quelli con impatto zoonotico, è sempre più importante per la salute pubblica. I virus hanno tassi di mutazione elevati e possono essere coinvolti in frequenti eventi di ricombinazione e riassortimento. Queste proprietà evolutive portano ad un'alta diversità genetica e all'emergenza di nuove varianti che possono avere un impatto zoonotico, virulenza e diffusione più elevati. In uno scenario come questo, disporre di protocolli di laboratorio e di pipeline bioinformatiche capaci di identificare e caratterizzare tempestivamente varianti virali emergenti è cruciale in piani di early warning volti a prevenire o controllare tempestivamente nuove minacce infettive. Questa tesi si concentra sull'identificazione e caratterizzazione dei dati di sequenziamento genetico, sviluppando un flusso di lavoro completo per l'analisi dei dati NGS, partendo dai dati grezzi generati con differenti approcci di sequenziamento, fino alla creazione della sequenza consenso e all'applicazione di metodi filogenetici e filodinamici per studiare le dinamiche evolutive. Per la caratterizzazione di SARS-CoV-2, agente causativo della pandemia COVID-19, sono stati sviluppati protocolli ad hoc ed è stata condotta una comparazione tra le tecnologie di sequenziamento di seconda (MiSeq, Illumina) e terza (MinION, Nanopore) generazione. Le tecnologie di sequenziamento di seconda generazione e il loro protocollo sono stati applicati all'analisi genetica di SARS-CoV-2 identificato in un gatto domestico, rivelando un'infezione con la variante B.1.177. Il miglioramento, l'ottimizzazione e l'applicazione delle analisi bioinformatiche dei dati NGS sono stati realizzati anche per l'identificazione e caratterizzazione del genoma completo di Hantavirus rilevato nei topi. Inoltre, utilizzando un approccio di sequenziamento diretto, così detto “untargeted”, è stato possibile caratterizzare il genoma di due virus a DNA nei pappagalli in Italia: il Polyomavirus e un possibile nuovo Circovirus. Sono stati inoltre applicati approcci bioinformatici anche per l’analisi e lo studio del genoma del virus influenzale aviario ad alta patogenicità (sottotipo H5) (HPAI). In particolare, attraverso la generazione del genoma completo di centinaia di virus H5 HPAI identificati durante le ondate epidemiche italiane del 2020-2023 che hanno colpito volatili domestici e selvatici e la successiva applicazione di analisi filogenetiche e filogeografiche bayesiane, è stato possibile rilevare la co-circolazione di diversi genotipi virali, ricostruire le dinamiche di diffusione del patogeno sul territorio nazionale ed esplorare il ruolo svolto dai diversi ospiti coinvolti nell’infezione. Ma lo studio del genoma dei virus HPAI non si è limitato alla situazione nazionale e alle specie aviarie. Una grave epidemia causata ancora una volta da virus H5 HPAI ha colpito i gatti in Polonia nell’estate del 2023. Le analisi molecolari ed evolutive applicate al genoma completo dei virus coinvolti nell’infezione hanno svelato la circolazione di un virus con mutazioni capaci di aumentare l’adattamento del virus aviario al mammifero e ha consentito di chiarire che tutti gli animali coinvolti nell’evento epidemico erano stati esposti ad una comune fonte di infezione, verosimilmente di origine alimentare. I risultati generati nel presente progetto di dottorato sottolineano la strategicità del dato genetico e delle analisi bioinformatiche per comprendere le dinamiche di emergenza, evoluzione e disseminazione dei virus e per fornire informazioni chiave nella valutazione del rischio associato ai patogeni virali.

Development and application of innovative strategies for identification and characterization of viruses

pastori
2024-01-01

Abstract

As testified by the COVID-19 pandemic, the ability to rapidly identify and genetically characterize emerging viruses, with focus on ones with zoonotic impact, is increasingly crucial for public health. Viruses have high mutation rates and may be involved in frequent recombination and reassortment events. These evolutionary properties lead to high genetic diversity and the emergence of new variants that may have higher zoonotic impact, virulence, and increased spread. In a scenario like this, having laboratory protocols and bioinformatic pipelines capable of promptly identifying and characterizing emerging viral variants is crucial in early warning plans aimed at preventing or promptly controlling new infectious threats. This thesis focuses on the identification and characterization of genetic sequencing data, developing a comprehensive workflow for NGS data analysis, starting from raw data generated using different sequencing approaches to the consensus sequence creation and the phylogenetic and phylodynamic methods application to study evolutionary dynamics. For the characterization of SARS-CoV-2, causative agent of the COVID-19 pandemic, specific protocols were developed, and a comparison was conducted between second-generation sequencing technologies (MiSeq, Illumina) and third-generation sequencing technologies (MinION, Nanopore). Second-generation sequencing technologies and their protocol were applied to the genetic analysis of SARS-CoV-2 identified in a domestic cat, revealing an infection with the B.1.177 variant. Improvements, optimizations, and the application of bioinformatic analyses of NGS data were also accomplished for the identification and characterization of the complete genome of Hantavirus detected in mice. Additionally, using an "untargeted" direct sequencing approach, the genome of two DNA viruses in parrots in Italy, namely Polyomavirus and a possible new Circovirus, could be characterized. Bioinformatic approaches were also applied to the analysis and study of the genome of highly pathogenic avian influenza virus (subtype H5) (HPAI). Specifically, by generating the complete genome of hundreds of H5 HPAI viruses identified during the Italian epidemic waves of 2020-2023 that affected domestic and wild birds and subsequently applying Bayesian phylogenetic and phylogeographic analyses, it was possible to reveal the co-circulation of different viral genotypes, reconstruct the pathogen's spread dynamics across the national territory, and explore the role played by different hosts in the infection. However, the study of the genome of HPAI viruses was not limited to the national situation and avian species. A severe epidemic, caused once again by H5 HPAI viruses, affected cats in Poland in the summer of 2023. Molecular and evolutionary analyses applied to the complete genome of the viruses involved in the infection revealed the circulation of a virus with mutations capable of increasing the adaptation of the avian virus to mammals and clarified that all animals involved in the epidemic event had been exposed to a common source of infection, presumably of food origin. The results generated in this PhD project emphasize the strategic importance of genetic data and bioinformatic analyses in understanding the dynamics of emergence, evolution, and dissemination of viruses and providing key information in the assessment of the risk associated with viral pathogens.
2024
bioinformatics, sequencing, virus, Illumina, ONT, Whole-genome sequencing, Next-Generation Sequencing, Metagenomics, Phylogenetic, Evolutionary analysis, Avian Influenza, Coronavirus, Sars-CoV-2, Polyomavirus, Circovirus, Dobrova-Belgrade Virus, epidemic, pandemic, cat
Come testimoniato dalla pandemia COVID-19, la capacità di identificare rapidamente e caratterizzare geneticamente i virus emergenti, con un focus su quelli con impatto zoonotico, è sempre più importante per la salute pubblica. I virus hanno tassi di mutazione elevati e possono essere coinvolti in frequenti eventi di ricombinazione e riassortimento. Queste proprietà evolutive portano ad un'alta diversità genetica e all'emergenza di nuove varianti che possono avere un impatto zoonotico, virulenza e diffusione più elevati. In uno scenario come questo, disporre di protocolli di laboratorio e di pipeline bioinformatiche capaci di identificare e caratterizzare tempestivamente varianti virali emergenti è cruciale in piani di early warning volti a prevenire o controllare tempestivamente nuove minacce infettive. Questa tesi si concentra sull'identificazione e caratterizzazione dei dati di sequenziamento genetico, sviluppando un flusso di lavoro completo per l'analisi dei dati NGS, partendo dai dati grezzi generati con differenti approcci di sequenziamento, fino alla creazione della sequenza consenso e all'applicazione di metodi filogenetici e filodinamici per studiare le dinamiche evolutive. Per la caratterizzazione di SARS-CoV-2, agente causativo della pandemia COVID-19, sono stati sviluppati protocolli ad hoc ed è stata condotta una comparazione tra le tecnologie di sequenziamento di seconda (MiSeq, Illumina) e terza (MinION, Nanopore) generazione. Le tecnologie di sequenziamento di seconda generazione e il loro protocollo sono stati applicati all'analisi genetica di SARS-CoV-2 identificato in un gatto domestico, rivelando un'infezione con la variante B.1.177. Il miglioramento, l'ottimizzazione e l'applicazione delle analisi bioinformatiche dei dati NGS sono stati realizzati anche per l'identificazione e caratterizzazione del genoma completo di Hantavirus rilevato nei topi. Inoltre, utilizzando un approccio di sequenziamento diretto, così detto “untargeted”, è stato possibile caratterizzare il genoma di due virus a DNA nei pappagalli in Italia: il Polyomavirus e un possibile nuovo Circovirus. Sono stati inoltre applicati approcci bioinformatici anche per l’analisi e lo studio del genoma del virus influenzale aviario ad alta patogenicità (sottotipo H5) (HPAI). In particolare, attraverso la generazione del genoma completo di centinaia di virus H5 HPAI identificati durante le ondate epidemiche italiane del 2020-2023 che hanno colpito volatili domestici e selvatici e la successiva applicazione di analisi filogenetiche e filogeografiche bayesiane, è stato possibile rilevare la co-circolazione di diversi genotipi virali, ricostruire le dinamiche di diffusione del patogeno sul territorio nazionale ed esplorare il ruolo svolto dai diversi ospiti coinvolti nell’infezione. Ma lo studio del genoma dei virus HPAI non si è limitato alla situazione nazionale e alle specie aviarie. Una grave epidemia causata ancora una volta da virus H5 HPAI ha colpito i gatti in Polonia nell’estate del 2023. Le analisi molecolari ed evolutive applicate al genoma completo dei virus coinvolti nell’infezione hanno svelato la circolazione di un virus con mutazioni capaci di aumentare l’adattamento del virus aviario al mammifero e ha consentito di chiarire che tutti gli animali coinvolti nell’evento epidemico erano stati esposti ad una comune fonte di infezione, verosimilmente di origine alimentare. I risultati generati nel presente progetto di dottorato sottolineano la strategicità del dato genetico e delle analisi bioinformatiche per comprendere le dinamiche di emergenza, evoluzione e disseminazione dei virus e per fornire informazioni chiave nella valutazione del rischio associato ai patogeni virali.
File in questo prodotto:
File Dimensione Formato  
PhDThesis_AmbraPastori_36ciclo2.pdf

accesso aperto

Descrizione: Tesi dottorato in Biotecnologie con focus sulle analisi bioinformatiche di Virus a DNA e RNA
Tipologia: Tesi di dottorato
Licenza: Dominio pubblico
Dimensione 5.85 MB
Formato Adobe PDF
5.85 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/1124306
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact