Il continuo aumento di dati disponibili in tutti i settori sta sollevando il bisogno dei decisori di effettuare sofisticate analisi per fronteggiare l'alta competitività che caraterrizza i giorni nostri. Diversi databases sono necessari per i decisori in modo da poter analizzare il comportamento e stato di un'azienda. Queste sorgenti di dati presentano spesso diversità in formati e contenuti. Integrare queste informazioni è vitale per supportare il processo decisionale. Una delle tecniche per far fronte a queste problematiche è il Data Warehousing. I Data Warehouse possono essere interrogati ed analizzati grazie a strumenti come l'Online Analytical Processing (OLAP) ed il Data Mining. Gli strumenti di supporto alle decisioni sono recentemente stati applicati al dominio medico. Questo interesse ha sollevato alcuni problemi relativi all'uso di modelli multidimensionali convenzionali. In paricolare, questi si sono rivelati insufficienti nel soddisfare i requisiti dei domini clinici in termini di rappresentazione a supporto temporale avanzato. Il tempo è una dimensione temporale importante, e come tale va adeguatamente modellato. I domini clinici sono caratterizzati da diversi aspetti temporali, tra cui l'inizio e fine di amministrazione di farmaci. In questa tesi ci occupiamo del design e dello sviluppo di una piattaforma di supporto alle decisioni per la farmacovigilanza. Questo sistema, chiamato VigiSegn, è stato creato nel contesto di un progetto di collaborazione con il Ministero della Salute Italiano sulla sorveglianza di farmaci in commercio sul territorio. Ci siamo focalizzati sulle necessità di esperti del dominio ed analisti. Queste necessità non erano soddisfatte dai tradizionali modelli multidimensionali. Abbiamo affrontato la modellazione avanzata di strutture dati, prestando particolare attenzione alle caraterristiche temporali dei dati. In questa tesi, definiamo formalmente un modello multidimensionale, da noi proposto, per la modellazione avanzata di fatti complessi. In particolare, ci siamo focalizzati sulla modellazione dell'interazione tra due cubi multidimensionali. Il modello è stato inoltre esteso in modo da sottolineare l'importanza dell'aspetto temporale in ambito clinico. Consideriamo semantiche temporali basate sia su punti che su intervalli. Affrontiamo anche il problema di inferire nuova informazione. Proponiamo un algoritmo di data mining per scoprire dipendenze funzionali temporali ed approssimate in ambito clinico.

The increasing amount of data available in all sectors is raising the need for decision makers to perform sophisticated analyses for dealing with today's high competitive world. Several databases are needed for decision-makers in order to be able to analyze an organization as a whole. These data sources are often scattered, and not uniform among each other in content and format. Their integration is crucial for the decision-making process, and advanced analyses are needed for such a crucial task. This problem may be solved by the data warehousing approach. Data warehouses can be queried and analyzed by means of Online Analytical Processing (OLAP) and Data Mining tools. Decision support systems have been recently dedicated to medical applications. Conventional multidimensional approaches prove not to suffice clinical domain requirements in terms of representation and advanced temporal support. Time is an important and pervasive concept of the real world that needs to be adequately modeled. Indeed, clinical domains are characterized by several temporal aspects. For instance, therapies may be characterized by a start, an end, a first drug administration dates, and so on. In this thesis we first deal with the design and development of a business intelligence solution for pharmacovigilance tasks. Such a system, called VigiSegn, has been created in the context of a project in collaboration the Italian Ministry of Health on drugs surveillance over the Italian territory. We focus on domain expert needs for analyzing and assessing suspected adverse drug reaction cases. Such needs were not satisfied by current data models. We address advanced modeling aspects for multidimensional structures by paying particular attention to data temporal features. We provide a formal definition of a multidimensional model for representing complex facts, addressing the issue of adequately represent interactions between multidimensional cubes. We provide a further extension of the proposed model by underlying the importance of considering both point-based and interval-based semantics when analyzing temporal data. This include advanced interval based temporal operations, and trend discovery. We also provide a sound data mining algorithm. The attention is focused on mining (approximate) temporal functional dependencies based on a temporal grouping of tuples.

Temporal Data Analysis and Mining. A Multidimensional Approach and its Application in a Medical Domain

SABAINI, Alberto
2015

Abstract

Il continuo aumento di dati disponibili in tutti i settori sta sollevando il bisogno dei decisori di effettuare sofisticate analisi per fronteggiare l'alta competitività che caraterrizza i giorni nostri. Diversi databases sono necessari per i decisori in modo da poter analizzare il comportamento e stato di un'azienda. Queste sorgenti di dati presentano spesso diversità in formati e contenuti. Integrare queste informazioni è vitale per supportare il processo decisionale. Una delle tecniche per far fronte a queste problematiche è il Data Warehousing. I Data Warehouse possono essere interrogati ed analizzati grazie a strumenti come l'Online Analytical Processing (OLAP) ed il Data Mining. Gli strumenti di supporto alle decisioni sono recentemente stati applicati al dominio medico. Questo interesse ha sollevato alcuni problemi relativi all'uso di modelli multidimensionali convenzionali. In paricolare, questi si sono rivelati insufficienti nel soddisfare i requisiti dei domini clinici in termini di rappresentazione a supporto temporale avanzato. Il tempo è una dimensione temporale importante, e come tale va adeguatamente modellato. I domini clinici sono caratterizzati da diversi aspetti temporali, tra cui l'inizio e fine di amministrazione di farmaci. In questa tesi ci occupiamo del design e dello sviluppo di una piattaforma di supporto alle decisioni per la farmacovigilanza. Questo sistema, chiamato VigiSegn, è stato creato nel contesto di un progetto di collaborazione con il Ministero della Salute Italiano sulla sorveglianza di farmaci in commercio sul territorio. Ci siamo focalizzati sulle necessità di esperti del dominio ed analisti. Queste necessità non erano soddisfatte dai tradizionali modelli multidimensionali. Abbiamo affrontato la modellazione avanzata di strutture dati, prestando particolare attenzione alle caraterristiche temporali dei dati. In questa tesi, definiamo formalmente un modello multidimensionale, da noi proposto, per la modellazione avanzata di fatti complessi. In particolare, ci siamo focalizzati sulla modellazione dell'interazione tra due cubi multidimensionali. Il modello è stato inoltre esteso in modo da sottolineare l'importanza dell'aspetto temporale in ambito clinico. Consideriamo semantiche temporali basate sia su punti che su intervalli. Affrontiamo anche il problema di inferire nuova informazione. Proponiamo un algoritmo di data mining per scoprire dipendenze funzionali temporali ed approssimate in ambito clinico.
Temporal data mining; Temporal clinical data warehouses; data warehouse; Data model
The increasing amount of data available in all sectors is raising the need for decision makers to perform sophisticated analyses for dealing with today's high competitive world. Several databases are needed for decision-makers in order to be able to analyze an organization as a whole. These data sources are often scattered, and not uniform among each other in content and format. Their integration is crucial for the decision-making process, and advanced analyses are needed for such a crucial task. This problem may be solved by the data warehousing approach. Data warehouses can be queried and analyzed by means of Online Analytical Processing (OLAP) and Data Mining tools. Decision support systems have been recently dedicated to medical applications. Conventional multidimensional approaches prove not to suffice clinical domain requirements in terms of representation and advanced temporal support. Time is an important and pervasive concept of the real world that needs to be adequately modeled. Indeed, clinical domains are characterized by several temporal aspects. For instance, therapies may be characterized by a start, an end, a first drug administration dates, and so on. In this thesis we first deal with the design and development of a business intelligence solution for pharmacovigilance tasks. Such a system, called VigiSegn, has been created in the context of a project in collaboration the Italian Ministry of Health on drugs surveillance over the Italian territory. We focus on domain expert needs for analyzing and assessing suspected adverse drug reaction cases. Such needs were not satisfied by current data models. We address advanced modeling aspects for multidimensional structures by paying particular attention to data temporal features. We provide a formal definition of a multidimensional model for representing complex facts, addressing the issue of adequately represent interactions between multidimensional cubes. We provide a further extension of the proposed model by underlying the importance of considering both point-based and interval-based semantics when analyzing temporal data. This include advanced interval based temporal operations, and trend discovery. We also provide a sound data mining algorithm. The attention is focused on mining (approximate) temporal functional dependencies based on a temporal grouping of tuples.
File in questo prodotto:
File Dimensione Formato  
PhDthesis.pdf

non disponibili

Tipologia: Tesi di dottorato
Licenza: Accesso ristretto
Dimensione 2.12 MB
Formato Adobe PDF
2.12 MB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: http://hdl.handle.net/11562/911786
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact