Design of kernel methods for classification of structured data: methodologies and applications

Carli, Anna Caterina

Molti problemi in machine learning e pattern recognition coinvolgono dati strutturati di diverse dimensioni, come ad esempio insiemi, sequenze, alberi e grafi. Tale rappresentazione strutturata dei dati permette di superare le limitazioni intrinseche della rappresentazione tradizionale tramite vettori di features. Tra le tecniche di machine learning, i metodi basati su kernel (come ad esempio le Support Vector Machines, ecc.) sono naturalmente in grado di trattare dati strutturati. Questa tesi tratta la progettazione di nuove metodologie per la classificazione di dati strutturati basata su metodi kernel. In particolare, proponiamo nuovi contributi nell'ambito dei kernel basati su modelli generativi e nell'ambito di kernel costruiti sulla base della cosiddetta rappresentazione tramite dissimilarità. L'efficacia delle metodologie proposte è stata testata su problemi di classificazione reali.

Many problems in machine learning and pattern recognition involve variable size structured data, such as sets, sequences, trees, and graphs. This structural representation of data overcomes the intrinsic limitations of the traditional, fixed-length vectorial (feature-based) representation. Among machine learning techniques, kernel methods (e.g., Support Vector Machines, etc.) can naturally deal with structured data. This thesis focuses on the design of novel methodologies for kernel-based classification of structured data. In particular, we propose new contributions in the field of generative kernels and kernels based on the generalized dissimilarity representation of data. The effectiveness of the proposed approaches are assessed on real-world classification tasks.