A computational morphological analysis of Italian verbal system

Pascoli, Matteo

La flessione verbale in italiano, come avviene per le altre lingue romanze, è complessa. La sua complessità deriva non solo dal numero di forme, ciascuna associata a un insieme distinto di proprietà morfosintattiche –modo, tempo, persona, numero– ma anche dalla variabilità di tali forme. Benché il procedimento di strutturare il lessico verbale in classi possa rendere conto della variabilità nella parte terminale delle forme flesse (le desinenze), esso non può rendere conto della variabilità nella parte tematica, poiché sarebbe necessario un numero troppo alto di classi per tenere conto di tutti questi fenomeni di allomorfia. L’approccio tradizionale richiede che il parlante memorizzi una lista delle forme la cui parte tematica differisce dalle altre forme dello stesso paradigma, o in particolare dalla forma di presentazione del lessema (per i verbi italiani, l’infinito), come eccezioni. Negli ultimi vent’anni, si è mostrato un particolare interesse nello studio della distribuzione paradigmatica dell’allomorfia, ovvero, delle modalità in cui la variabilità (la tradizionale irregolarità) tra forme di un dato paradigma (non solo per i verbi, ma anche per i nomi e gli aggettivi) posa su schemi regolari. Questo interesse ha almeno tre motivazioni. La prima è puramente tecnica, basata sul desiderio di organizzare l'informazione morfologica nel modo più compatto possibile, sviluppando applicazioni software efficienti che analizzino, interpretino, traducano o producano testi (o parlato), senza la necessità di consultare quantitativi enormi di dati ridondanti. La seconda è nel dominio delle scienze cognitive: gli studi sulle associazioni analogiche e su come queste associazioni formino schemi regolari possono contribuire alla comprensione di come funziona il nostro cervello. La terza è sul piano didattico, poiché lo studio e l’insegnamento delle lingue possono trarre grande beneficio dalla conoscenza di tali schemi di associazione e del loro funzionamento. L’approccio pratico di queste ricerche consiste nell'analisi della struttura paradigmatica della flessione, effettuata scomponendo il paradigma in zone che differiscono potenzialmente dalla forma del tema a partire dal quale si realizzano le singole forme flesse, ed esaminando le relazioni formali (sul livello fonologico) tra queste basi tematiche, studiando le catene di predicibilità che permettono a noi parlanti di gestire sia i lessemi regolari che quelli irregolari. In questo lavoro ho compiuto un’analisi del sistema verbale italiano. Seguendo il punto di vista Word and Paradigm, e i ricercatori che si sono occupati di morfologia flessiva con un approccio paradigmatico, il mio obiettivo era sviluppare algoritmi e programmi per calcolare le relazioni tra le forme della coniugazione dei verbi italiani. L'insieme dei verbi considerati copre tutti i modelli di coniugazione, inclusi i verbi altamente irregolari. Il contributo alla morfologia flessiva si articola nei seguenti punti: – l’analisi è fatta sulle forme fonetiche, non sulle forme ortografiche. Per questo ho sviluppato un database per generare le forme di tutte le celle del paradigma nella trascrizione fonetica. – l’analisi è completamente automatica. Ho sviluppato gli algoritmi necessari tramite il linguaggio di programmazione Java, così che ad ogni modifica del database (per aggiungere lessemi, o eventualmente applicare correzioni), o anche al passaggio di un insieme completamente diverso di dati, per analizzare altre lingue, l’intera elaborazione richiede pochi minuti di calcolo. – l’analisi non dipende dal presupposto che la flessione avvenga nella parte terminale della parola, ovvero per suffissazione: gli algoritmi sviluppati funzionano anche per la flessione discontinua (come per esempio nelle lingue semitiche, o in parte in greco e in tedesco) con gli stessi principi.

Verbal inflection in Italian, as it happens in other romance languages, is complex. Its complexity derives not just from the number of forms, each coupled with a distinct set of morphosyntactic properties –mood, tense, person, number– but also, especially, from the variability of said forms. While the process of structuring the verbal lexicon into classes can account for the variability in the ending of the inflected forms (the desinence), it can not account for the variability in the stem part, because there would be too many classes needed to classify these phenomena of allomorphism. The traditional approach requires the speaker to memorize a list of the forms whose stem part is not identical to other forms of the same paradigm, or in particular to the presentation form of the lexeme (infinitive for Italian verbs), as exceptions. In the last twenty years, there has been much interest in studying the paradigmatic distribution of allomorphy, or the way in which the variation (the traditional “irregularity”) between forms of a paradigm (not only of verbs, but also of nouns and adjectives) rests on regular schemes. Said interest has at least three directions. The first one is purely technical, suggested by the desire to pack morphological information as dense as possible to build computing efficient applications that parse, interpret, analyse, translate or produce texts (or speech), without the need to peruse enormous amounts of redundant data. The second one is cognitive: studies on the analogical associations and on how these associations form patterns and schemes can contribute to the insight on how our brain works. The third one is didactical, since the learning of languages can greatly benefit from the knowledge on such patterns of association and their operation. The practical approach of these researches has the goal of analysing the paradigmatical structure of inflection, that is, to decompose the paradigm in zones where the forms are realized on possibly distinct basic stems, and to examine the formal relations (on the phonological level) between these basic stems, studying the chains of predictability that permit us, the speakers, to handle both regular and irregular lexemes. With this work I have carried an analysis of the Italian verbal system. Following a Word and Paradigm point of view, and researches who have studied the inflectional morphology with paradigmatic approach, my goal was to build algorithms and programs to calculate relations between the word forms comprising the whole flexion of a sample of Italian verbs. The set of evaluated verbs covers all models of conjugation, including highly irregular verbs. The contribution to inflectional morphology articulates on these points: – the analysis is on the phonetic forms, as opposed to orthographic forms. I have thus developed a database for generating forms for all paradigm cells in their phonetic transcription. – the analysis is fully automated. I have developed all the algorithms needed in Java language, so that after a change in the database (for further lexemes, or possibly correction of mistakes), or even the switch to another set of data, for analysing other languages, the whole computation takes few minutes to run. – the analysis does not depend on the supposition that inflection happens at the end of the word, or by suffixation: the algorithms developed can work with discontinuous flexion (as found in Semitic languages, or partially in German and Greek, for example) with the same principles.