This thesis presents three different applications to macroeconomics and finance of text mining techniques based on unsupervised machine learning algorithms. In particular, these text mining techniques are applied to official documents of central banks and to newspaper articles written in English and Spanish. The implementation of these techniques involved a considerable preprocessing work to remove paragraphs and articles not relevant for the analysis. To the official documents of the central banks, we also assigned tags to each paragraph to indicate the date and other useful information. We then applied various computational linguistic unsupervised machine learning algorithms such as Latent Dirichlet Allocation (LDA), Word Embedding (with the Skip-Gram model) and K-Means to construct some text measures. Some of these unsupervised machine learning algorithms, which were already available for the English language, have been adapted to the Spanish language. We produced simple measures to identify the topics, that is, the themes or subjects, and the tone, that is, the sentiment or degree of uncertainty, of the text. Finally, we investigated the relationship between these uncertainty indices and some key variables in macroeconomics and finance using Structural VAR and Exponential GARCH models. The first paper investigates the relationship between the views expressed in the minutes of the meetings of the Central Bank of Brazil’s Monetary Policy Committee (COPOM) and the real economy. Firstly, we infer the content of the paragraphs of the minutes with Latent Dirichlet Allocation and then we build an uncertainty index for the minutes with Word Embedding and K-Means. Thus, we create two topic-uncertainty indices. The first topic-uncertainty index is constructed from paragraphs with a higher probability of topics related to “general economic conditions”, whereas the second topic-uncertainty index is constructed from paragraphs with a higher probability of topics related to “inflation” and the “monetary policy discussion”. Finally, via a Structural VAR we explore the lasting effects of these uncertainty indices on some Brazilian macroeconomic variables. The second paper studies and measures uncertainty in the minutes of the meetings of the board of governors of the Central Bank of Mexico and relates it to monetary policy variables. In particular, we conceive two uncertainty indices for the Spanish version of the minutes using unsupervised machine learning techniques. The first uncertainty index is constructed exploiting Latent Dirichlet Allocation, whereas the second uses Word Embedding (with the Skip-Gram model) and K-Means. We also create uncertainty indices for the three main sections of the minutes. We find that higher uncertainty in the minutes is related to an increase in inflation and money supply. The third paper investigates the reactions of US financial markets to newspaper news from January 2019 to the first of May 2020. To this end, we deduce the content and sentiment of the news by developing apposite indices from the headlines and snippets of the New York Times. In particular, we use Latent Dirichlet Allocation to infer the content of the articles, and Word Embedding and K-Means to measure their sentiment (uncertainty). In this way, we arrive to the definition of a set of daily topic-specific uncertainty indices. These indices are then used to find explanations in the behaviour of the US financial markets by implementing a batch of EGARCH models. In substance, we find that two topic-specific uncertainty indices, one related with COVID-19 news and the other with trade war news, explain much of the movements in the financial markets from the beginning of 2019 up to the first four months of 2020.

Questa tesi presenta tre diverse applicazioni di macroeconomia e finanza delle tecniche di analisi di testi basate su algoritmi di apprendimento automatico non supervisionati. In particolare, queste tecniche di analisi di testi vengono applicate ai documenti ufficiali delle banche centrali e agli articoli di giornale scritti in inglese e spagnolo. L'implementazione di queste tecniche ha comportato un considerevole lavoro di preelaborazione per rimuovere paragrafi e articoli non rilevanti per l'analisi. Ai documenti ufficiali delle banche centrali, abbiamo assegnato etichette ad ogni paragrafo per indicare la data e altra informazione utile. Abbiamo quindi applicato vari algoritmi di apprendimento automatico non supervisionato come Latent Dirichlet Allocation (LDA), il modello Skip-Gram e K-Means per costruire misure di testo. Alcuni di questi algoritmi di apprendimento automatico non supervisionati, che erano già disponibili per la lingua inglese, sono stati adattati alla lingua spagnola. Abbiamo prodotto semplici misure del contenuto della comunicazione per identificare gli argomenti, cioè i temi o soggetti, e il tono, cioè il sentimento o il grado di incertezza del testo. Quindi, abbiamo studiato la relazione tra questi indici di incertezza e le variabili economiche chiave in macroeconomia e finanza utilizzando i modelli VAR strutturale e GARCH esponenziale. Il primo articolo indaga la relazione tra le opinioni espresse nei verbali delle riunioni del Comitato di politica monetaria (COPOM) della Banca Centrale del Brasile e l'economia reale. In primo luogo, deduciamo il contenuto dei paragrafi dei minuti con LDA e poi costruiamo un indice di incertezza per i minuti con Word Embeddings e K-Means. Dopo costruiamo due indici di incertezza per diversi contenuti, Il primo indice di incertezza del tema è costruito da paragrafi con una maggiore probabilità di argomenti relativi alle "condizioni economiche generali", mentre il secondo indice di incertezza del tema è costruito da paragrafi con una maggiore probabilità di argomenti relativi a "inflazione" e “discussione della politica monetaria”. Infine, tramite un VAR strutturale esploriamo gli effetti di questi indici di incertezza su alcune variabili macroeconomiche brasiliane Il secondo articolo studia e misura l'incertezza nei verbali delle riunioni del consiglio di amministrazione della Banca Centrale del Messico e la mette in relazione con le variabili di politica monetaria. In particolare, concepiamo due indici di incertezza per la versione spagnola dei verbali utilizzando tecniche di apprendimento automatico senza supervisione. Il primo indice di incertezza è costruito sfruttando LDA, mentre il secondo utilizza il modello Skip-Gram e K-Means. Costruiamo anche indici di incertezza per le tre sezioni principali del verbale. Troviamo che una maggiore incertezza nei verbali è correlata a un aumento dell'inflazione e della massa monetaria. Il terzo articolo indaga le reazioni dei mercati finanziari statunitensi alle notizie dei giornali dal gennaio 2019 al primo maggio 2020. A tal fine, deduciamo il contenuto e il sentimento delle notizie sviluppando indici dai titoli e dai frammenti del New York Times . In particolare, utilizziamo LDA per dedurre il contenuto degli articoli e gli algoritmi Skip-Gram e K-Means per misurare il loro sentimento (incertezza). In questo modo si arriva alla definizione di una serie di indici giornalieri di incertezza per ogni tema. Questi indici vengono quindi utilizzati per trovare spiegazioni nel comportamento dei mercati finanziari statunitensi implementando una serie di modelli EGARCH. In sostanza, troviamo che due indici di incertezza e argomento, uno relativo alle notizie COVID-19 e l'altro alle notizie sulla guerra commerciale, spiegano gran parte dei movimenti nei mercati finanziari dall'inizio del 2019 fino ai primi quattro mesi del 2020 .

Text Mining in Macroeconomics and Finance Using Unsupervised Machine Learning Algorithms

Moreno Pérez, Carlos
2021-01-01

Abstract

This thesis presents three different applications to macroeconomics and finance of text mining techniques based on unsupervised machine learning algorithms. In particular, these text mining techniques are applied to official documents of central banks and to newspaper articles written in English and Spanish. The implementation of these techniques involved a considerable preprocessing work to remove paragraphs and articles not relevant for the analysis. To the official documents of the central banks, we also assigned tags to each paragraph to indicate the date and other useful information. We then applied various computational linguistic unsupervised machine learning algorithms such as Latent Dirichlet Allocation (LDA), Word Embedding (with the Skip-Gram model) and K-Means to construct some text measures. Some of these unsupervised machine learning algorithms, which were already available for the English language, have been adapted to the Spanish language. We produced simple measures to identify the topics, that is, the themes or subjects, and the tone, that is, the sentiment or degree of uncertainty, of the text. Finally, we investigated the relationship between these uncertainty indices and some key variables in macroeconomics and finance using Structural VAR and Exponential GARCH models. The first paper investigates the relationship between the views expressed in the minutes of the meetings of the Central Bank of Brazil’s Monetary Policy Committee (COPOM) and the real economy. Firstly, we infer the content of the paragraphs of the minutes with Latent Dirichlet Allocation and then we build an uncertainty index for the minutes with Word Embedding and K-Means. Thus, we create two topic-uncertainty indices. The first topic-uncertainty index is constructed from paragraphs with a higher probability of topics related to “general economic conditions”, whereas the second topic-uncertainty index is constructed from paragraphs with a higher probability of topics related to “inflation” and the “monetary policy discussion”. Finally, via a Structural VAR we explore the lasting effects of these uncertainty indices on some Brazilian macroeconomic variables. The second paper studies and measures uncertainty in the minutes of the meetings of the board of governors of the Central Bank of Mexico and relates it to monetary policy variables. In particular, we conceive two uncertainty indices for the Spanish version of the minutes using unsupervised machine learning techniques. The first uncertainty index is constructed exploiting Latent Dirichlet Allocation, whereas the second uses Word Embedding (with the Skip-Gram model) and K-Means. We also create uncertainty indices for the three main sections of the minutes. We find that higher uncertainty in the minutes is related to an increase in inflation and money supply. The third paper investigates the reactions of US financial markets to newspaper news from January 2019 to the first of May 2020. To this end, we deduce the content and sentiment of the news by developing apposite indices from the headlines and snippets of the New York Times. In particular, we use Latent Dirichlet Allocation to infer the content of the articles, and Word Embedding and K-Means to measure their sentiment (uncertainty). In this way, we arrive to the definition of a set of daily topic-specific uncertainty indices. These indices are then used to find explanations in the behaviour of the US financial markets by implementing a batch of EGARCH models. In substance, we find that two topic-specific uncertainty indices, one related with COVID-19 news and the other with trade war news, explain much of the movements in the financial markets from the beginning of 2019 up to the first four months of 2020.
2021
COVID 19, EGARCH, Latent Dirichlet Allocation, Machine learning, Natural Language Processing, Coronavirus, Skip Gram, Trade war, Word Embedding, Central Bank of Mexico, Central Bank Communication, Monetary Policy, Structural Vector Autoregressive Model, Text Mining, Central Bank of Brazil.
Questa tesi presenta tre diverse applicazioni di macroeconomia e finanza delle tecniche di analisi di testi basate su algoritmi di apprendimento automatico non supervisionati. In particolare, queste tecniche di analisi di testi vengono applicate ai documenti ufficiali delle banche centrali e agli articoli di giornale scritti in inglese e spagnolo. L'implementazione di queste tecniche ha comportato un considerevole lavoro di preelaborazione per rimuovere paragrafi e articoli non rilevanti per l'analisi. Ai documenti ufficiali delle banche centrali, abbiamo assegnato etichette ad ogni paragrafo per indicare la data e altra informazione utile. Abbiamo quindi applicato vari algoritmi di apprendimento automatico non supervisionato come Latent Dirichlet Allocation (LDA), il modello Skip-Gram e K-Means per costruire misure di testo. Alcuni di questi algoritmi di apprendimento automatico non supervisionati, che erano già disponibili per la lingua inglese, sono stati adattati alla lingua spagnola. Abbiamo prodotto semplici misure del contenuto della comunicazione per identificare gli argomenti, cioè i temi o soggetti, e il tono, cioè il sentimento o il grado di incertezza del testo. Quindi, abbiamo studiato la relazione tra questi indici di incertezza e le variabili economiche chiave in macroeconomia e finanza utilizzando i modelli VAR strutturale e GARCH esponenziale. Il primo articolo indaga la relazione tra le opinioni espresse nei verbali delle riunioni del Comitato di politica monetaria (COPOM) della Banca Centrale del Brasile e l'economia reale. In primo luogo, deduciamo il contenuto dei paragrafi dei minuti con LDA e poi costruiamo un indice di incertezza per i minuti con Word Embeddings e K-Means. Dopo costruiamo due indici di incertezza per diversi contenuti, Il primo indice di incertezza del tema è costruito da paragrafi con una maggiore probabilità di argomenti relativi alle "condizioni economiche generali", mentre il secondo indice di incertezza del tema è costruito da paragrafi con una maggiore probabilità di argomenti relativi a "inflazione" e “discussione della politica monetaria”. Infine, tramite un VAR strutturale esploriamo gli effetti di questi indici di incertezza su alcune variabili macroeconomiche brasiliane Il secondo articolo studia e misura l'incertezza nei verbali delle riunioni del consiglio di amministrazione della Banca Centrale del Messico e la mette in relazione con le variabili di politica monetaria. In particolare, concepiamo due indici di incertezza per la versione spagnola dei verbali utilizzando tecniche di apprendimento automatico senza supervisione. Il primo indice di incertezza è costruito sfruttando LDA, mentre il secondo utilizza il modello Skip-Gram e K-Means. Costruiamo anche indici di incertezza per le tre sezioni principali del verbale. Troviamo che una maggiore incertezza nei verbali è correlata a un aumento dell'inflazione e della massa monetaria. Il terzo articolo indaga le reazioni dei mercati finanziari statunitensi alle notizie dei giornali dal gennaio 2019 al primo maggio 2020. A tal fine, deduciamo il contenuto e il sentimento delle notizie sviluppando indici dai titoli e dai frammenti del New York Times . In particolare, utilizziamo LDA per dedurre il contenuto degli articoli e gli algoritmi Skip-Gram e K-Means per misurare il loro sentimento (incertezza). In questo modo si arriva alla definizione di una serie di indici giornalieri di incertezza per ogni tema. Questi indici vengono quindi utilizzati per trovare spiegazioni nel comportamento dei mercati finanziari statunitensi implementando una serie di modelli EGARCH. In sostanza, troviamo che due indici di incertezza e argomento, uno relativo alle notizie COVID-19 e l'altro alle notizie sulla guerra commerciale, spiegano gran parte dei movimenti nei mercati finanziari dall'inizio del 2019 fino ai primi quattro mesi del 2020 .
File in questo prodotto:
File Dimensione Formato  
PhD_thesis_MorenoPerez-Carlos_Supervisor_Minozzo_UniVerona.pdf

accesso aperto

Descrizione: PhD thesis - Carlos Moreno Pérez; Supervisor: Marco Minozzo
Tipologia: Tesi di dottorato
Licenza: Creative commons
Dimensione 4.06 MB
Formato Adobe PDF
4.06 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11562/1042759
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact