Please use this identifier to cite or link to this item: http://hdl.handle.net/2307/4483
Title: Model-based clustering of mixed linear and circular data
Authors: Picone, Marco
metadata.dc.contributor.advisor: Lagona, Francesco
Keywords: circular data
mixture models
Hidden Markon
model
Issue Date: 25-Jun-2013
Publisher: Università degli studi Roma Tre
Abstract: La conoscenza e l’identificazione di regimi ondosi prevalenti ottenuti attraverso lo studio di serie storiche oceanografiche multivariate è una problematica che riscuote un interesse crescente negli ultimi anni, a causa dell’enorme mole di informazioni provenienti da stazioni di misura marine e da satelliti. Questi studi assumono un’importanza strategica in aree costiere o in piccoli bacini, dove l’iterazione vento-onda è influenzata da una serie di fattori, quali l’orografia della costa, le batimetrie del fondale, le correnti. Studi sull’iterazione atmosfera-oceano sono effettuati a partire da osservazioni orarie o semi-orarie, multivariate e spesso incomplete, che coinvolgono variabili di diversa natura, come la direzione del vento e delle onde (variabili circolari), la velocità del vento e l’altezza dell’onda (variabili lineari). L’obiettivo principale di questa tesi è di fornire un approccio flessibile per la classificazione congiunta di variabili circolari e lineari, estratte da dataset oceanografici incompleti. Sono stati sviluppati tre modelli basati su metodi di tipo mistura. Il modello mistura univariato (UMM) classifica dati ondametrici e anemometrici attraverso una mistura finita di distribuzioni univariate Gamma (per variabili lineari) e von Mises (per variabili circolari) considerate condizionatamente indipendenti. Il modello mistura multivariato (MMM) integra distribuzioni multivariate circolari e lineari per individuare le associazioni tra clusters toroidali e lineari. Infine il modello hidden Markov multivariato (MHMM) considera la correlazione temporale delle osservazioni e approssima la distribuzione dei dati con una mistura di distribuzioni multivariate, con parametri dipendenti dallo stato di una catena di Markov latente. La procedura di classificazione viene implementata attraverso un algoritmo EM che consente di stimare i parametri dei modelli, considerando come valori mancanti sia le misurazioni non presenti nel dataset, sia il cluster di appartenenza di ogni osservazione.
In recent years, there has been an increasing interest in the identification of relevant sea regimes from marine multivariate times series, due to an increasing volume of data collected by gauges and satellites. These applications are especially important in coastal areas and semi-enclosed basins, where wind-wave interactions are influenced by a number of variables, such as the orography of the coasts, the bathymetry and the currents. Studies of air-sea interactions involve the analysis of multivariate, often incomplete time series of marine data, that include hourly or semi-hourly measurements of mixed type variables, like wind and wave direction (i.e., circular variables) and wind speed and wave height (i.e., linear variables). The primary objective of this thesis is to provide a flexible approach to classify mixed linear and circular incomplete data by using mixture-based models. Three different models have been implemented. An Univariate Mixture Model (UMM), which jointly models wave and wind data by a finite mixture of conditionally independent, univariate Gamma and von Mises distributions; a Multivariate Mixture Model (MMM), which integrates multivariate circular densities and multivariate skew normal densities to capture the association between toroidal and planar clusters; a Multivariate Hidden Markov Model (MHMM), which accounts for the temporal correlation of the measurements and approximates the joint distribution of the data by a mixture of multi- variate densities, the parameters of which depend on the states of a latent Markov chain. The core of the classification procedure is an EM algorithm, which allows for missing measurements and unknown cluster membership as different sources of incomplete information.
URI: http://hdl.handle.net/2307/4483
Access Rights: info:eu-repo/semantics/openAccess
Appears in Collections:Dipartimento di Economia
T - Tesi di dottorato

Files in This Item:
File Description SizeFormat
Picone - Tesi.pdf2.15 MBAdobe PDFView/Open
SFX Query Show full item record Recommend this item

Page view(s)

17
Last Week
0
Last month
3
checked on Oct 29, 2020

Download(s)

4
checked on Oct 29, 2020

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.