4 resultados para Zero-inflated models, Statistical models, Poisson, Negative binomial, Statistical methods
em AMS Tesi di Laurea - Alm@DL - Università di Bologna
Resumo:
Questa tesi si inserisce nell'ambito delle analisi statistiche e dei metodi stocastici applicati all'analisi delle sequenze di DNA. Nello specifico il nostro lavoro è incentrato sullo studio del dinucleotide CG (CpG) all'interno del genoma umano, che si trova raggruppato in zone specifiche denominate CpG islands. Queste sono legate alla metilazione del DNA, un processo che riveste un ruolo fondamentale nella regolazione genica. La prima parte dello studio è dedicata a una caratterizzazione globale del contenuto e della distribuzione dei 16 diversi dinucleotidi all'interno del genoma umano: in particolare viene studiata la distribuzione delle distanze tra occorrenze successive dello stesso dinucleotide lungo la sequenza. I risultati vengono confrontati con diversi modelli nulli: sequenze random generate con catene di Markov di ordine zero (basate sulle frequenze relative dei nucleotidi) e uno (basate sulle probabilità di transizione tra diversi nucleotidi) e la distribuzione geometrica per le distanze. Da questa analisi le proprietà caratteristiche del dinucleotide CpG emergono chiaramente, sia dal confronto con gli altri dinucleotidi che con i modelli random. A seguito di questa prima parte abbiamo scelto di concentrare le successive analisi in zone di interesse biologico, studiando l’abbondanza e la distribuzione di CpG al loro interno (CpG islands, promotori e Lamina Associated Domains). Nei primi due casi si osserva un forte arricchimento nel contenuto di CpG, e la distribuzione delle distanze è spostata verso valori inferiori, indicando che questo dinucleotide è clusterizzato. All’interno delle LADs si trovano mediamente meno CpG e questi presentano distanze maggiori. Infine abbiamo adottato una rappresentazione a random walk del DNA, costruita in base al posizionamento dei dinucleotidi: il walk ottenuto presenta caratteristiche drasticamente diverse all’interno e all’esterno di zone annotate come CpG island. Riteniamo pertanto che metodi basati su questo approccio potrebbero essere sfruttati per migliorare l’individuazione di queste aree di interesse nel genoma umano e di altri organismi.
Resumo:
In the last years, the European countries have paid increasing attention to renewable sources and greenhouse emissions. The Council of the European Union and the European Parliament have established ambitious targets for the next years. In this scenario, biomass plays a prominent role since its life cycle produces a zero net carbon dioxide emission. Additionally, biomass can ensure plant operation continuity thanks to its availability and storage ability. Several conventional systems running on biomass are available at the moment. Most of them are performant either in the large-scale or in the small power range. The absence of an efficient system on the small-middle scale inspired this thesis project. The object is an innovative plant based on a wet indirectly fired gas turbine (WIFGT) integrated with an organic Rankine cycle (ORC) unit for combined heat and power production. The WIFGT is a performant system in the small-middle power range; the ORC cycle is capable of giving value to low-temperature heat sources. Their integration is investigated in this thesis with the aim of carrying out a preliminary design of the components. The targeted plant output is around 200 kW in order not to need a wide cultivation area and to avoid biomass shipping. Existing in-house simulation tools are used: They are adapted to this purpose. Firstly the WIFGT + ORC model is built; Zero-dimensional models of heat exchangers, compressor, turbines, furnace, dryer and pump are used. Different fluids are selected but toluene and benzene turn out to be the most suitable. In the indirectly fired gas turbine a pressure ratio around 4 leads to the highest efficiency. From the thermodynamic analysis the system shows an electric efficiency of 38%, outdoing other conventional plants in the same power range. The combined plant is designed to recover thermal energy: Water is used as coolant in the condenser. It is heated from 60°C up to 90°C, ensuring the possibility of space heating. Mono-dimensional models are used to design the heat exchange equipment. Different types of heat exchangers are chosen depending on the working temperature. A finned-plate heat exchanger is selected for the WIFGT heat transfer equipment due to the high temperature, oxidizing and corrosive environment. A once-through boiler with finned tubes is chosen to vaporize the organic fluid in the ORC. A plate heat exchanger is chosen for the condenser and recuperator. A quasi-monodimensional model for single-stage axial turbine is implemented to design both the WIFGT and the ORC turbine. The system simulation after the components design shows an electric efficiency around 34% with a decrease by 10% compared to the zero-dimensional analysis. The work exhibits the system potentiality compared to the existing plants from both technical and economic point of view.
Resumo:
Acoustic Emission (AE) monitoring can be used to detect the presence of damage as well as determine its location in Structural Health Monitoring (SHM) applications. Information on the time difference of the signal generated by the damage event arriving at different sensors is essential in performing localization. This makes the time of arrival (ToA) an important piece of information to retrieve from the AE signal. Generally, this is determined using statistical methods such as the Akaike Information Criterion (AIC) which is particularly prone to errors in the presence of noise. And given that the structures of interest are surrounded with harsh environments, a way to accurately estimate the arrival time in such noisy scenarios is of particular interest. In this work, two new methods are presented to estimate the arrival times of AE signals which are based on Machine Learning. Inspired by great results in the field, two models are presented which are Deep Learning models - a subset of machine learning. They are based on Convolutional Neural Network (CNN) and Capsule Neural Network (CapsNet). The primary advantage of such models is that they do not require the user to pre-define selected features but only require raw data to be given and the models establish non-linear relationships between the inputs and outputs. The performance of the models is evaluated using AE signals generated by a custom ray-tracing algorithm by propagating them on an aluminium plate and compared to AIC. It was found that the relative error in estimation on the test set was < 5% for the models compared to around 45% of AIC. The testing process was further continued by preparing an experimental setup and acquiring real AE signals to test on. Similar performances were observed where the two models not only outperform AIC by more than a magnitude in their average errors but also they were shown to be a lot more robust as compared to AIC which fails in the presence of noise.
Resumo:
In questo elaborato, abbiamo tentato di modellizzare i processi che regolano la presenza dei domini proteici. I domini proteici studiati in questa tesi sono stati ottenuti dai genomi batterici disponibili nei data base pubblici (principalmente dal National Centre for Biotechnology Information: NCBI) tramite una procedura di simulazione computazionale. Ci siamo concentrati su organismi batterici in quanto in essi la presenza di geni trasmessi orizzontalmente, ossia che parte del materiale genetico non provenga dai genitori, e assodato che sia presente in una maggiore percentuale rispetto agli organismi più evoluti. Il modello usato si basa sui processi stocastici di nascita e morte, con l'aggiunta di un parametro di migrazione, usato anche nella descrizione dell'abbondanza relativa delle specie in ambito delle biodiversità ecologiche. Le relazioni tra i parametri, calcolati come migliori stime di una distribuzione binomiale negativa rinormalizzata e adattata agli istogrammi sperimentali, ci induce ad ipotizzare che le famiglie batteriche caratterizzate da un basso valore numerico del parametro di immigrazione abbiano contrastato questo deficit con un elevato valore del tasso di nascita. Al contrario, ipotizziamo che le famiglie con un tasso di nascita relativamente basso si siano adattate, e in conseguenza, mostrano un elevato valore del parametro di migrazione. Inoltre riteniamo che il parametro di migrazione sia direttamente proporzionale alla quantità di trasferimento genico orizzontale effettuato dalla famiglia batterica.