864 resultados para Data mining methods
Resumo:
Introduction: CD103 is a specific integrin present on some CD4+ lymphocytes of the mucosal immune system. It has been hypothesized that most CD4+ lymphocytes in pulmonary sarcoidosis do not originate from mucosal sites but from redistribution from the peripheral blood, and therefore do not bear the CD103 integrin. Several studies have suggested that a low CD103+ percentage among bronchoalveolar lavage (BAL) CD4+ lymphocytes discriminates between sarcoidosis and other causes of lymphocytic alveolitis, but contradictory data exist. Methods: We reviewed 1151 consecutive patients with BAL lymphocytosis >10% and flow cytometry performed between 2006 and 2014. 944 cases were excluded due to poor BAL quality (n= 97), unavailable clinical data (n= 760), or unclear diagnosis (n= 87). The remaining 207 patients were grouped into 9 diagnostic categories. To assess the discriminative value of the CD103+CD4+/CD4+ ratio to distinguish sarcoidosis from the other entities, area under ROC curves (AUC) were determined. Results: Sarcoidosis patients (n=53) had a lower CD103+CD4+/CD4+ ratio than the other diagnostic categories. AUC was 62% for sarcoidosis compared to all other patients and 69% for sarcoidosis compared to other interstitial lung diseases. When combining CD103+CD4+/CD4+ and CD4+/CD8+ ratios, AUC increased to 76% and 78% respectively. When applying published cut-offs from 4 previous studies to our population, AUC varied between 54 and 73%. Conclusions: The CD103+CD4+/CD4+ ratio does not accurately discriminate between sarcoidosis and other causes of lymphocytic alveolitis, neither alone nor in combination with CD4+/CD8+ ratio, and is not a relevant marker for the diagnosis of sarcoidosis.
Resumo:
OBJECTIVES: Different accelerometer cutpoints used by different researchers often yields vastly different estimates of moderate-to-vigorous intensity physical activity (MVPA). This is recognized as cutpoint non-equivalence (CNE), which reduces the ability to accurately compare youth MVPA across studies. The objective of this research is to develop a cutpoint conversion system that standardizes minutes of MVPA for six different sets of published cutpoints. DESIGN: Secondary data analysis. METHODS: Data from the International Children's Accelerometer Database (ICAD; Spring 2014) consisting of 43,112 Actigraph accelerometer data files from 21 worldwide studies (children 3-18 years, 61.5% female) were used to develop prediction equations for six sets of published cutpoints. Linear and non-linear modeling, using a leave one out cross-validation technique, was employed to develop equations to convert MVPA from one set of cutpoints into another. Bland Altman plots illustrate the agreement between actual MVPA and predicted MVPA values. RESULTS: Across the total sample, mean MVPA ranged from 29.7MVPAmind(-1) (Puyau) to 126.1MVPAmind(-1) (Freedson 3 METs). Across conversion equations, median absolute percent error was 12.6% (range: 1.3 to 30.1) and the proportion of variance explained ranged from 66.7% to 99.8%. Mean difference for the best performing prediction equation (VC from EV) was -0.110mind(-1) (limits of agreement (LOA), -2.623 to 2.402). The mean difference for the worst performing prediction equation (FR3 from PY) was 34.76mind(-1) (LOA, -60.392 to 129.910). CONCLUSIONS: For six different sets of published cutpoints, the use of this equating system can assist individuals attempting to synthesize the growing body of literature on Actigraph, accelerometry-derived MVPA.
Resumo:
Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos ayudan a tomar la decisión más"acertada", desde un punto de vista probabilístico, ante un abanico de posibles decisiones. Estos árboles permiten examinar los resultados y determinar visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar subgrupos específicos y relaciones que tal vez no encontraríamos con estadísticos más tradicionales. Los árboles de decisión son una técnica estadística para la segmentación, la estratificación, la predicción, la reducción de datos y el filtrado de variables, la identificación de interacciones, la fusión de categorías y la discretización de variables continuas. La función árboles de decisión (Tree) en SPSS crea árboles de clasificación y de decisión para identificar grupos, descubrir las relaciones entre grupos y predecir eventos futuros. Existen diferentes tipos de árbol: CHAID, CHAID exhaustivo, CRT y QUEST, según el que mejor se ajuste a nuestros datos.
Resumo:
The Extended Kalman Filter (EKF) and four dimensional assimilation variational method (4D-VAR) are both advanced data assimilation methods. The EKF is impractical in large scale problems and 4D-VAR needs much effort in building the adjoint model. In this work we have formulated a data assimilation method that will tackle the above difficulties. The method will be later called the Variational Ensemble Kalman Filter (VEnKF). The method has been tested with the Lorenz95 model. Data has been simulated from the solution of the Lorenz95 equation with normally distributed noise. Two experiments have been conducted, first with full observations and the other one with partial observations. In each experiment we assimilate data with three-hour and six-hour time windows. Different ensemble sizes have been tested to examine the method. There is no strong difference between the results shown by the two time windows in either experiment. Experiment I gave similar results for all ensemble sizes tested while in experiment II, higher ensembles produce better results. In experiment I, a small ensemble size was enough to produce nice results while in experiment II the size had to be larger. Computational speed is not as good as we would want. The use of the Limited memory BFGS method instead of the current BFGS method might improve this. The method has proven succesful. Even if, it is unable to match the quality of analyses of EKF, it attains significant skill in forecasts ensuing from the analysis it has produced. It has two advantages over EKF; VEnKF does not require an adjoint model and it can be easily parallelized.
Resumo:
En els darrers vint anys la informació en línia ha esdevingut un factor decisiu per a l’activitat acadèmica i de recerca, i en conseqüència els recursos electrònics s’han anat “apropiant” progressivament d’una part cada vegada més important dels pressupostos de les biblioteques. La contractació dels recursos electrònics ha anat assumint una posició determinant en l’economia dels serveis bibliotecaris, a mesura que les publicacions en paper han anat perdent terreny davant les publicacions digitals. S’estima que les biblioteques universitàries italianes – malgrat no estar a l’avantguarda en aquest sector – inverteixen des de ja fa alguns anys més de la meitat dels seus pressupostos en l’adquisició de recursos electrònics. Com és sabut, el desenvolupament del mercat de la informació digital ha empès les biblioteques a associar-se en organitzacions i consorcis, fins i tot en aquells contextos tradicionalment reticents a la cooperació. El mètode cooperatiu es considera un element resolutiu dins el món de la informació electrònica i els consorcis són l’instrument organitzatiu més adient per tal que aquest enfocament sigui eficaç. En els darrers anys els consorcis han empès la seva iniciativa més enllà de les adquisicions i les negociacions de les llicències electròniques, per a invertir en els àmbits de l’accés obert, de la preservació digital, del data mining, de la gestió col·lectiva dels documents en paper, dels sistemes de gestió bibliotecària (ILS i eines de descoberta), de les plataformes d’accés, i molts altres. Més recentment ha sorgit una major disposició per part dels consorcis per a col·laborar amb altres organitzacions que treballen en diversos aspectes de l’àmbit de la comunicació científica i en la gestió i avaluació de la recerca (agències de finançament de la recerca, editorials, empreses de tecnologies de la informació, etc.) per tal de fer front a les noves necessitats de les biblioteques destinades a ampliar la seva intervenció més enllà del seu perímetre tradicional.
Resumo:
The number of digital images has been increasing exponentially in the last few years. People have problems managing their image collections and finding a specific image. An automatic image categorization system could help them to manage images and find specific images. In this thesis, an unsupervised visual object categorization system was implemented to categorize a set of unknown images. The system is unsupervised, and hence, it does not need known images to train the system which needs to be manually obtained. Therefore, the number of possible categories and images can be huge. The system implemented in the thesis extracts local features from the images. These local features are used to build a codebook. The local features and the codebook are then used to generate a feature vector for an image. Images are categorized based on the feature vectors. The system is able to categorize any given set of images based on the visual appearance of the images. Images that have similar image regions are grouped together in the same category. Thus, for example, images which contain cars are assigned to the same cluster. The unsupervised visual object categorization system can be used in many situations, e.g., in an Internet search engine. The system can categorize images for a user, and the user can then easily find a specific type of image.
Resumo:
Sähköenergiamittareiden etälukuun (AMR) siirtyminen on kasvanut Suomessa, kuten muissakin Euroopan maissa viime vuosina merkittävästi. Tavoitteena on, että vuonna 2014 80 % kaikista Suomen sähköenergiamittareista olisi etäluettavia ja rekisteröisivät tunnittaiset kulutustiedot. AMR-tekniikan avulla voidaan toteuttaa myös muita palveluja kulutustietojen rekisteröinnin lisäksi. AMR-mittareiden etäluenta ja niiden kautta siirrettävät signaalit vaativat mittareilta tiedonsiirtotapoja. Työssä tarkastellaan TeliaSoneran AMR-palvelualustan ominaisuuksia ja arkkitehtuuria. Selvitetään AMR-mittareiden toiminnallisia vaatimuksia ja mahdollisia tiedonsiirtotapoja mittareiden ja etäluentajärjestelmän välillä. Arvioidaan näiden selvitysten perusteella ja myös kustannusten kannalta eri tiedonsiirtomenetelmien soveltuvuutta eri ympäristöihin. Lisäksi suoritetaan arviointi ja käytännön laboratoriotestauksia valitulle sähköverkkoa tiedonsiirrossa hyödyntävälle AMR-mittarille. Tavoitteena on selvittää ja analysoida vertailtavan mittarin yhteensopivuutta TeliaSoneran päätelaitteiden ja AMR-palvelualustan kanssa. Analysoidaan näiden tarkasteltavien mittareiden ominaisuuksia ja elinkaarta. Laboratoriotesteillä selvitetään myös tarkasteltavien sähköverkkotiedonsiirto AMRmittareiden häiriösietoisuutta verkossa esiintyviä häiriöitä vastaan. Näiden pohjalta tehdään johtopäätökset ja suositukset.
Resumo:
La disciplina de l'Educational Data Mining and Learning Analytics té per objecte emprar els mètodes propis de la descoberta de coneixement en bases de dades i l'aprenentatge computacional amb la finalitat de comprendrei millorar, si s'escau, els processos que tenen lloc en entorns d'aprenentatge. En aquest estudi es parteix d'un registre d'establiment i clausura de sessions dels usuaris al Campus Virtual de la UOC per mirar d'obtenir resultats en aquesta direcció.
Resumo:
Työn tavoitteena on selvittää erilaisten työaikamallien ja henkilöstön määrän vaikutuksia Finnsteven henkilöstökustannuksiin ja ylitöiden määrään. Selvitystyö toteutetaan simuloimalla vaihtoehtoisia työaikamalleja ja henkilöstömääriä tilastollisten menetelmien avulla. Työn toisena tavoitteena on ehdottaa yritykselle toimintatapaa suorittaa lopullinen henkilöstöresurssien optimointi. Työn teoriaosuudessa esitellään aluksi yritystä ja sen toimintaympäristöä. Tämän jälkeen tarkastellaan nykyisen TE-sopimuksen mahdollistamia työaikamalleja. Seuraavaksi perustellaan käytettävät tilastolliset menetelmät ja tiedonkeruumenetelmät. Edetessään työ syventyy tarkastelemaan yrityksen tekemän työn kohdentumista aikatyöhön ja ylityöhön sekä viikonpäiville että työvuoroille. Lopuksi kuvataan työn optimoinnissa käytetty logiikka, analysoidaan saatuja tuloksia ja esitellään optimointityökalun toteutussuunnitelma. Diplomityössä tehdyn selvityksen mukaan satamatyössä tehdään nykyisellään erittäin paljon ylitöitä. Siten työaikamallien optimointi on perusteltua. Optimoinnilla saavutettavat potentiaaliset kustannussäästöt ovat erittäin huomattavia. Lopullinen optimointi on haastava tehtävä, jota henkilöstöhallinto ei pysty ratkaisemaan pelkkään kokemukseensa luottaen. Tuotannonsuunnittelun avuksi tarvitaan täten työkalu, joka palvelee paitsi mallien luontia, toimii suunnittelun apuna jatkossakin.
Resumo:
Education in Finland plays a significant role. International students are becoming an essential part of Finnish Educational system. The study was meant to examine their expectations and experiences in a Finnish University. As a case, Lappeenranta University of Technology (LUT) was chosen and, in particular, Information Technology (IT) Department. The main objectives of the study were to examine students’ satisfaction of their study experiences, their evaluation of the teaching quality of courses and last but not least the cultural impact on those. Data for the study were mainly collected with the help of three Internet surveys from a sample of 50 students – currently studying at LUT or already graduated. Response rate from questionnaire to questionnaire varied, however, still close to average and was considered as good and relevant enough. The study was initially meant as qualitative, however, a number of quantitative data analysis methods were used as well. Most of students’ expectations appear to become true, majority of students are satisfied with their experiences. Results show that teaching quality in LUT is evaluated as ‘good’. Nevertheless, students prefer particular courses to the other ones. In conclusion, it can be said that culture does affect students’ expectations, experiences, perception of the world, however, cultural differences do not cause any serious problems.
Resumo:
Business intelligencellä tarkoitetaan liiketoimintatiedon hallintaan liittyviä prosesseja ja tekniikoita. Se pitää sisällään tiedon keräämiseen, tallentamiseen, analysointiin ja jakamiseen käytettyt tuotteet, tekniikat ja prosessit, joiden tavoitteena on auttaa yrityksen työntekijöitä liiketoimintaan liittyvässä päätöksenteossa. Tutkimuksen tavoitteena on tutkia uuden yritysryhmän laajuisen BI-tietojärjestelmän suunnitteluun ja käyttöönotoon liittyviä seikkoja ja luoda valmiudet BI-tietojärjestelmän kehitys- ja käyttöönottoprojektin kohdeyrityksessä, jonka toimiala on kansainvälinen terveydenhoitoalan tukkuliiketoiminta. Uuden BI-järjestelmän halutaan tukeva yritysryhmän yritysten välistä integraatiota ja tehostavan tiedonhakuun ja analysointiin liittyviä prosesseja. Tutkimus toteutettiin konstruktiivisena tutkimuksena, joka kattaa kohdeyrityksen IT-arkkitehtuurin, tietosisällön, prosessit ja organisaation raportoinnin kannalta. Lisäksi työssä suoritettiin ohjelmistovertailu kahden markkinoilla toimivan merkittävän ohjelmistotalon BI-tuotteiden välillä. Työssä havaittiin, että BI-projekti on laaja-alainen ja suuri hanke, joka ulottuu läpi koko organisaation. BI-ohjelmiston tehokas hyödyntäminen asettaa vaatimuksia erityisesti taustajärjestelmien tiedon huolelliseen mallintamiseen liittyen. Työssä saatiin pilotoinnin kautta käytännön kokemuksia uudesta järjestelmästä ja sen tarjoamista mahdollisuuksista kohdeyrityksessä.
Resumo:
Tutkimuksen tavoitteena on tutkia teollisuudelle aineita maahantuovan perheyrityksen toimintaympäristössä tapahtuvaa muutosta. Tutkimuksessa lähestytään yrityksen muuttuvaa toimintaympäristöä strategian näkökulmasta ja otetaan huomioon muuttuvana seikkana lainsäädäntö eli REACH -kemikaaliasetus. Tutkimuksen tutkimusongelmaa käsitellään konstruktiivisen tutkimuksen tapaan. Tutkimuksen aineisto on kerätty kvalitatiivisen tutkimuksen tapaan keräämällä tutkimustietoa valmiista aineistosta kuten arkistoista, dokumenteista ja kirjallisuudesta. Tutkimukseen on myös käytetty havaintoja, haastatteluja ja arkikokemuksia tutkimuksen kohteesta. Tutkimuksen viitekehyksessä käytiin läpi strategian teoriaa ulkoisesta toimintaympäristöstä yrityksen sisäiseen toimintaympäristöön. Yritykselle laadittiin strategiakeskeinen malli ottaen huomioon uuden lain tuomat vaikutukset yrityksen sisäiseen ja ulkoiseen toimintaympäristöön. Lakimuutoksen vaikutuspintoja löytyi kaksi: yrityksen toimialan toimintaympäristö ja sisäinen toimintaympäristö. Toimialan toimintaympäristössä eriteltiin lakimuutoksen rajapinnat viiden kilpailuvoiman avulla. Tulokseksi saatiin, että REACH vaikuttaa vahvasti läpi koko toimitusketjun. Vaikutustavat ovat korvaavat tuotteet, ostajien vaikutusvalta ja toimittajien vaikutusvalta. Lisäksi yhtenä vaikuttajana voidaan pitää uusia tulijoita sekä kilpailua nykyisten yritysten kanssa. Yrityksen sisäisestä toimintaympäristöstä löydettiin arvoketjun avulla lisää vaikutuskohtia. Ne olivat raaka-aineiden hankinnat, dokumentointi, näytteiden lähetys, varastointi ja varastokirjanpito. Lisäksi huomioitiin tukitoiminnoista lakiasiat ja henkilöstön koulutus.
Resumo:
The size and complexity of projects in the software development are growing very fast. At the same time, the proportion of successful projects is still quite low according to the previous research. Although almost every project's team knows main areas of responsibility which would help to finish project on time and on budget, this knowledge is rarely used in practice. So it is important to evaluate the success of existing software development projects and to suggest a method for evaluating success chances which can be used in the software development projects. The main aim of this study is to evaluate the success of projects in the selected geographical region (Russia-Ukraine-Belarus). The second aim is to compare existing models of success prediction and to determine their strengths and weaknesses. Research was done as an empirical study. A survey with structured forms and theme-based interviews were used as the data collection methods. The information gathering was done in two stages. At the first stage, project manager or someone with similar responsibilities answered the questions over Internet. At the second stage, the participant was interviewed; his or her answers were discussed and refined. It made possible to get accurate information about each project and to avoid errors. It was found out that there are many problems in the software development projects. These problems are widely known and were discussed in literature many times. The research showed that most of the projects have problems with schedule, requirements, architecture, quality, and budget. Comparison of two models of success prediction presented that The Standish Group overestimates problems in project. At the same time, McConnell's model can help to identify problems in time and avoid troubles in future. A framework for evaluating success chances in distributed projects was suggested. The framework is similar to The Standish Group model but it was customized for distributed projects.
Resumo:
The topic of this thesis is the simulation of a combination of several control and data assimilation methods, meant to be used for controlling the quality of paper in a paper machine. Paper making is a very complex process and the information obtained from the web is sparse. A paper web scanner can only measure a zig zag path on the web. An assimilation method is needed to process estimates for Machine Direction (MD) and Cross Direction (CD) profiles of the web. Quality control is based on these measurements. There is an increasing need for intelligent methods to assist in data assimilation. The target of this thesis is to study how such intelligent assimilation methods are affecting paper web quality. This work is based on a paper web simulator, which has been developed in the TEKES funded MASI NoTes project. The simulator is a valuable tool in comparing different assimilation methods. The thesis contains the comparison of four different assimilation methods. These data assimilation methods are a first order Bayesian model estimator, an ARMA model based on a higher order Bayesian estimator, a Fourier transform based Kalman filter estimator and a simple block estimator. The last one can be considered to be close to current operational methods. From these methods Bayesian, ARMA and Kalman all seem to have advantages over the commercial one. The Kalman and ARMA estimators seems to be best in overall performance.
Resumo:
Työpaikkailmoitusten etsiminen internetistä on hyvin yleistä nykyään, mutta kysei- nen prosessi ei ole kehittynyt vuosien varrella muiden palvelujen tapaan. Tämän ta- kia tehokkaan ja omiin taitoihin kohdistetun haun tekeminen on hyvin vaikeaa. Tässä työssä toteutetaan verkkopalvelu, jonka avulla käyttäjä voi tutkia useasta läh- teestä haettuja IT-alan työpaikkailmoituksia ja etsiä niistä omille taidoilleen parhai- ten sopivia. Palvelun taustalla toimiva järjestelmä hakee ilmoitukset ja analysoi ne tarvittavan datan saamiseksi. Samalla ilmoituksista luodaan tilastoja, joita käyttäjät voivat tutkia. Kerätyistä tiedoista saadaan myös selville millaisia yhteyksiä eri am- mattien ja termien välillä on. Palvelun avulla on helppoa tehdä hakuja painottaen omia osaamisalueita. Haun tu- lokset tulostetaan parhaiten sopivasta huonoimmin sopivaan. Jokaisen ilmoituksen mukana tulostetaan listaus ilmoituksessa olleista ammattitermeistä ja jokaisen haun loppuun tulostetaan myös listaus kaikista haun tuloksista löytyneistä ilmoituksista. Kohdistetut haut ovat mahdollisia, koska palvelu kerää tietoja ilmoituksista löytyvis- tä termeistä luokitellen niitä. Tilastoista käyttäjällä on mahdollisuus seurata työpaikkailmoitusmäärien muutoksia viikoittain niin mol:n kuin monsterin järjestelmissä. Pelkkien ilmoitusmäärien lisäksi tilastoista voi seurata yksittäisten ammattitermien esiintymistä, sekä tietyn ammat- tialan ilmoitusten määriä.