27 resultados para Document classification
Resumo:
Presentation at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014
Resumo:
Selostus: Suomen happamien sulfaattimaiden kansainvälinen luokittelu
Resumo:
Työn tavoitteena on etsiä asiakasyritykselle sähköteknisen dokumentoinnin hallintaan sopiva järjestelmäratkaisu vertailemalla insinööritoimistojen käyttämien suunnittelujärjestelmien ja yleisten dokumenttien hallintajärjestelmien soveltuvuutta asiakasympäristöön. Työssä tutkitaan sopivien metatietojen kuvaustapojen käyttökelpoisuutta sähköteknisen dokumentoinnin hallintaan esimerkkiprojektien avulla. Työn sisältö koostuu neljästä pääkohdasta. Ensimmäisessä jaksossa tarkastellaan dokumentin ominaisuuksia ja elinkaarta luonnista aktiivikäyttöön, arkistointiin ja hävitykseen. Samassa yhteydessä kerrotaan dokumenttienhallinnan perustehtävistä. Toisessa jaksossa käsitellään dokumenttien kuvailun tavoitteita, kuvailusuosituksia ja -standardeja sekä luonnollisen kielen käyttöä sisällönkuvailussa. Tarkastelukohteina suosituksista ovat W3C:n julkaisemat suositukset, Dublin Core, JHS 143 ja SFS-EN 82045. Kolmannessa jaksossa tarkastellaan teollisuuden dokumentoinnin ominaispiirteitä ja käyttötarkoitusta. Teollisuudessa on monia erilaisia järjestelmäympäristöjä tehtaan sisällä ja työssä kuvataan dokumenttienhallinnan integrointitarpeita muihin järjestelmiin. Viimeisessä jaksossa kuvaillaan erilaisia dokumentoinnin hallintaympäristöjä alkaen järeimmästä päästä tuotetiedon hallintajärjestelmistä siirtyen pienempiinsuunnittelujärjestelmiin ja lopuksi yleisiin dokumenttien hallintajärjestelmiin. Tässä osassa on myös luettelo ohjelmistotoimittajista. Työn tuloksena on laadittu valituista dokumenttityypeistä metatietokuvaukset kahden eri kuvaustavan (JHS 143 ja SFS-EN 82045) avulla ja on todettu molemmat kuvaustavat käyttökelpoisiksi sähköteknisen dokumentoinnin käsittelyyn.Nämä kuvaukset palvelevat asiakasta dokumenttienhallintaprojektin määrittelytyössä. Asiakkaalle on tehty myös vertailu sopivista järjestelmävaihtoehdoista hankintaa varten.
Resumo:
The main objective of this study was todo a statistical analysis of ecological type from optical satellite data, using Tipping's sparse Bayesian algorithm. This thesis uses "the Relevence Vector Machine" algorithm in ecological classification betweenforestland and wetland. Further this bi-classification technique was used to do classification of many other different species of trees and produces hierarchical classification of entire subclasses given as a target class. Also, we carried out an attempt to use airborne image of same forest area. Combining it with image analysis, using different image processing operation, we tried to extract good features and later used them to perform classification of forestland and wetland.
Resumo:
Luokittelujärjestelmää suunniteltaessa tarkoituksena on rakentaa systeemi, joka pystyy ratkaisemaan mahdollisimman tarkasti tutkittavan ongelma-alueen. Hahmontunnistuksessa tunnistusjärjestelmän ydin on luokitin. Luokittelun sovellusaluekenttä on varsin laaja. Luokitinta tarvitaan mm. hahmontunnistusjärjestelmissä, joista kuvankäsittely toimii hyvänä esimerkkinä. Myös lääketieteen parissa tarkkaa luokittelua tarvitaan paljon. Esimerkiksi potilaan oireiden diagnosointiin tarvitaan luokitin, joka pystyy mittaustuloksista päättelemään mahdollisimman tarkasti, onko potilaalla kyseinen oire vai ei. Väitöskirjassa on tehty similaarisuusmittoihin perustuva luokitin ja sen toimintaa on tarkasteltu mm. lääketieteen paristatulevilla data-aineistoilla, joissa luokittelutehtävänä on tunnistaa potilaan oireen laatu. Väitöskirjassa esitetyn luokittimen etuna on sen yksinkertainen rakenne, josta johtuen se on helppo tehdä sekä ymmärtää. Toinen etu on luokittimentarkkuus. Luokitin saadaan luokittelemaan useita eri ongelmia hyvin tarkasti. Tämä on tärkeää varsinkin lääketieteen parissa, missä jo pieni tarkkuuden parannus luokittelutuloksessa on erittäin tärkeää. Väitöskirjassa ontutkittu useita eri mittoja, joilla voidaan mitata samankaltaisuutta. Mitoille löytyy myös useita parametreja, joille voidaan etsiä juuri kyseiseen luokitteluongelmaan sopivat arvot. Tämä parametrien optimointi ongelma-alueeseen sopivaksi voidaan suorittaa mm. evoluutionääri- algoritmeja käyttäen. Kyseisessä työssä tähän on käytetty geneettistä algoritmia ja differentiaali-evoluutioalgoritmia. Luokittimen etuna on sen joustavuus. Ongelma-alueelle on helppo vaihtaa similaarisuusmitta, jos kyseinen mitta ei ole sopiva tutkittavaan ongelma-alueeseen. Myös eri mittojen parametrien optimointi voi parantaa tuloksia huomattavasti. Kun käytetään eri esikäsittelymenetelmiä ennen luokittelua, tuloksia pystytään parantamaan.
Resumo:
The purpose of this thesis is to present a new approach to the lossy compression of multispectral images. Proposed algorithm is based on combination of quantization and clustering. Clustering was investigated for compression of the spatial dimension and the vector quantization was applied for spectral dimension compression. Presenting algo¬rithms proposes to compress multispectral images in two stages. During the first stage we define the classes' etalons, another words to each uniform areas are located inside the image the number of class is given. And if there are the pixels are not yet assigned to some of the clusters then it doing during the second; pass and assign to the closest eta¬lons. Finally a compressed image is represented with a flat index image pointing to a codebook with etalons. The decompression stage is instant too. The proposed method described in this paper has been tested on different satellite multispectral images from different resources. The numerical results and illustrative examples of the method are represented too.
Resumo:
Internet on elektronisen postin perusrakenne ja ollut tärkeä tiedonlähde akateemisille käyttäjille jo pitkään. Siitä on tullut merkittävä tietolähde kaupallisille yrityksille niiden pyrkiessä pitämään yhteyttä asiakkaisiinsa ja seuraamaan kilpailijoitansa. WWW:n kasvu sekä määrällisesti että sen moninaisuus on luonut kasvavan kysynnän kehittyneille tiedonhallintapalveluille. Tällaisia palveluja ovet ryhmittely ja luokittelu, tiedon löytäminen ja suodattaminen sekä lähteiden käytön personointi ja seuranta. Vaikka WWW:stä saatavan tieteellisen ja kaupallisesti arvokkaan tiedon määrä on huomattavasti kasvanut viime vuosina sen etsiminen ja löytyminen on edelleen tavanomaisen Internet hakukoneen varassa. Tietojen hakuun kohdistuvien kasvavien ja muuttuvien tarpeiden tyydyttämisestä on tullut monimutkainen tehtävä Internet hakukoneille. Luokittelu ja indeksointi ovat merkittävä osa luotettavan ja täsmällisen tiedon etsimisessä ja löytämisessä. Tämä diplomityö esittelee luokittelussa ja indeksoinnissa käytettävät yleisimmät menetelmät ja niitä käyttäviä sovelluksia ja projekteja, joissa tiedon hakuun liittyvät ongelmat on pyritty ratkaisemaan.
Resumo:
Työn tavoitteena oli selvittää UPM-Kymmene Oyj Kaukaan tehtaalla käytettävän teknisen tiedon tietovarastoja, tiedon määrää ja laatua. Lisäksi työssä selvitetään tiedon kasvuvauhtia lähivuosina sekä sen dokumentointia ja dokumentoinnin kehitystä. Työssä keskityttiin tekniseen tietoon, mitä käyttää pääsääntöisesti kunnossapito, suunnittelu ja materiaalihallinto. Työn johdosta havaittiin, että tehtaalla käytetään huomattavia määriä henkilöstöresursseja tiedon etsimiseen ja sen päivittämiseen. Lisäksi huomattiin tehtaan teknisessä tiedossa olevan selkeitä päällekkäisyyksiä tiedon tallentamisen osalta, mikä aiheuttaa epävarmuutta tiedon validiutta arvioitaessa. Toimenpiteiksi ehdotettiin tietovarastojen systemaattista läpikäymistä siten, että tiedot luokiteltaisiin luotavalla asteikolla tärkeisiin ja vähemmän tärkeisiin kokonaisuuksiin. Kriteerinä voisi toimia esimerkiksi kriittisyys tuotantoon nähden.
Resumo:
The main objective of the study is to form a framework that provides tools to recognise and classify items whose demand is not smooth but varies highly on size and/or frequency. The framework will then be combined with two other classification methods in order to form a three-dimensional classification model. Forecasting and inventory control of these abnormal demand items is difficult. Therefore another object of this study is to find out which statistical forecasting method is most suitable for forecasting of abnormal demand items. The accuracy of different methods is measured by comparing the forecast to the actual demand. Moreover, the study also aims at finding proper alternatives to the inventory control of abnormal demand items. The study is quantitative and the methodology is a case study. The research methods consist of theory, numerical data, current state analysis and testing of the framework in case company. The results of the study show that the framework makes it possible to recognise and classify the abnormal demand items. It is also noticed that the inventory performance of abnormal demand items differs significantly from the performance of smoothly demanded items. This makes the recognition of abnormal demand items very important.
Resumo:
Learning of preference relations has recently received significant attention in machine learning community. It is closely related to the classification and regression analysis and can be reduced to these tasks. However, preference learning involves prediction of ordering of the data points rather than prediction of a single numerical value as in case of regression or a class label as in case of classification. Therefore, studying preference relations within a separate framework facilitates not only better theoretical understanding of the problem, but also motivates development of the efficient algorithms for the task. Preference learning has many applications in domains such as information retrieval, bioinformatics, natural language processing, etc. For example, algorithms that learn to rank are frequently used in search engines for ordering documents retrieved by the query. Preference learning methods have been also applied to collaborative filtering problems for predicting individual customer choices from the vast amount of user generated feedback. In this thesis we propose several algorithms for learning preference relations. These algorithms stem from well founded and robust class of regularized least-squares methods and have many attractive computational properties. In order to improve the performance of our methods, we introduce several non-linear kernel functions. Thus, contribution of this thesis is twofold: kernel functions for structured data that are used to take advantage of various non-vectorial data representations and the preference learning algorithms that are suitable for different tasks, namely efficient learning of preference relations, learning with large amount of training data, and semi-supervised preference learning. Proposed kernel-based algorithms and kernels are applied to the parse ranking task in natural language processing, document ranking in information retrieval, and remote homology detection in bioinformatics domain. Training of kernel-based ranking algorithms can be infeasible when the size of the training set is large. This problem is addressed by proposing a preference learning algorithm whose computation complexity scales linearly with the number of training data points. We also introduce sparse approximation of the algorithm that can be efficiently trained with large amount of data. For situations when small amount of labeled data but a large amount of unlabeled data is available, we propose a co-regularized preference learning algorithm. To conclude, the methods presented in this thesis address not only the problem of the efficient training of the algorithms but also fast regularization parameter selection, multiple output prediction, and cross-validation. Furthermore, proposed algorithms lead to notably better performance in many preference learning tasks considered.
Resumo:
Software testing is one of the essential parts in software engineering process. The objective of the study was to describe software testing tools and the corresponding use. The thesis contains examples of software testing tools usage. The study was conducted as a literature study, with focus on current software testing practices and quality assurance standards. In the paper a tool classifier was employed, and testing tools presented in study were classified according to it. We found that it is difficult to distinguish current available tools by certain testing activities as many of them contain functionality that exceeds scopes of a single testing type.