877 resultados para data-mining application
Resumo:
BACKGROUND: Selective publication of studies, which is commonly called publication bias, is widely recognized. Over the years a new nomenclature for other types of bias related to non-publication or distortion related to the dissemination of research findings has been developed. However, several of these different biases are often still summarized by the term 'publication bias'. METHODS/DESIGN: As part of the OPEN Project (To Overcome failure to Publish nEgative fiNdings) we will conduct a systematic review with the following objectives:- To systematically review highly cited articles that focus on non-publication of studies and to present the various definitions of biases related to the dissemination of research findings contained in the articles identified.- To develop and discuss a new framework on nomenclature of various aspects of distortion in the dissemination process that leads to public availability of research findings in an international group of experts in the context of the OPEN Project.We will systematically search Web of Knowledge for highly cited articles that provide a definition of biases related to the dissemination of research findings. A specifically designed data extraction form will be developed and pilot-tested. Working in teams of two, we will independently extract relevant information from each eligible article.For the development of a new framework we will construct an initial table listing different levels and different hazards en route to making research findings public. An international group of experts will iteratively review the table and reflect on its content until no new insights emerge and consensus has been reached. DISCUSSION: Results are expected to be publicly available in mid-2013. This systematic review together with the results of other systematic reviews of the OPEN project will serve as a basis for the development of future policies and guidelines regarding the assessment and prevention of publication bias.
Resumo:
Background: Current advances in genomics, proteomics and other areas of molecular biology make the identification and reconstruction of novel pathways an emerging area of great interest. One such class of pathways is involved in the biogenesis of Iron-Sulfur Clusters (ISC). Results: Our goal is the development of a new approach based on the use and combination of mathematical, theoretical and computational methods to identify the topology of a target network. In this approach, mathematical models play a central role for the evaluation of the alternative network structures that arise from literature data-mining, phylogenetic profiling, structural methods, and human curation. As a test case, we reconstruct the topology of the reaction and regulatory network for the mitochondrial ISC biogenesis pathway in S. cerevisiae. Predictions regarding how proteins act in ISC biogenesis are validated by comparison with published experimental results. For example, the predicted role of Arh1 and Yah1 and some of the interactions we predict for Grx5 both matches experimental evidence. A putative role for frataxin in directly regulating mitochondrial iron import is discarded from our analysis, which agrees with also published experimental results. Additionally, we propose a number of experiments for testing other predictions and further improve the identification of the network structure. Conclusion: We propose and apply an iterative in silico procedure for predictive reconstruction of the network topology of metabolic pathways. The procedure combines structural bioinformatics tools and mathematical modeling techniques that allow the reconstruction of biochemical networks. Using the Iron Sulfur cluster biogenesis in S. cerevisiae as a test case we indicate how this procedure can be used to analyze and validate the network model against experimental results. Critical evaluation of the obtained results through this procedure allows devising new wet lab experiments to confirm its predictions or provide alternative explanations for further improving the models.
Resumo:
Diplomityössä luotiin ehdotus ja tuotiin esiin näkökulmia laatujärjestelmän dokumentoinnista, sen hallinnasta ja ylläpidosta sähköisessä muodossa. Työssä selvitettiin laatujärjestelmätyön ongelmakohtia, edistymistä ja sitoutumista vaikeuttavia tekijöitä sekä sähköisen toteutuksen laadintavaiheen ongelmia. Työssä myös koottiin laatuajattelun ajatusmalleja, toiminnalliseen laatujärjestelmätyöhön vaikuttavia tekijöitä ja laatujärjestelmän sähköisiä toteutusratkaisuja. Diplomityössä tutkittiin laatujärjestelmäprojektin ongelmia mekaanisessa metsäteollisuudessa sekä dokumentaation hallinnan toteutusta Finnforest Oyj Rengon sahalla. Tarkastelun kohteena olivat muun muassa työohjepalaverien järjestäminen, ohjeiden laatiminen ja dokumentaation hallinta. Työssä käsiteltiin laatujärjestelmän laatimiseen vaikuttavia osa-alueita ja annettiin vaihtoehtoja dokumentaation hallitsemiseksi ja kehittämiseksi. Dokumentaation hallintaan kehitettiin työ- ja viiteohjeiden hallintasovellus TYVI. Laatujärjestelmätyössä esille tulleet ongelmat liittyvät resurssien, aikataulujen ja tavoitteiden hallintaan. Laatujärjestelmätyö on erittäin laaja-alainen, joten huomioon on otettava sekä teknisiä että inhimillisiä tekijöitä. Käytännön työssä ongelmia on ilmennyt muun muassa työohjepalaverien järjestämisessä ja hallinnassa. Työn aikana on havaittu asioiden kirjallisen esittämisen vaikeus sekä toisaalta todettu selkeiden työohjeiden, tehtävärajojen, vastuu- ja valtasuhteiden merkitys käytännön työssä. Yleisesti laatuajattelun käsitteen ymmärtäminen ja sen laajuus aiheutti ongelmia. Tulevaisuuden tavoitteena on saattaa koko laatujärjestelmä toimimaan sähköisessä muodossa reaaliajassa ja myös kehittymään tarpeiden mukaan. Tämä työ liittyy suurelta osin tietotekniikan soveltamiseen ja laitoskohtaisten muutosten ja tavoitteiden hallintaan. Tulevaisuudessa tähän haasteeseen tulee vastaamaan SAP R/3:n laadunhallintaosio. Vastuu toiminnasta ja sen kehittämisestä sekä laatujärjestelmän toimivuudesta käytännössä kuuluu koko henkilökunnalle.
Resumo:
Background: Information about the composition of regulatory regions is of great value for designing experiments to functionally characterize gene expression. The multiplicity of available applications to predict transcription factor binding sites in a particular locus contrasts with the substantial computational expertise that is demanded to manipulate them, which may constitute a potential barrier for the experimental community. Results: CBS (Conserved regulatory Binding Sites, http://compfly.bio.ub.es/CBS) is a public platform of evolutionarily conserved binding sites and enhancers predicted in multiple Drosophila genomes that is furnished with published chromatin signatures associated to transcriptionally active regions and other experimental sources of information. The rapid access to this novel body of knowledge through a user-friendly web interface enables non-expert users to identify the binding sequences available for any particular gene, transcription factor, or genome region. Conclusions: The CBS platform is a powerful resource that provides tools for data mining individual sequences and groups of co-expressed genes with epigenomics information to conduct regulatory screenings in Drosophila.
Resumo:
Organisaatio tarvitsee työkaluja toimittajien suorituskyvyn mittaukseen ja kehittämiseen. Ilman systemaattista mittaamista ja arviointia ostajat eivät tiedä kuinka hyvin toimittajat suoriutuvat velvoitteistaan. Tutkielman tavoit-teena oli analysoida vähittäiskaupan tavarantoimittajien arviointiprosessia keskittyen päivittäistavarakaupan toimialaan ja tavarantoimittajiin sekä luoda toimittajien arviointiin pilottiraportti. Tutkielma on tehty päivittäistavarakaupan kohdeyrityksen toimeksiannosta. Tutkielman teoreettinen aineisto pohjautuu aikaisempaan kirjallisuuteen ja tutkimukseen. Tutkielman empiiriseen osaan aineistoa kerättiin kohdeyrityksen henkilöstön haastatteluilla sekä osallistuvan havainnoinnin avulla. Lisäksi tutkija perehtyi kohdeyrityksessä käytössä olevaan tietovarastointi-sovellukseen. Kirjallisen aineiston avulla rakennettu tutkimuksen teoreettinen osa perustuu aikaisempaan tutkimukseen. Empiirinen osa muodostuu neljästä teemahaastattelusta, jotka suoritettiin kohdeyrityksessä. Haastattelujen tarkoituksena oli rakentaa tutkijalle kuva kohdeyrityksen tavarantoimittaja-arvioinnin nykytilasta. Tutkielmassa havainnollistettiin yksinkertainen raportointimalli yhden tavararyhmän arviointiin ja arviointitiedon analysointiin. Raportointimallilla havainnollistetaan tavarantoimittaja-arviointidatan käyttöä toimittaja-arvioinnissa. Jatkossa on olennaista keskittyä systemaattisen raportoinnin edelleen kehittämiseen ja arviointitiedon hyväksikäyttöön neuvotteluissa toimittajan kanssa. Lisäksi toimittajien luokittelu tavararyhmien sisällä on tärkeää jotta arvioinnissa voidaan keskittyä kaikista tärkeimpiin toimittajiin.
Resumo:
The extension of traditional data mining methods to time series has been effectively applied to a wide range of domains such as finance, econometrics, biology, security, and medicine. Many existing mining methods deal with the task of change points detection, but very few provide a flexible approach. Querying specific change points with linguistic variables is particularly useful in crime analysis, where intuitive, understandable, and appropriate detection of changes can significantly improve the allocation of resources for timely and concise operations. In this paper, we propose an on-line method for detecting and querying change points in crime-related time series with the use of a meaningful representation and a fuzzy inference system. Change points detection is based on a shape space representation, and linguistic terms describing geometric properties of the change points are used to express queries, offering the advantage of intuitiveness and flexibility. An empirical evaluation is first conducted on a crime data set to confirm the validity of the proposed method and then on a financial data set to test its general applicability. A comparison to a similar change-point detection algorithm and a sensitivity analysis are also conducted. Results show that the method is able to accurately detect change points at very low computational costs. More broadly, the detection of specific change points within time series of virtually any domain is made more intuitive and more understandable, even for experts not related to data mining.
Resumo:
Peer-reviewed
Resumo:
Un árbol de decisión es una forma gráfica y analítica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos ayudan a tomar la decisión más"acertada", desde un punto de vista probabilístico, ante un abanico de posibles decisiones. Estos árboles permiten examinar los resultados y determinar visualmente cómo fluye el modelo. Los resultados visuales ayudan a buscar subgrupos específicos y relaciones que tal vez no encontraríamos con estadísticos más tradicionales. Los árboles de decisión son una técnica estadística para la segmentación, la estratificación, la predicción, la reducción de datos y el filtrado de variables, la identificación de interacciones, la fusión de categorías y la discretización de variables continuas. La función árboles de decisión (Tree) en SPSS crea árboles de clasificación y de decisión para identificar grupos, descubrir las relaciones entre grupos y predecir eventos futuros. Existen diferentes tipos de árbol: CHAID, CHAID exhaustivo, CRT y QUEST, según el que mejor se ajuste a nuestros datos.
Resumo:
En els darrers vint anys la informació en línia ha esdevingut un factor decisiu per a l’activitat acadèmica i de recerca, i en conseqüència els recursos electrònics s’han anat “apropiant” progressivament d’una part cada vegada més important dels pressupostos de les biblioteques. La contractació dels recursos electrònics ha anat assumint una posició determinant en l’economia dels serveis bibliotecaris, a mesura que les publicacions en paper han anat perdent terreny davant les publicacions digitals. S’estima que les biblioteques universitàries italianes – malgrat no estar a l’avantguarda en aquest sector – inverteixen des de ja fa alguns anys més de la meitat dels seus pressupostos en l’adquisició de recursos electrònics. Com és sabut, el desenvolupament del mercat de la informació digital ha empès les biblioteques a associar-se en organitzacions i consorcis, fins i tot en aquells contextos tradicionalment reticents a la cooperació. El mètode cooperatiu es considera un element resolutiu dins el món de la informació electrònica i els consorcis són l’instrument organitzatiu més adient per tal que aquest enfocament sigui eficaç. En els darrers anys els consorcis han empès la seva iniciativa més enllà de les adquisicions i les negociacions de les llicències electròniques, per a invertir en els àmbits de l’accés obert, de la preservació digital, del data mining, de la gestió col·lectiva dels documents en paper, dels sistemes de gestió bibliotecària (ILS i eines de descoberta), de les plataformes d’accés, i molts altres. Més recentment ha sorgit una major disposició per part dels consorcis per a col·laborar amb altres organitzacions que treballen en diversos aspectes de l’àmbit de la comunicació científica i en la gestió i avaluació de la recerca (agències de finançament de la recerca, editorials, empreses de tecnologies de la informació, etc.) per tal de fer front a les noves necessitats de les biblioteques destinades a ampliar la seva intervenció més enllà del seu perímetre tradicional.
Resumo:
The number of digital images has been increasing exponentially in the last few years. People have problems managing their image collections and finding a specific image. An automatic image categorization system could help them to manage images and find specific images. In this thesis, an unsupervised visual object categorization system was implemented to categorize a set of unknown images. The system is unsupervised, and hence, it does not need known images to train the system which needs to be manually obtained. Therefore, the number of possible categories and images can be huge. The system implemented in the thesis extracts local features from the images. These local features are used to build a codebook. The local features and the codebook are then used to generate a feature vector for an image. Images are categorized based on the feature vectors. The system is able to categorize any given set of images based on the visual appearance of the images. Images that have similar image regions are grouped together in the same category. Thus, for example, images which contain cars are assigned to the same cluster. The unsupervised visual object categorization system can be used in many situations, e.g., in an Internet search engine. The system can categorize images for a user, and the user can then easily find a specific type of image.
Resumo:
Tämän tutkimuksen kohdeorganisaatio on suuren teollisuusyrityksen sisäinen raaka-aineen hankkija ja toimittaja. Tutkimuksessa selvitetään, mistä kohdeorganisaation hankinta-asiakkuuksien arvo muodostuu ja kuinka olemassa olevan liiketoimintadatan perusteella voidaan tutkia, arvioida ja luokitella kauppojen ja asiakkuuksien arvokkuutta aikaan sitomatta, objektiivisesti ja luotettavasti. Tutkimuksen teoriaosiossa esitellään lähestymistapoja ja menetelmiä, joiden avulla voidaan jalostaa olemassa olevasta datasta uutta sidosryhmätietämystä liiketoiminnan käyttöön, sekä tarkastellaan asiakaskannattavuusanalyysin, portfolioanalyysin, sekä asiakassegmentoinnin perusteita ja malleja. Näiden teorioiden ja mallien pohjalta rakennetaan kohdeorganisaatiolle räätälöity, indeksoituihin hinta-, määrä- ja kauppojen toistuvuus-muuttujiin perustuva, asiakkuuksien arvottamis- ja luokittelumalli. Arvottamis- ja luokittelumalli testataan vuosien 2003–2007 liiketoimintadatasta muodostetulla 389 336 kaupparivin otoksella, joka sisältää 42 186 arvioitavaa asiakkuussuhdetta. Merkittävin esille nouseva havainto on noin 5 000:n keskimääräistä selkeästi kalliimman asiakkuuden ryhmä. Aineisto ja sen poikkeavuudet testataan tilastollisin menetelmin, jotta saadaan selville asiakkuuden arvoon vaikuttavat ja arvoa selittävät tekijät. Lopuksi pohditaan arvottamismallin merkitystä analyyttisemman ostotoiminnan ja asiakkuudenhallinnan välineenä, sekä esitetään muutamia parannusehdotuksia.
Resumo:
La disciplina de l'Educational Data Mining and Learning Analytics té per objecte emprar els mètodes propis de la descoberta de coneixement en bases de dades i l'aprenentatge computacional amb la finalitat de comprendrei millorar, si s'escau, els processos que tenen lloc en entorns d'aprenentatge. En aquest estudi es parteix d'un registre d'establiment i clausura de sessions dels usuaris al Campus Virtual de la UOC per mirar d'obtenir resultats en aquesta direcció.
Resumo:
Recommender systems attempt to predict items in which a user might be interested, given some information about the user's and items' profiles. Most existing recommender systems use content-based or collaborative filtering methods or hybrid methods that combine both techniques (see the sidebar for more details). We created Informed Recommender to address the problem of using consumer opinion about products, expressed online in free-form text, to generate product recommendations. Informed recommender uses prioritized consumer product reviews to make recommendations. Using text-mining techniques, it maps each piece of each review comment automatically into an ontology
Resumo:
Business intelligencellä tarkoitetaan liiketoimintatiedon hallintaan liittyviä prosesseja ja tekniikoita. Se pitää sisällään tiedon keräämiseen, tallentamiseen, analysointiin ja jakamiseen käytettyt tuotteet, tekniikat ja prosessit, joiden tavoitteena on auttaa yrityksen työntekijöitä liiketoimintaan liittyvässä päätöksenteossa. Tutkimuksen tavoitteena on tutkia uuden yritysryhmän laajuisen BI-tietojärjestelmän suunnitteluun ja käyttöönotoon liittyviä seikkoja ja luoda valmiudet BI-tietojärjestelmän kehitys- ja käyttöönottoprojektin kohdeyrityksessä, jonka toimiala on kansainvälinen terveydenhoitoalan tukkuliiketoiminta. Uuden BI-järjestelmän halutaan tukeva yritysryhmän yritysten välistä integraatiota ja tehostavan tiedonhakuun ja analysointiin liittyviä prosesseja. Tutkimus toteutettiin konstruktiivisena tutkimuksena, joka kattaa kohdeyrityksen IT-arkkitehtuurin, tietosisällön, prosessit ja organisaation raportoinnin kannalta. Lisäksi työssä suoritettiin ohjelmistovertailu kahden markkinoilla toimivan merkittävän ohjelmistotalon BI-tuotteiden välillä. Työssä havaittiin, että BI-projekti on laaja-alainen ja suuri hanke, joka ulottuu läpi koko organisaation. BI-ohjelmiston tehokas hyödyntäminen asettaa vaatimuksia erityisesti taustajärjestelmien tiedon huolelliseen mallintamiseen liittyen. Työssä saatiin pilotoinnin kautta käytännön kokemuksia uudesta järjestelmästä ja sen tarjoamista mahdollisuuksista kohdeyrityksessä.
Resumo:
Työpaikkailmoitusten etsiminen internetistä on hyvin yleistä nykyään, mutta kysei- nen prosessi ei ole kehittynyt vuosien varrella muiden palvelujen tapaan. Tämän ta- kia tehokkaan ja omiin taitoihin kohdistetun haun tekeminen on hyvin vaikeaa. Tässä työssä toteutetaan verkkopalvelu, jonka avulla käyttäjä voi tutkia useasta läh- teestä haettuja IT-alan työpaikkailmoituksia ja etsiä niistä omille taidoilleen parhai- ten sopivia. Palvelun taustalla toimiva järjestelmä hakee ilmoitukset ja analysoi ne tarvittavan datan saamiseksi. Samalla ilmoituksista luodaan tilastoja, joita käyttäjät voivat tutkia. Kerätyistä tiedoista saadaan myös selville millaisia yhteyksiä eri am- mattien ja termien välillä on. Palvelun avulla on helppoa tehdä hakuja painottaen omia osaamisalueita. Haun tu- lokset tulostetaan parhaiten sopivasta huonoimmin sopivaan. Jokaisen ilmoituksen mukana tulostetaan listaus ilmoituksessa olleista ammattitermeistä ja jokaisen haun loppuun tulostetaan myös listaus kaikista haun tuloksista löytyneistä ilmoituksista. Kohdistetut haut ovat mahdollisia, koska palvelu kerää tietoja ilmoituksista löytyvis- tä termeistä luokitellen niitä. Tilastoista käyttäjällä on mahdollisuus seurata työpaikkailmoitusmäärien muutoksia viikoittain niin mol:n kuin monsterin järjestelmissä. Pelkkien ilmoitusmäärien lisäksi tilastoista voi seurata yksittäisten ammattitermien esiintymistä, sekä tietyn ammat- tialan ilmoitusten määriä.