Empower Oy on energia-alan palveluja tarjoava yritys. Energianhallintajärjestelmää käytetään energiatietojen hallintaan ja ylläpitoon sekä tietojen esittämiseen loppukäyttäjille. Palvelun näytöt ja raportit on toteutettu web-pohjaisen käyttöliittymän kautta. Yhtiössä käynnistyi suurprojekti vanhan energianhallintajärjestelmän korvaamiseksi. Vanha järjestelmä otettiin käyttöön vuonna 1995 ja EMS-projekti käynnistettiin vuonna 2001. Diplomityö tehtiin osana EMS-projektia ja työn tavoitteina oli selvittää perusjärjestelmän käyttämän tietokantaratkaisun toimivuutta ja soveltuvuutta tehtävään sekä tutkailla eri tietokantamalleja teoreettisesti. Lisäksi työhön kuului erillisten haku- ja muutoskomponenttien ja rajapintojen toteuttaminen. Näiden avulla voidaan hakea ja muuttaa tietoa perusjärjestelmän pohjalla toimivasta oliorelaatiotietokannasta. Perusjärjestelmän DOR-tietokannaksi (Domain Object Repository) kutsuttu kokonaisuus on olioläheinen tietovarasto, josta tietoa haetaan ilmoittamalla haettavan olion tyyppi ja siihen liitoksissa olevat tyypit. Hakutulokseen mukaan haluttavat ominaisuudet ilmoitetaan kultakin tyypiltä erikseen. Haettaessa ja muutettaessa oliopohjaista DOR-tietoa, tulee noudattaa järjestelmän käyttämiä tietomalleja. Haku- ja muutoskomponentit toteutettiin Microsoftin kehittämällä .NET-teknologialla. Tietokantamallien teoreettinen tarkastelu auttoi ymmärtämään järjestelmän pohjalla toimivaa tietokantaratkaisua. Työssä selvisi, että perusjärjestelmän hyödyntämä oliorelaatiotietokanta soveltuu varsin hyvin tarkoitukseensa. Haku- ja muutoskomponenttien toteutus onnistui ja ne toimivat helppokäyttöisenä rajapintana energianhallintajärjestelmän tietokantaan.
Prosessiorganisaatiossa johtamisen ja prosessien tavoitteena on tyydyttää asiakkaan (sisäinen tai ulkoinen) tarpeet. Mittaamisen sitominen prosessin suorityskyvyn mittaamiseen antaa johdolle kuvan yrityksen toiminnasta. Suorityskykymittariston ja yksittäisten mittareiden avulla yritysjohto pystyy arvioimaan toiminnan tasoa, asettamaan tavoitteita sekä seuraamaan asettamiensa tavoitteiden toteutumista. Työn ensimmäisenä tavoitteena oli kartoittaa edellytyksiä sekä tukea Balanced Scorecardin mukaisen suorityskykymittariston tulevaisuuden implementointia. Mittaristo on tarkoitettu toimitusketjun prosessien tehokkuuden mittaamiseen. Työn toisena tavoitteena oli prosessipohjaisen ajattelutavan tukeminen suorituskykymittariston avulla. Implementoinnin edellytyksiä testattiin valitsemalla kaksi ensimmäisen tason avainmittaria pilottimittareiksi. Varaston suorituskykyä mittaavien pilottimittareiden avulla selvitettiin SC tuoteryhmän osalta toimitusketjun suorituskyky avainasiakkaiden ja tärkeiden markkina-alueiden osalta. Erona käytössä oleviin mittareihin on se, että uudet avainmittarit kattavat koko yrityksen toimitusketjun, kun tällä hetkellä käytössä olevat mittarit mittaavat toimitusketjun yksittäisiä osia. Uusien avaimittareiden lähtöarvot selvitettiin tietokantakyselyjen avulla. Tietokyselyt suoritettiin useissa yksittäisissä tietojärjestelmissä, jonka jälkeen niiden tulokset koottiin yhteen tiedostoon ja analysoitiin PC sovellusten avulla. Mittauskohteet oli valittu yhdessä linjaorganisaation kanssa. Näin taattiin yhtiön johdon sitoutuminen mittariston kehittämiseen ja käyttöönottoon. Organisaatiossa yksittäisten prosessien (esim. mittaamisprosessi) vastuualueiden selventämiseen käytettiin koeluonteisesti vastuumatriisitekniikkaa.
Adipose tissue (AT) is distributed as large differentiated masses, and smaller depots covering vessels, and organs, as well as interspersed within them. The differences between types and size of cells makes AT one of the most disperse and complex organs. Lipid storage is partly shared by other tissues such as muscle and liver. We intended to obtain an approximate estimation of the size of lipid reserves stored outside the main fat depots. Both male and female rats were made overweight by 4-weeks feeding of a cafeteria diet. Total lipid content was analyzed in brain, liver, gastrocnemius muscle, four white AT sites: subcutaneous, perigonadal, retroperitoneal and mesenteric, two brown AT sites (interscapular and perirenal) and in a pool of the rest of organs and tissues (after discarding gut contents). Organ lipid content was estimated and tabulated for each individual rat. Food intake was measured daily. There was a surprisingly high proportion of lipid not accounted for by the main macroscopic AT sites, even when brain, liver and BAT main sites were discounted. Muscle contained about 8% of body lipids, liver 1-1.4%, four white AT sites lipid 28-63% of body lipid, and the rest of the body (including muscle) 38-44%. There was a good correlation between AT lipid and body lipid, but lipid in"other organs" was highly correlated too with body lipid. Brain lipid was not. Irrespective of dietary intake, accumulation of body fat was uniform both for the main lipid storage and handling organs: large masses of AT (but also liver, muscle), as well as in the"rest" of tissues. These storage sites, in specialized (adipose) or not-specialized (liver, muscle) tissues reacted in parallel against a hyperlipidic diet challenge. We postulate that body lipid stores are handled and regulated coordinately, with a more centralized and overall mechanisms than usually assumed.
Työ käsittelee multimediatietopankin tietosisällön hallintaa ja kehittämistä. Multimediatietopankki verkossa –projektissa multimediatietopankilla tarkoitetaan vuorovaikutteista ja sisältörikasta liikkuvan ja staattisen kuvan (video, animaatio, valokuvat, 3D, grafiikka), äänten (musiikki ja muut äänet) ja tietokantojen yhdistelmää. Sisällön eri osa-alueet ja vuorovaikutteisuus tukevat kokonaisuutta, jolla on oma viestinnällinen tarkoituksensa. Tätä kokonaistoteutusta levitetään www:n, digitaalitelevision ja mobiililaitteiden välityksellä loppukäyttäjälle. Multimedia- ja matkaviestinteknologioiden nopea kehitys antaa mahdollisuuden kehittää uusia palveluja. Erilaisiin päätelaitteisiin ja vaihteleviin ympäristöihin tarkoitettujen helppokäyttöisten multimedia- ja mobiilipalvelujen kysyntä on jatkuvassa kasvussa. Multimediatietopankkiprojektissa esitetään kuinka multimediapalveluita voidaan toteuttaa integroidussa ympäristössä. Integroidulla ympäristöllä tässä työssä tarkoitetaan Internetin, mobiilien palvelujen, WAP:in, kämmentietokoneen, digitaalisen television sekä uusien multimediakännyköiden käyttöä multimediatietopankin tarjoamien palvelujen välittämisessä. Projekti on jaettu yksittäisiin lukuihin, joissa tarkoituksena on syventää multimediatietopankin yksityiskohtia sisällön tuottamisessa teknologian näkökannalta. Multimediatietokannan toteutuksessa mallinnetaan palvelun sisältö tietokantaan XHTML-muodossa mediaolioiden sisään sekä tallennetaan tietopankin metatietoa multimediarelaatiotietokantaan, josta on mahdollista hakea tietoa minkä tahansa päätelaitteen kyselyjen avulla.Tässä työssä keskitytään multimediatietokannan hallintajärjestelmän tehtäviin ja rakenteeseen, siihen miten multimediadata tallennetaan tietokantaan sekä siihen miten tietokannassa olevaa metatietoa haetaan käyttäen tietokannassa kehitettyjä hakumenetelmiä.
Diplomityössä on käsitelty uudenlaisia menetelmiä riippumattomien komponenttien analyysiin(ICA): Menetelmät perustuvat colligaatioon ja cross-momenttiin. Colligaatio menetelmä perustuu painojen colligaatioon. Menetelmässä on käytetty kahden tyyppisiä todennäköisyysjakaumia yhden sijasta joka perustuu yleiseen itsenäisyyden kriteeriin. Työssä on käytetty colligaatio lähestymistapaa kahdella asymptoottisella esityksellä. Gram-Charlie ja Edgeworth laajennuksia käytetty arvioimaan todennäköisyyksiä näissä menetelmissä. Työssä on myös käytetty cross-momentti menetelmää joka perustuu neljännen asteen cross-momenttiin. Menetelmä on hyvin samankaltainen FastICA algoritmin kanssa. Molempia menetelmiä on tarkasteltu lineaarisella kahden itsenäisen muuttajan sekoituksella. Lähtö signaalit ja sekoitetut matriisit ovattuntemattomia signaali lähteiden määrää lukuunottamatta. Työssä on vertailtu colligaatio menetelmään ja sen modifikaatioita FastICA:an ja JADE:en. Työssä on myös tehty vertailu analyysi suorituskyvyn ja keskusprosessori ajan suhteen cross-momenttiin perustuvien menetelmien, FastICA:n ja JADE:n useiden sekoitettujen parien kanssa.
Uusissa ydinvoimalaitostyypeissä aiotaan käyttää aiempaa enemmän passiivisia turvallisuusjärjestelmiä. Näistä järjestelmistä on vielä vähän käyttökokemusta aktiivisiin turvallisuusjärjestelmiin verrattuna. Työssä tarkastellaan passiivisten turvallisuusjärjestelmien toimintaa sekä etsitään niiden mahdollisia luontaisia vikatilanteita. Luontaisten vikatilanteiden seurauksia järjestelmän suorituskykyyn arvioitiin yksinkertaisilla laskuilla ja mallintamalla RELAP5/MOD3.2.2 beta -termohydrauliikkaohjelmalla. Tarkastelu rajattiin kahden erityyppisen ydinvoimalaitoksen passiivisiin turvallisuusjärjestelmiin. Turvallisuusjärjestelmien suuntaa antavat mitat ja käyttötilanteiden parametrit saatiin laitosvalmistajien laitoskuvauksista. Osoittautui, että vikatilanteissa passiivisissa turvallisuusjärjestelmissä geometrialla on merkittävä vaikutus järjestelmän kapasiteettiin. Tarkasteluissa saatiin myös selville, että laitosmittakaavassa painovoimaisen hätälisävesijärjestelmän turvallisuustoiminto voi toteutua vaikka esiintyisi lyhytaikaisia toimintahäiriöitä, kuten lauhtumista hätälisävesisäiliössä. Sen sijaan lämmönsiirtopiirin virtausreittien tukkeutuminen voi olla fysikaalisesti merkittävä toimintaa haittaava tekijä.
In this article we presents a project [1] developed to demonstrate the capability that Multi-Layer Perceptrons (MLP) have to approximate non-linear functions [2]. The simulation has been implemented in Java to be used in all the computers by Internet [3], with a simple operation and pleasant interface. The power of the simulations is in the possibility of the user of seeing the evolutions of the approaches, the contribution of each neuron, the control of the different parameters, etc. In addition, to guide the user during the simulation, an online help has been implemented.
The present study evaluates the performance of four methods for estimating regression coefficients used to make statistical decisions regarding intervention effectiveness in single-case designs. Ordinary least squares estimation is compared to two correction techniques dealing with general trend and one eliminating autocorrelation whenever it is present. Type I error rates and statistical power are studied for experimental conditions defined by the presence or absence of treatment effect (change in level or in slope), general trend, and serial dependence. The results show that empirical Type I error rates do not approximate the nominal ones in presence of autocorrelation or general trend when ordinary and generalized least squares are applied. The techniques controlling trend show lower false alarm rates, but prove to be insufficiently sensitive to existing treatment effects. Consequently, the use of the statistical significance of the regression coefficients for detecting treatment effects is not recommended for short data series.
In order to investigate a possible association between soybean malate synthase (MS; L-malate glyoxylate-lyase, CoA-acetylating, EC and glyoxysomal malate dehydrogenase (gMDH; (S)-malate: NAD(+) oxidoreductase, EC, two consecutive enzymes in the glyoxylate cycle, their elution profiles were analyzed on Superdex 200 HR fast protein liquid chromatography columns equilibrated in low- and high-ionic-strength buffers. Starting with soluble proteins extracted from the cotyledons of 5-d-old soybean seedlings and a 45% ammonium sulfate precipitation, MS and gMDH coeluted on Superdex 200 HR (low-ionic-strength buffer) as a complex with an approximate relative molecular mass (M(r)) of 670000. Dissociation was achieved in the presence of 50 mM KCl and 5 mM MgCl2, with the elution of MS as an octamer of M, 510 000 and of gMDH as a dimer of M, 73 000. Polyclonal antibodies raised to the native copurified enzymes recognized both denatured MS and gMDH on immunoblots, and their native forms after gel filtration. When these antibodies were used to screen a lambda ZAP II expression library containing cDNA from 3-d-old soybean cotyledons, they identified seven clones encoding gMDH, whereas ten clones encoding MS were identified using an antibody to SDS-PAGE-purified MS. Of these cDNA clones a 1.8 kb clone for MS and a 1.3-kb clone for gMDH were fully sequenced. While 88% identity was found between mature soybean gMDH and watermelon gMDH, the N-terminal transit peptides showed only 37% identity. Despite this low identity, the soybean gMDH transit peptide conserves the consensus R(X(6))HL motif also found in plant and mammalian thiolases.
Notre consommation en eau souterraine, en particulier comme eau potable ou pour l'irrigation, a considérablement augmenté au cours des années. De nombreux problèmes font alors leur apparition, allant de la prospection de nouvelles ressources à la remédiation des aquifères pollués. Indépendamment du problème hydrogéologique considéré, le principal défi reste la caractérisation des propriétés du sous-sol. Une approche stochastique est alors nécessaire afin de représenter cette incertitude en considérant de multiples scénarios géologiques et en générant un grand nombre de réalisations géostatistiques. Nous rencontrons alors la principale limitation de ces approches qui est le coût de calcul dû à la simulation des processus d'écoulements complexes pour chacune de ces réalisations. Dans la première partie de la thèse, ce problème est investigué dans le contexte de propagation de l'incertitude, oú un ensemble de réalisations est identifié comme représentant les propriétés du sous-sol. Afin de propager cette incertitude à la quantité d'intérêt tout en limitant le coût de calcul, les méthodes actuelles font appel à des modèles d'écoulement approximés. Cela permet l'identification d'un sous-ensemble de réalisations représentant la variabilité de l'ensemble initial. Le modèle complexe d'écoulement est alors évalué uniquement pour ce sousensemble, et, sur la base de ces réponses complexes, l'inférence est faite. Notre objectif est d'améliorer la performance de cette approche en utilisant toute l'information à disposition. Pour cela, le sous-ensemble de réponses approximées et exactes est utilisé afin de construire un modèle d'erreur, qui sert ensuite à corriger le reste des réponses approximées et prédire la réponse du modèle complexe. Cette méthode permet de maximiser l'utilisation de l'information à disposition sans augmentation perceptible du temps de calcul. La propagation de l'incertitude est alors plus précise et plus robuste. La stratégie explorée dans le premier chapitre consiste à apprendre d'un sous-ensemble de réalisations la relation entre les modèles d'écoulement approximé et complexe. Dans la seconde partie de la thèse, cette méthodologie est formalisée mathématiquement en introduisant un modèle de régression entre les réponses fonctionnelles. Comme ce problème est mal posé, il est nécessaire d'en réduire la dimensionnalité. Dans cette optique, l'innovation du travail présenté provient de l'utilisation de l'analyse en composantes principales fonctionnelles (ACPF), qui non seulement effectue la réduction de dimensionnalités tout en maximisant l'information retenue, mais permet aussi de diagnostiquer la qualité du modèle d'erreur dans cet espace fonctionnel. La méthodologie proposée est appliquée à un problème de pollution par une phase liquide nonaqueuse et les résultats obtenus montrent que le modèle d'erreur permet une forte réduction du temps de calcul tout en estimant correctement l'incertitude. De plus, pour chaque réponse approximée, une prédiction de la réponse complexe est fournie par le modèle d'erreur. Le concept de modèle d'erreur fonctionnel est donc pertinent pour la propagation de l'incertitude, mais aussi pour les problèmes d'inférence bayésienne. Les méthodes de Monte Carlo par chaîne de Markov (MCMC) sont les algorithmes les plus communément utilisés afin de générer des réalisations géostatistiques en accord avec les observations. Cependant, ces méthodes souffrent d'un taux d'acceptation très bas pour les problèmes de grande dimensionnalité, résultant en un grand nombre de simulations d'écoulement gaspillées. Une approche en deux temps, le "MCMC en deux étapes", a été introduite afin d'éviter les simulations du modèle complexe inutiles par une évaluation préliminaire de la réalisation. Dans la troisième partie de la thèse, le modèle d'écoulement approximé couplé à un modèle d'erreur sert d'évaluation préliminaire pour le "MCMC en deux étapes". Nous démontrons une augmentation du taux d'acceptation par un facteur de 1.5 à 3 en comparaison avec une implémentation classique de MCMC. Une question reste sans réponse : comment choisir la taille de l'ensemble d'entrainement et comment identifier les réalisations permettant d'optimiser la construction du modèle d'erreur. Cela requiert une stratégie itérative afin que, à chaque nouvelle simulation d'écoulement, le modèle d'erreur soit amélioré en incorporant les nouvelles informations. Ceci est développé dans la quatrième partie de la thèse, oú cette méthodologie est appliquée à un problème d'intrusion saline dans un aquifère côtier. -- Our consumption of groundwater, in particular as drinking water and for irrigation, has considerably increased over the years and groundwater is becoming an increasingly scarce and endangered resource. Nofadays, we are facing many problems ranging from water prospection to sustainable management and remediation of polluted aquifers. Independently of the hydrogeological problem, the main challenge remains dealing with the incomplete knofledge of the underground properties. Stochastic approaches have been developed to represent this uncertainty by considering multiple geological scenarios and generating a large number of realizations. The main limitation of this approach is the computational cost associated with performing complex of simulations in each realization. In the first part of the thesis, we explore this issue in the context of uncertainty propagation, where an ensemble of geostatistical realizations is identified as representative of the subsurface uncertainty. To propagate this lack of knofledge to the quantity of interest (e.g., the concentration of pollutant in extracted water), it is necessary to evaluate the of response of each realization. Due to computational constraints, state-of-the-art methods make use of approximate of simulation, to identify a subset of realizations that represents the variability of the ensemble. The complex and computationally heavy of model is then run for this subset based on which inference is made. Our objective is to increase the performance of this approach by using all of the available information and not solely the subset of exact responses. Two error models are proposed to correct the approximate responses follofing a machine learning approach. For the subset identified by a classical approach (here the distance kernel method) both the approximate and the exact responses are knofn. This information is used to construct an error model and correct the ensemble of approximate responses to predict the "expected" responses of the exact model. The proposed methodology makes use of all the available information without perceptible additional computational costs and leads to an increase in accuracy and robustness of the uncertainty propagation. The strategy explored in the first chapter consists in learning from a subset of realizations the relationship between proxy and exact curves. In the second part of this thesis, the strategy is formalized in a rigorous mathematical framework by defining a regression model between functions. As this problem is ill-posed, it is necessary to reduce its dimensionality. The novelty of the work comes from the use of functional principal component analysis (FPCA), which not only performs the dimensionality reduction while maximizing the retained information, but also allofs a diagnostic of the quality of the error model in the functional space. The proposed methodology is applied to a pollution problem by a non-aqueous phase-liquid. The error model allofs a strong reduction of the computational cost while providing a good estimate of the uncertainty. The individual correction of the proxy response by the error model leads to an excellent prediction of the exact response, opening the door to many applications. The concept of functional error model is useful not only in the context of uncertainty propagation, but also, and maybe even more so, to perform Bayesian inference. Monte Carlo Markov Chain (MCMC) algorithms are the most common choice to ensure that the generated realizations are sampled in accordance with the observations. Hofever, this approach suffers from lof acceptance rate in high dimensional problems, resulting in a large number of wasted of simulations. This led to the introduction of two-stage MCMC, where the computational cost is decreased by avoiding unnecessary simulation of the exact of thanks to a preliminary evaluation of the proposal. In the third part of the thesis, a proxy is coupled to an error model to provide an approximate response for the two-stage MCMC set-up. We demonstrate an increase in acceptance rate by a factor three with respect to one-stage MCMC results. An open question remains: hof do we choose the size of the learning set and identify the realizations to optimize the construction of the error model. This requires devising an iterative strategy to construct the error model, such that, as new of simulations are performed, the error model is iteratively improved by incorporating the new information. This is discussed in the fourth part of the thesis, in which we apply this methodology to a problem of saline intrusion in a coastal aquifer.
Despite of the variety of available Web services registries specially aimed at Life Sciences, their scope is usually restricted to a limited set of well-defined types of services. While dedicated registries are generally tied to a particular format, general-purpose ones are more adherent to standards and usually rely on Web Service Definition Language (WSDL). Although WSDL is quite flexible to support common Web services types, its lack of semantic expressiveness led to various initiatives to describe Web services via ontology languages. Nevertheless, WSDL 2.0 descriptions gained a standard representation based on Web Ontology Language (OWL). BioSWR is a novel Web services registry that provides standard Resource Description Framework (RDF) based Web services descriptions along with the traditional WSDL based ones. The registry provides Web-based interface for Web services registration, querying and annotation, and is also accessible programmatically via Representational State Transfer (REST) API or using a SPARQL Protocol and RDF Query Language. BioSWR server is located at http://inb.bsc.es/BioSWR/and its code is available at https://sourceforge.net/projects/bioswr/under the LGPL license.
Very large molecular systems can be calculated with the so called CNDOL approximate Hamiltonians that have been developed by avoiding oversimplifications and only using a priori parameters and formulas from the simpler NDO methods. A new diagonal monoelectronic term named CNDOL/21 shows great consistency and easier SCF convergence when used together with an appropriate function for charge repulsion energies that is derived from traditional formulas. It is possible to obtain a priori molecular orbitals and electron excitation properties after the configuration interaction of single excited determinants with reliability, maintaining interpretative possibilities even being a simplified Hamiltonian. Tests with some unequivocal gas phase maxima of simple molecules (benzene, furfural, acetaldehyde, hexyl alcohol, methyl amine, 2,5 dimethyl 2,4 hexadiene, and ethyl sulfide) ratify the general quality of this approach in comparison with other methods. The calculation of large systems as porphine in gas phase and a model of the complete retinal binding pocket in rhodopsin with 622 basis functions on 280 atoms at the quantum mechanical level show reliability leading to a resulting first allowed transition in 483 nm, very similar to the known experimental value of 500 nm of "dark state." In this very important case, our model gives a central role in this excitation to a charge transfer from the neighboring Glu(-) counterion to the retinaldehyde polyene chain. Tests with gas phase maxima of some important molecules corroborate the reliability of CNDOL/2 Hamiltonians.
By an exponential sum of the Fourier coefficients of a holomorphic cusp form we mean the sum which is formed by first taking the Fourier series of the said form,then cutting the beginning and the tail away and considering the remaining sum on the real axis. For simplicity’s sake, typically the coefficients are normalized. However, this isn’t so important as the normalization can be done and removed simply by using partial summation. We improve the approximate functional equation for the exponential sums of the Fourier coefficients of the holomorphic cusp forms by giving an explicit upper bound for the error term appearing in the equation. The approximate functional equation is originally due to Jutila [9] and a crucial tool for transforming sums into shorter sums. This transformation changes the point of the real axis on which the sum is to be considered. We also improve known upper bounds for the size estimates of the exponential sums. For very short sums we do not obtain any better estimates than the very easy estimate obtained by multiplying the upper bound estimate for a Fourier coefficient (they are bounded by the divisor function as Deligne [2] showed) by the number of coefficients. This estimate is extremely rough as no possible cancellation is taken into account. However, with small sums, it is unclear whether there happens any remarkable amounts of cancellation.
Current-day web search engines (e.g., Google) do not crawl and index a significant portion of theWeb and, hence, web users relying on search engines only are unable to discover and access a large amount of information from the non-indexable part of the Web. Specifically, dynamic pages generated based on parameters provided by a user via web search forms (or search interfaces) are not indexed by search engines and cannot be found in searchers’ results. Such search interfaces provide web users with an online access to myriads of databases on the Web. In order to obtain some information from a web database of interest, a user issues his/her query by specifying query terms in a search form and receives the query results, a set of dynamic pages that embed required information from a database. At the same time, issuing a query via an arbitrary search interface is an extremely complex task for any kind of automatic agents including web crawlers, which, at least up to the present day, do not even attempt to pass through web forms on a large scale. In this thesis, our primary and key object of study is a huge portion of the Web (hereafter referred as the deep Web) hidden behind web search interfaces. We concentrate on three classes of problems around the deep Web: characterization of deep Web, finding and classifying deep web resources, and querying web databases. Characterizing deep Web: Though the term deep Web was coined in 2000, which is sufficiently long ago for any web-related concept/technology, we still do not know many important characteristics of the deep Web. Another matter of concern is that surveys of the deep Web existing so far are predominantly based on study of deep web sites in English. One can then expect that findings from these surveys may be biased, especially owing to a steady increase in non-English web content. In this way, surveying of national segments of the deep Web is of interest not only to national communities but to the whole web community as well. In this thesis, we propose two new methods for estimating the main parameters of deep Web. We use the suggested methods to estimate the scale of one specific national segment of the Web and report our findings. We also build and make publicly available a dataset describing more than 200 web databases from the national segment of the Web. Finding deep web resources: The deep Web has been growing at a very fast pace. It has been estimated that there are hundred thousands of deep web sites. Due to the huge volume of information in the deep Web, there has been a significant interest to approaches that allow users and computer applications to leverage this information. Most approaches assumed that search interfaces to web databases of interest are already discovered and known to query systems. However, such assumptions do not hold true mostly because of the large scale of the deep Web – indeed, for any given domain of interest there are too many web databases with relevant content. Thus, the ability to locate search interfaces to web databases becomes a key requirement for any application accessing the deep Web. In this thesis, we describe the architecture of the I-Crawler, a system for finding and classifying search interfaces. Specifically, the I-Crawler is intentionally designed to be used in deepWeb characterization studies and for constructing directories of deep web resources. Unlike almost all other approaches to the deep Web existing so far, the I-Crawler is able to recognize and analyze JavaScript-rich and non-HTML searchable forms. Querying web databases: Retrieving information by filling out web search forms is a typical task for a web user. This is all the more so as interfaces of conventional search engines are also web forms. At present, a user needs to manually provide input values to search interfaces and then extract required data from the pages with results. The manual filling out forms is not feasible and cumbersome in cases of complex queries but such kind of queries are essential for many web searches especially in the area of e-commerce. In this way, the automation of querying and retrieving data behind search interfaces is desirable and essential for such tasks as building domain-independent deep web crawlers and automated web agents, searching for domain-specific information (vertical search engines), and for extraction and integration of information from various deep web resources. We present a data model for representing search interfaces and discuss techniques for extracting field labels, client-side scripts and structured data from HTML pages. We also describe a representation of result pages and discuss how to extract and store results of form queries. Besides, we present a user-friendly and expressive form query language that allows one to retrieve information behind search interfaces and extract useful data from the result pages based on specified conditions. We implement a prototype system for querying web databases and describe its architecture and components design.
For a massless fluid (density = 0), the steady flow along a duct is governed exclusively by viscous losses. In this paper, we show that the velocity profile obtained in this limit can be used to calculate the pressure drop up to the first order in density. This method has been applied to the particular case of a duct, defined by two plane-parallel discs. For this case, the first-order approximation results in a simple analytical solution which has been favorably checked against numerical simulations. Finally, an experiment has been carried out with water flowing between the discs. The experimental results show good agreement with the approximate solution