16 resultados para World wide web search engines
em Doria (National Library of Finland DSpace Services) - National Library of Finland, Finland
Resumo:
Current-day web search engines (e.g., Google) do not crawl and index a significant portion of theWeb and, hence, web users relying on search engines only are unable to discover and access a large amount of information from the non-indexable part of the Web. Specifically, dynamic pages generated based on parameters provided by a user via web search forms (or search interfaces) are not indexed by search engines and cannot be found in searchers’ results. Such search interfaces provide web users with an online access to myriads of databases on the Web. In order to obtain some information from a web database of interest, a user issues his/her query by specifying query terms in a search form and receives the query results, a set of dynamic pages that embed required information from a database. At the same time, issuing a query via an arbitrary search interface is an extremely complex task for any kind of automatic agents including web crawlers, which, at least up to the present day, do not even attempt to pass through web forms on a large scale. In this thesis, our primary and key object of study is a huge portion of the Web (hereafter referred as the deep Web) hidden behind web search interfaces. We concentrate on three classes of problems around the deep Web: characterization of deep Web, finding and classifying deep web resources, and querying web databases. Characterizing deep Web: Though the term deep Web was coined in 2000, which is sufficiently long ago for any web-related concept/technology, we still do not know many important characteristics of the deep Web. Another matter of concern is that surveys of the deep Web existing so far are predominantly based on study of deep web sites in English. One can then expect that findings from these surveys may be biased, especially owing to a steady increase in non-English web content. In this way, surveying of national segments of the deep Web is of interest not only to national communities but to the whole web community as well. In this thesis, we propose two new methods for estimating the main parameters of deep Web. We use the suggested methods to estimate the scale of one specific national segment of the Web and report our findings. We also build and make publicly available a dataset describing more than 200 web databases from the national segment of the Web. Finding deep web resources: The deep Web has been growing at a very fast pace. It has been estimated that there are hundred thousands of deep web sites. Due to the huge volume of information in the deep Web, there has been a significant interest to approaches that allow users and computer applications to leverage this information. Most approaches assumed that search interfaces to web databases of interest are already discovered and known to query systems. However, such assumptions do not hold true mostly because of the large scale of the deep Web – indeed, for any given domain of interest there are too many web databases with relevant content. Thus, the ability to locate search interfaces to web databases becomes a key requirement for any application accessing the deep Web. In this thesis, we describe the architecture of the I-Crawler, a system for finding and classifying search interfaces. Specifically, the I-Crawler is intentionally designed to be used in deepWeb characterization studies and for constructing directories of deep web resources. Unlike almost all other approaches to the deep Web existing so far, the I-Crawler is able to recognize and analyze JavaScript-rich and non-HTML searchable forms. Querying web databases: Retrieving information by filling out web search forms is a typical task for a web user. This is all the more so as interfaces of conventional search engines are also web forms. At present, a user needs to manually provide input values to search interfaces and then extract required data from the pages with results. The manual filling out forms is not feasible and cumbersome in cases of complex queries but such kind of queries are essential for many web searches especially in the area of e-commerce. In this way, the automation of querying and retrieving data behind search interfaces is desirable and essential for such tasks as building domain-independent deep web crawlers and automated web agents, searching for domain-specific information (vertical search engines), and for extraction and integration of information from various deep web resources. We present a data model for representing search interfaces and discuss techniques for extracting field labels, client-side scripts and structured data from HTML pages. We also describe a representation of result pages and discuss how to extract and store results of form queries. Besides, we present a user-friendly and expressive form query language that allows one to retrieve information behind search interfaces and extract useful data from the result pages based on specified conditions. We implement a prototype system for querying web databases and describe its architecture and components design.
Resumo:
Internet-palvelujen määrä kasvaa jatkuvasti. Henkilöllä on yleensä yksi sähköinen identiteetti jokaisessa käyttämässään palvelussa. Autentikointitunnusten turvallinen säilytys käy yhä vaikeammaksi, kun niitä kertyy yhdet jokaisesta uudesta palvelurekisteröitymisestä. Tämä diplomityö tarkastelee ongelmaa ja ratkaisuja sekä palvelulähtöisestä että teknisestä näkökulmasta. Palvelulähtöisen identiteetinhallinnan liiketoimintakonsepti ja toteutustekniikat – kuten single sign-on (SSO) ja Security Assertion Markup Language (SAML) – käydään läpi karkeiden esimerkkien avulla sekä tutustuen Nokia Account -hankkeessa tuotetun ratkaisun konseptiin ja teknisiin yksityiskohtiin. Nokia Account -palvelun ensimmäisen version toteutusta analysoidaan lopuksi identiteetinhallintapalveluiden suunnitteluperiaatteita ja vaatimuksia vasten.
Resumo:
This study presents a review of theories of the so-called post-industrial society, and proposes that the concept of post-industrial society can be used to understand the recent developments of the World Wide Web, often described as Web 2.0 or social Web. The study combines theories ranging from post-war management science and cultural studies to software development, and tries to build a holistic view of the development of the post-industrial society, and especially the Internet. The discourse on the emergence of a post-industrial society after the World Wars has addressed the ways in which the growing importance of information, and innovations in digital communications technology, are changing our society. It is furthermore deeply connected with the discourse on the postmodern society, which emphasizes cultural fragmentation, intertextuality, and pluralism. The Internet age is characterized by increasing masses of information that are managed through various technologies. While 1990s Internet technologies often used the network as a traditional broadcasting channel with added interactivity, Web 2.0 technologies are specifically designed to utilize the network model by facilitating communication between various services and devices, and analyzing the relationships between users and objects in order to produce intelligent insight. The wide adoption of the Internet, and recently of Internet-enabled mobile devices, is furthermore continuously producing new ways of communicating, consuming, and producing. Applications of the social Web, such as social media or social networking services, are permanently changing our traditional social, cultural, and economic practices. The study first presents an overview of the post-industrial society, the Internet, and the concept of Web 2.0. Then the concept of social Web is described with an analysis of the term social media, the brief histories of the interactive Web and social networking services, and a description of the concept ―long tail‖, used to represent the masses of information available in the Web that do not receive mainstream attention. Finally, methods for retrieving and filtering information, modeling social and cultural relationships, and communicating with customers, are presented.
Resumo:
World Wide Webin suosiolla on ollut merkittävä vaikutus yhteiskuntaan. WWW-sivut ovat helposti saatavilla ja sisällön tekeminen WWW:hen on helppoa. WWW-ympäristölle myös kehitetään paljon sovelluksia. WWW-sovellusten kehittämiselle ominaista on valinnanvapaus ja nopeuden tavoittelu. WWW-sovellusten ohjelmoinnin mahdollistavat useat toisilleen vaihtoehtoiset tekniikat. Ne eroavat toisistaan suoritusnopeudessa, ominaisuuksien määrässä ja joustavuudessa. Ohjelmoinnissa käytetään apuna useita erilaisia menetelmiä. Apumenetelmiä ovat muun muassa työkalut ja valmiiden komponenttien hyödyntäminen. Valmiit komponentit voivat olla joko ilmaisia, avointa lähdekoodia tai maksullisia. Tämän kandidaatintyön aikana valmistui sovellus, joka piirtää tilastotiedoista kaaviokuvia ja näyttää niitä dynaamisella WWW-sivulla. Sovellus pyrittiin toteuttamaan älykkäästi apumenetelmiä sopivasti hyödyntäen. Sovelluksen kehittämisessä käytettiin apuna sekä ohjelmointityökaluja että valmiita komponentteja. Kaaviokuvien tyypin ja ulkoasun haluttiin olevan käyttäjien muokattavissa. Toisaalta sovelluksen haluttiin olevan helposti laajennettavissa. Vaatimuksiin vastattiin tekemällä kaaviokuvien piirrosta osittain tietokannalla ohjelmoitava.
Resumo:
Diplomityö on tehty Lappeenrannan teknillisen korkeakoulun tuotantotalouden osastolla. Työ on osa Asiakastarpeiden kustannus- ja aikatehokas selvittäminen kansainvälisiltä markkinoilta (Kannasta) -projektia. Työn tarkoituksena oli tutkia Internetiä asiakastarvekartoituksessa. Työn tavoitteena oli kar-toittaa Internetin avulla käytettäviä asiakastarvetiedon lähteitä tuotekehitykselle ja esitellä Internetin avulla tapahtuvan asiakastarvetiedon keräyksen toimintatapa sekä tiedon keräyksen apuvälineet. Internetin avulla voidaan yrityksen liiketoimintaympäristöstä kerätä asiakastarvetietoja. Tietojen keräys voidaan tehdä kirjoituspöytätutkimuksena tai kvantitatiivis-kvalitatiivisena tutkimuksena. Internetin avulla tehtävässä kirjoituspöytätutkimuksessa tietoa asiakkaista, asiakkaiden tarpeista ja kilpailijoista voidaan kerätä World Wide Web -sivuilta tai tietopankeista. Kvantitatiivis-kvalitatiivisessa tutkimuksessa tietoja asiakkaiden tarpeista ja vaatimuksista kerätään Internet-työkaluilla yrityksen asiakkailta ja muilta sen sidosryhmiltä. Työssä on esitelty kolme eri asiakastarvekartoituksen Internet-työkalua. Internetin avulla saadaan parannettua yrityksen ja sen asiakkaiden välistä viestintää sekä tehostettua asiakastarvetiedon keräystä.
Resumo:
Diplomityössä perehdytään nykyisiin hakemistotekniikoihin ja niiden hyödyntä-miseen. World Wide Web on tuonut hakemistomaailmaankin aivan uusia ulottuvuuksia ja tästä on osoituksena LDAP-hakemistoprotokollan suosion merkittävä kasvu. LDAP soveltuu Internet-maailmaan erinomaisesti keveytensä, helppokäyttöisyytensä ja nopeutensa ansiosta. Käytännön osuudessa toteutettiin LDAP-tekniikkaa hyödyntävä yrityshakemisto, jolla voitiin WWW-käyttöliittymällä etsiä ja muokata yrityksen henkilö- ja yksikkötietoja. Työn tarkoitus oli selvittää LDAP:n soveltuvuutta kaupalliseen sovellukseen ja kerätä kokemuksia siihen liittyvistä asioista ja tekniikoista.
Resumo:
Tämä työ esittelee uuden tarjota paikasta riippuvaa tietoa langattomien tietoverkkojen käyttäjille. Tieto välitetään jokaiselle käyttäjälle tietämättä mitään käyttäjän henkilöllisyydestä. Sovellustason protokollaksi valittiin HTTP, joka mahdollistaa tämän järjestelmän saattaa tietoa perille useimmille käyttäjille, jotka käyttävät hyvinkin erilaisia päätelaitteita. Tämä järjestelmä toimii sieppaavan www-liikenteen välityspalvelimen jatkeena. Erilaisten tietokantojen sisällä on perusteella järjestelmä päättää välitetäänkö tietoa vai ei. Järjestelmä sisältää myös yksinkertaisen ohjelmiston käyttäjien paikantamiseksi yksittäisen tukiaseman tarkkuudella. Vaikka esitetty ratkaisu tähtääkin paikkaan perustuvien mainosten tarjoamiseen, se on helposti muunnettavissa minkä tahansa tyyppisen tiedon välittämiseen käyttäjille.
Resumo:
Rakennusteollisuus on tunnettu useita muita aloja hitaammasta uuden teknologian käyttöönotosta. Yleisesti käytössä on hyvin perinteinen paperia ja kynää hyödyntävä tiedontallennuskäytäntö. Paperin käytössä tiedon tallennusvälineenä on useita ongelmia kuten säilytettävyys ja hallittavuus, joista päästään eroon siirtymällä sähköiseen tiedon tallennukseen. Laadun varmistamiseksi voidaan käyttää tarkastuslistoja, jotka toimivat tarkastuksien suorittajan muistin tukena. Muutettaessa tarkastuslista sähköiseen muotoon, voidaan välttyä paperisen tarkastuslistan ongelmilta, kuten käsialan tunnistamiselta ja merkintätapojen vaihtelevuudelta. Tässä diplomityössä käsitellään rakennusteollisuuden laadunhallinnan nykytilaa sekä sähköisen tarkastuslistan käyttöä rakennusteollisuuden laadunvalvonnassa. Lisäksi esitellään prototyyppi sähköisestä tarkastuslistasta osana laadunvalvontaa. Sähköinen tarkastuslista toteutetaan dynaamisesti niin, että tarkastuslistojen pohjalta on mahdollista luoda käyttöliittymä kyseessä olevan listan mukaisesti päätelaitteelle. Sähköisen tarkastuslistan prototyyppi on toteutettu WWW-sovelluspalveluna (World Wide Web), joka mahdollistaa useiden erilaisten päätelaitteiden hyödyntämisen.
Resumo:
Tyyliohjeet kehitettiin erottamaan dokumentin rakenteen ja esitystavan kuvaus toisistaan. CSS, Cascading Style Sheets, on erityisesti www-sivuja varten kehitetty merkintäjärjestelmä tyyliohjeita varten. 20 vuotta jatkunut tiivis kehitys on nostanut esiin useita ongelmia, eikä edes nykyinen suositus vastaa täysin sitä, mitä selaimet käytännössä tukevat. CSS3 on World Wide Web Consortiumin tuorein versio CSS-määritelmästä, joka on edelleen työn alla. Tässä tutkielmassa tarkastellaan CSS:n keinoja tekstin muotoilussa. Lisäksi tutkitaan selainten eroavaisuuksia ja ominaisuuksien selaintukea. Aluksi selvitetään CSS:n historia, tarkoitus ja mahdollisuudet. Tämän jälkeen käsitellään kielen perusteet ja miten sitä voidaan käyttää tekstin esityksen yhteydessä www-sivuilla. Tutkielmassa on valittu tarkemman tutkimuksen kohteeksi CSS3 ja sen tarjoamat uudet mahdollisuudet tekstin muotoilussa. Yleiskuvan jälkeen vertaillaan suurimpien selainten tukea uusille ominaisuuksille käytännössä. Lopuksi pohditaan mihin suuntaan kehitys on menossa. Tekstin muotoilussa CSS on varsin monipuolinen, ja CSS3 lisää typografisia käsitteitä ja välineitä huomattavasti. Eri selaimet ja selainten eri versiot tukevat CSS:n ominaisuuksia ja rakenteita kuitenkin hyvin vaihtelevasti. Tilanne elää jatkuvasti.
Resumo:
Search engine optimization & marketing is a set of processes widely used on websites to improve search engine rankings which generate quality web traffic and increase ROI. Content is the most important part of any website. CMS web development is now become very essential for most of organizations and online businesses to develop their online system and websites. Every online business using a CMS wants to get users (customers) to make profit and ROI. This thesis comprises a brief study of existing SEO methods, tools and techniques and how they can be implemented to optimize a content base website. In results, the study provides recommendations about how to use SEO methods; tools and techniques to optimize CMS based websites on major search engines. This study compares popular CMS systems like Drupal, WordPress and Joomla SEO features and how implementing SEO can be improved on these CMS systems. Having knowledge of search engine indexing and search engine working is essential for a successful SEO campaign. This work is a complete guideline for web developers or SEO experts who want to optimize a CMS based website on all major search engines.
Resumo:
This study is dedicated to search engine marketing (SEM). It aims for developing a business model of SEM firms and to provide explicit research of trustworthy practices of virtual marketing companies. Optimization is a general term that represents a variety of techniques and methods of the web pages promotion. The research addresses optimization as a business activity, and it explains its role for the online marketing. Additionally, it highlights issues of unethical techniques utilization by marketers which created relatively negative attitude to them on the Internet environment. Literature insight combines in the one place both technical and economical scientific findings in order to highlight technological and business attributes incorporated in SEM activities. Empirical data regarding search marketers was collected via e-mail questionnaires. 4 representatives of SEM companies were engaged in this study to accomplish the business model design. Additionally, the fifth respondent was a representative of the search engine portal, who provided insight on relations between search engines and marketers. Obtained information of the respondents was processed qualitatively. Movement of commercial organizations to the online market increases demand on promotional programs. SEM is the largest part of online marketing, and it is a prerogative of search engines portals. However, skilled users, or marketers, are able to implement long-term marketing programs by utilizing web page optimization techniques, key word consultancy or content optimization to increase web site visibility to search engines and, therefore, user’s attention to the customer pages. SEM firms are related to small knowledge-intensive businesses. On the basis of data analysis the business model was constructed. The SEM model includes generalized constructs, although they represent a wider amount of operational aspects. Constructing blocks of the model includes fundamental parts of SEM commercial activity: value creation, customer, infrastructure and financial segments. Also, approaches were provided on company’s differentiation and competitive advantages evaluation. It is assumed that search marketers should apply further attempts to differentiate own business out of the large number of similar service providing companies. Findings indicate that SEM companies are interested in the increasing their trustworthiness and the reputation building. Future of the search marketing is directly depending on search engines development.
Resumo:
Yhä useampi etsii nykyään tietoa tuotteista ja palveluista internetin kautta. Vastapainoisesti lähes jokainen yritys käyttää internetsivujaan markkinointikanavana. Mietittäessä markkinoinnin peruskysymyksiä kuten kohdesegmentin saavuttamista tai kampanjan tuottoastetta ei vastausta usein osaa internetsivujen osalta antaa niin markkinointiosasto kuin IT-osastokaan. Hakukoneoptimointi on yksi hakukonemarkkinoinnin muoto, jonka avulla internetsivujen saavutettavuutta voidaan parantaa. Kehityksen toteamiseksi on oltava mittareita, joina internetsivuilla voidaan käyttää internetsivuille tarkoitettuja kävijäseurantaohjelmistoja. Tässä työssä käsitellään hakukoneoptimointia ja sen mahdollisuuksia parantaa sivustojen näkyvyyttä internetin hakukoneissa. Hakukoneoptimoinnilla tarkoitetaan sivustojen teknisen toteutuksen muokkaamista hakukoneystävälliseksi ja sisällön muokkaamista niin, että sivustotsijoittuvat halutuin hakusanoin hakutulosten kärkipäähän. Onnistumisen mittaamiseksi työssä perehdytään kävijäseurannan mahdollisuuksiin ja toteutukseen. Työn tavoitteena oli tuoda Primesoft Oy:lle riittävä tietotaito hakukoneoptimoinnista, toteuttaa hakukoneoptimointipalvelu ja muokata yrityksen ohjelmistot hakukoneoptimointia tukeviksi. Työn tavoitteet saavutettiin pääosin ja tutustuminen hakukoneoptimointiin avasi portin koko internetmarkkinoinnin maailmaan. Palvelun toimivuutta testattiin Primesoftin omilla sivuilla ja tulokset osoittautuivat varsin rohkaiseviksi. Jatkossa hakukoneoptimointia voidaan tarjota palveluna asiakkaille.
Resumo:
Machine learning provides tools for automated construction of predictive models in data intensive areas of engineering and science. The family of regularized kernel methods have in the recent years become one of the mainstream approaches to machine learning, due to a number of advantages the methods share. The approach provides theoretically well-founded solutions to the problems of under- and overfitting, allows learning from structured data, and has been empirically demonstrated to yield high predictive performance on a wide range of application domains. Historically, the problems of classification and regression have gained the majority of attention in the field. In this thesis we focus on another type of learning problem, that of learning to rank. In learning to rank, the aim is from a set of past observations to learn a ranking function that can order new objects according to how well they match some underlying criterion of goodness. As an important special case of the setting, we can recover the bipartite ranking problem, corresponding to maximizing the area under the ROC curve (AUC) in binary classification. Ranking applications appear in a large variety of settings, examples encountered in this thesis include document retrieval in web search, recommender systems, information extraction and automated parsing of natural language. We consider the pairwise approach to learning to rank, where ranking models are learned by minimizing the expected probability of ranking any two randomly drawn test examples incorrectly. The development of computationally efficient kernel methods, based on this approach, has in the past proven to be challenging. Moreover, it is not clear what techniques for estimating the predictive performance of learned models are the most reliable in the ranking setting, and how the techniques can be implemented efficiently. The contributions of this thesis are as follows. First, we develop RankRLS, a computationally efficient kernel method for learning to rank, that is based on minimizing a regularized pairwise least-squares loss. In addition to training methods, we introduce a variety of algorithms for tasks such as model selection, multi-output learning, and cross-validation, based on computational shortcuts from matrix algebra. Second, we improve the fastest known training method for the linear version of the RankSVM algorithm, which is one of the most well established methods for learning to rank. Third, we study the combination of the empirical kernel map and reduced set approximation, which allows the large-scale training of kernel machines using linear solvers, and propose computationally efficient solutions to cross-validation when using the approach. Next, we explore the problem of reliable cross-validation when using AUC as a performance criterion, through an extensive simulation study. We demonstrate that the proposed leave-pair-out cross-validation approach leads to more reliable performance estimation than commonly used alternative approaches. Finally, we present a case study on applying machine learning to information extraction from biomedical literature, which combines several of the approaches considered in the thesis. The thesis is divided into two parts. Part I provides the background for the research work and summarizes the most central results, Part II consists of the five original research articles that are the main contribution of this thesis.
Resumo:
Presentation at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014