915 resultados para Big Data Hadoop Spark GPSJ
Resumo:
Technologies for Big Data and Data Science are receiving increasing research interest nowadays. This paper introduces the prototyping architecture of a tool aimed to solve Big Data Optimization problems. Our tool combines the jMetal framework for multi-objective optimization with Apache Spark, a technology that is gaining momentum. In particular, we make use of the streaming facilities of Spark to feed an optimization problem with data from different sources. We demonstrate the use of our tool by solving a dynamic bi-objective instance of the Traveling Salesman Problem (TSP) based on near real-time traffic data from New York City, which is updated several times per minute. Our experiment shows that both jMetal and Spark can be integrated providing a software platform to deal with dynamic multi-optimization problems.
Resumo:
Dissertação para obtenção do Grau de Mestre em Engenharia Informática
Resumo:
Dissertação para obtenção do Grau de Mestre em Engenharia Informática
Resumo:
Desde 2009 que a Porto Editora elege em “infopédia.pt” a palavra que melhor representa os anos que terminam. Este trabalho apresenta uma forma alternativa a essa eleição, substituindo a votação dos cidadãos pela recolha de dados da rede social Twitter ao longo do ano, e procedendo à análise dos mesmos em substituição da votação. Assim sendo, foram recolhidos dados associados às dez palavras finalistas incluídas no conjunto da palavra do ano 2014, os quais foram armazenados em ambiente Hadoop para seguidamente e recorrendo a dois lexicons ser possível a classificação dos tweets. Os lexicons utilizados incluem, por um lado, a lista de palavras positivas e negativas e, por outro, as polaridades associadas às palavras em conjugação com o top vinte e cinco de emoticons utilizados no Twitter. Os resultados obtidos permitem identificar a palavra mais referida e o sentimento, positivo ou negativo associado à mesma.
Resumo:
We are living in the era of Big Data. A time which is characterized by the continuous creation of vast amounts of data, originated from different sources, and with different formats. First, with the rise of the social networks and, more recently, with the advent of the Internet of Things (IoT), in which everyone and (eventually) everything is linked to the Internet, data with enormous potential for organizations is being continuously generated. In order to be more competitive, organizations want to access and explore all the richness that is present in those data. Indeed, Big Data is only as valuable as the insights organizations gather from it to make better decisions, which is the main goal of Business Intelligence. In this paper we describe an experiment in which data obtained from a NoSQL data source (database technology explicitly developed to deal with the specificities of Big Data) is used to feed a Business Intelligence solution.
Resumo:
This work is dedicated to comparison of open source as well as proprietary transport protocols for highspeed data transmission via IP networks. The contemporary common TCP needs significant improvement since it was developed as general-purpose transport protocol and firstly introduced four decades ago. In nowadays networks, TCP fits not all communication needs that society has. Caused of it another transport protocols have been developed and successfully used for e.g. Big Data movement. In scope of this research the following protocols have been investigated for its efficiency on 10Gbps links: UDT, RBUDP, MTP and RWTP. The protocols were tested under different impairments such as Round Trip Time up to 400 ms and packet losses up to 2%. Investigated parameters are the data rate under different conditions of the network, the CPU load by sender andreceiver during the experiments, size of feedback data, CPU usage per Gbps and the amount of feedback data per GiByte of effectively transmitted data. The best performance and fair resources consumption was observed by RWTP. From the opensource projects, the best behavior is showed by RBUDP.
Resumo:
L’èxit del Projecte Genoma Humà (PGH) l’any 2000 va fer de la “medicina personalitzada” una realitat més propera. Els descobriments del PGH han simplificat les tècniques de seqüenciació de tal manera que actualment qualsevol persona pot aconseguir la seva seqüència d’ADN complerta. La tecnologia de Read Mapping destaca en aquest tipus de tècniques i es caracteritza per manegar una gran quantitat de dades. Hadoop, el framework d’Apache per aplicacions intensives de dades sota el paradigma Map Reduce, resulta un aliat perfecte per aquest tipus de tecnologia i ha sigut l’opció escollida per a realitzar aquest projecte. Durant tot el treball es realitza l’estudi, l’anàlisi i les experimentacions necessàries per aconseguir un Algorisme Genètic innovador que utilitzi tot el potencial de Hadoop.
Resumo:
The European Space Agency's Gaia mission will create the largest and most precise three dimensional chart of our galaxy (the Milky Way), by providing unprecedented position, parallax, proper motion, and radial velocity measurements for about one billion stars. The resulting catalogue will be made available to the scientific community and will be analyzed in many different ways, including the production of a variety of statistics. The latter will often entail the generation of multidimensional histograms and hypercubes as part of the precomputed statistics for each data release, or for scientific analysis involving either the final data products or the raw data coming from the satellite instruments. In this paper we present and analyze a generic framework that allows the hypercube generation to be easily done within a MapReduce infrastructure, providing all the advantages of the new Big Data analysis paradigmbut without dealing with any specific interface to the lower level distributed system implementation (Hadoop). Furthermore, we show how executing the framework for different data storage model configurations (i.e. row or column oriented) and compression techniques can considerably improve the response time of this type of workload for the currently available simulated data of the mission. In addition, we put forward the advantages and shortcomings of the deployment of the framework on a public cloud provider, benchmark against other popular solutions available (that are not always the best for such ad-hoc applications), and describe some user experiences with the framework, which was employed for a number of dedicated astronomical data analysis techniques workshops.
Resumo:
The European Space Agency's Gaia mission will create the largest and most precise three dimensional chart of our galaxy (the Milky Way), by providing unprecedented position, parallax, proper motion, and radial velocity measurements for about one billion stars. The resulting catalogue will be made available to the scientific community and will be analyzed in many different ways, including the production of a variety of statistics. The latter will often entail the generation of multidimensional histograms and hypercubes as part of the precomputed statistics for each data release, or for scientific analysis involving either the final data products or the raw data coming from the satellite instruments. In this paper we present and analyze a generic framework that allows the hypercube generation to be easily done within a MapReduce infrastructure, providing all the advantages of the new Big Data analysis paradigmbut without dealing with any specific interface to the lower level distributed system implementation (Hadoop). Furthermore, we show how executing the framework for different data storage model configurations (i.e. row or column oriented) and compression techniques can considerably improve the response time of this type of workload for the currently available simulated data of the mission. In addition, we put forward the advantages and shortcomings of the deployment of the framework on a public cloud provider, benchmark against other popular solutions available (that are not always the best for such ad-hoc applications), and describe some user experiences with the framework, which was employed for a number of dedicated astronomical data analysis techniques workshops.
Resumo:
Presentation at Open Repositories 2014, Helsinki, Finland, June 9-13, 2014
Resumo:
This master’s thesis has examined how Entrepreneurial, Customer and Knowledge Management Orientations are needed in the use of Big data technology by small retail firms in their Customer Knowledge Management. A vision of the ability of small retailers to move to the Big data era is based on empirical evidence of owner-managers’ attitudes and the firms’ processes. Abductive content analysis was used as a research strategy and the qualitative data was collected through theme interviews of owner-managers of 11 small-size retail firms. The biggest obstacles to the use of Big data by small retail firms are: a lack of information about the new technology; a lack of Knowledge Management Orientation; and, a lack of proactive dimension in Entrepreneurial and Customer Orientations. A strong reactive customer-led orientation, and the ability of the owner-manager to system thinking will support Customer Knowledge Management development. The low stage of technology-use is preventing utilization of customer information. Co-operation between firms or with educational organizations may significantly enhance the use of Big data –technology by small retail firms.
Resumo:
Big datalle on povattu satojen miljardien dollarien hyödyntämispotentiaalia. Big data kuvaa lukuista eri lähteistä peräisin olevia valtavia ja nopeasti kasvavia datamassoja. Kandidaatintyön tavoitteena on tutkia, kuinka big dataa voidaan hyödyntää toimitusketjun hallinnassa sekä toimitusketjun eri osa-alueilla. Työ on tehty kirjallisuuskatsauksena pohjautuen big datan ja toimitusketjun hallinnan kirjallisuuteen sekä erityisesti näitä yhdistäviin tieteellisiin artikkeleihin. Big dataa hyödyntämällä toimitusketjua saadaan tehostettua, tuottoja maksimoitua sekä kysyntää ja tarjontaa yhteensovitettua paremmin. Big dataa hyödyntämällä myös riskien hallinta, päätöksenteko, muutosvalmius ja sidosryhmäsuhteet paranevat. Big datan avulla asiakkaasta saadaan luotua kokonaisnäkymä, jonka avulla markkinointia, segmentointia, hinnoittelua ja tuotteen sijoittelua voidaan optimoida. Big datan avulla myös hankintaa, tuotantoa ja kunnossapitoa pystytään parantamaan sekä kuljetuksia ja varastoja seuraamaan tehokkaammin. Big datan hyödyntäminen on haastavaa ja siihen liittyy teknologisia, organisatorisia ja prosesseihin liittyviä haasteita. Yhtenä ratkaisuna on big data - analytiikan käyttöönoton ja käytön ulkoistaminen, mutta se sisältää omat riskinsä.
Resumo:
Tämän kandidaatintutkielman tarkoituksena oli selvittää minkälaisia liiketoiminnallisia mahdollisuuksia ja haasteita Big Dataan ja sen ominaispiirteisiin liittyy, ja miten Big Data määritellään nykyaikaisesti ja ajankohtaisesti. Tutkimusongelmaa lähestyttiin narratiivisen kirjallisuuskatsauksen keinoin. Toisin sanoen tutkielma on hajanaisen tiedon avulla koostettu yhtenäinen katsaus nykytilanteeseen. Lähdeaineisto koostuu pääosin tieteellisistä artikkeleista, mutta käytössä oli myös oppikirjamateriaalia, konferenssijulkaisuja ja uutisartikkeleja. Tutkimuksessa käytetyt akateemisen kirjallisuuden lähteet sisälsivät keskenään paljon samankaltaisia näkemyksiä tutkimusaihetta kohtaan. Niiden perusteella muodostettiin kaksi taulukkoa havaituista mahdollisuuksista ja haasteista, ja taulukoiden rivit nimettiin niitä kuvaavien ominaispiirteiden mukaan. Tutkimuksessa liiketoiminnalliset mahdollisuudet ja haasteet jaettiin viiteen pääkategoriaan ja neljään alakategoriaan. Tutkimus toteutettiin liiketoiminnan näkökulmasta, joten siinä sivuutettiin monenlaisia Big Datan teknisiä aspekteja. Tutkielman luonne on poikkitieteellinen, ja sen avulla pyritään havainnoimaan tämän hetken yhtä uusinta tietojenkäsittelykäsittelytieteiden termiä liiketoiminnallisessa kontekstissa. Tutkielmassa Big Dataan liittyvillä ominaispiirteillä todettiin olevan mahdollisuuksia, jotka voitiin jaotella korrelaatioiden havaitsemisen perusteella markkinoiden tarkemman segmentoinnin mahdollisuuksiin ja päätöksenteon tukena toimimiseen. Reaaliaikaisen seurannan mahdollisuudet perustuvat Big Datan nopeuteen ja kokoon, eli sen jatkuvaan kasvuun. Ominaispiirteisiin liittyvät haasteet voidaan jakaa viiteen kategoriaan, joista osa liittyy toimintaympäristöön ja osa organisaation sisäiseen toimintaan.
Resumo:
Kestävää kehitystä on tutkittu jo vuosikymmeniä, kun taas kaikkia big datan mahdollisuuksia ei tunneta. Kestävää kehitystä ja big dataa ei ole vielä tutkittu yhdessä laajemmin, mutta voidaan jo todeta, että näiden kahden tekijän välillä on yhteyksiä. Työ käsittelee big datan hyödyntämistä ja sen tarjoamien mahdollisuuksien vaikutuksia kestävässä liiketoiminnassa. Työn alussa määritellään big data ja kestävän kehityksen osa-alueet, joiden pohjalta tutkimusosuudessa syvennytään tarkastelemaan big datan hyötyjä ja sen soveltamisen keinoja kestävän liiketoiminnan tukena. Työn tavoitteena on selvittää, kuinka big dataa voi hyödyntää yrityksen kestävän liiketoiminnan eri osa-alueilla. Työssä kestävä liiketoiminta on jaettu liiketoiminnan johtamiseen ja käytännön operatiiviseen toimintaan. Liiketoiminnan johtaminen sisältää yrityksen strategian sekä innovaatiotoiminnan. Kestävän liiketoiminnan operatiivisissa toiminnoissa keskitytään valmistukseen, tuotteen elinkaaren hallintaan, toimitusketjun hallintaan sekä tiedonhallintaan. Työ tarjoaa keinoja ja ratkaisuja, joilla yritys voi kehittää kestävää liiketoimintaansa. Tutkimusosuuden pohjalta voidaan todeta, että big datasta ja sen harkitusta hyödyntämisestä on hyötyä kestävässä liiketoiminnassa.
Resumo:
This is a research discussion about the Hampshire Hub - see http://protohub.net/. The aim is to find out more about the project, and discuss future collaboration and sharing of ideas. Mark Braggins (Hampshire Hub Partnership) will introduce the Hampshire Hub programme, setting out its main objectives, work done to-date, next steps including the Hampshire data store (which will use the PublishMyData linked data platform), and opportunities for University of Southampton to engage with the programme , including the forthcoming Hampshire Hackathons Bill Roberts (Swirrl) will give an overview of the PublishMyData platform, and how it will help deliver the objectives of the Hampshire Hub. He will detail some of the new functionality being added to the platform Steve Peters (DCLG Open Data Communities) will focus on developing a web of data that blends and combines local and national data sources around localities, and common topics/themes. This will include observations on the potential employing emerging new, big data sources to help deliver more effective, better targeted public services. Steve will illustrate this with practical examples of DCLG’s work to publish its own data in a SPARQL end-point, so that it can be used over the web alongside related 3rd party sources. He will share examples of some of the practical challenges, particularly around querying and re-using geographic LinkedData in a federated world of SPARQL end-point.