988 resultados para distributed databases
Resumo:
Recent scientific advances and new technological developments, most notably the advent of bio-informatics, have led to the emergence of genetic databases with particular characteristics and structures. Paralleling these developments, there has been a proliferation of ethical and legal texts aimed at the regulation of this new form of genetic database.
Resumo:
Le biais de confusion est un défi majeur des études observationnelles, surtout s'ils sont induits par des caractéristiques difficiles, voire impossibles, à mesurer dans les banques de données administratives de soins de santé. Un des biais de confusion souvent présents dans les études pharmacoépidémiologiques est la prescription sélective (en anglais « prescription channeling »), qui se manifeste lorsque le choix du traitement dépend de l'état de santé du patient et/ou de son expérience antérieure avec diverses options thérapeutiques. Parmi les méthodes de contrôle de ce biais, on retrouve le score de comorbidité, qui caractérise l'état de santé d'un patient à partir de médicaments délivrés ou de diagnostics médicaux rapportés dans les données de facturations des médecins. La performance des scores de comorbidité fait cependant l'objet de controverses car elle semble varier de façon importante selon la population d'intérêt. Les objectifs de cette thèse étaient de développer, valider, et comparer les performances de deux scores de comorbidité (un qui prédit le décès et l’autre qui prédit l’institutionnalisation), développés à partir des banques de services pharmaceutiques de la Régie de l'assurance-maladie du Québec (RAMQ) pour leur utilisation dans la population âgée. Cette thèse vise également à déterminer si l'inclusion de caractéristiques non rapportées ou peu valides dans les banques de données administratives (caractéristiques socio-démographiques, troubles mentaux ou du sommeil), améliore la performance des scores de comorbidité dans la population âgée. Une étude cas-témoins intra-cohorte fut réalisée. La cohorte source consistait en un échantillon aléatoire de 87 389 personnes âgées vivant à domicile, répartie en une cohorte de développement (n=61 172; 70%) et une cohorte de validation (n=26 217; 30%). Les données ont été obtenues à partir des banques de données de la RAMQ. Pour être inclus dans l’étude, les sujets devaient être âgés de 66 ans et plus, et être membres du régime public d'assurance-médicaments du Québec entre le 1er janvier 2000 et le 31 décembre 2009. Les scores ont été développés à partir de la méthode du Framingham Heart Study, et leur performance évaluée par la c-statistique et l’aire sous les courbes « Receiver Operating Curves ». Pour le dernier objectif qui est de documenter l’impact de l’ajout de variables non-mesurées ou peu valides dans les banques de données au score de comorbidité développé, une étude de cohorte prospective (2005-2008) a été réalisée. La population à l'étude, de même que les données, sont issues de l'Étude sur la Santé des Aînés (n=1 494). Les variables d'intérêt incluaient statut marital, soutien social, présence de troubles de santé mentale ainsi que troubles du sommeil. Tel que décrit dans l'article 1, le Geriatric Comorbidity Score (GCS) basé sur le décès, a été développé et a présenté une bonne performance (c-statistique=0.75; IC95% 0.73-0.78). Cette performance s'est avérée supérieure à celle du Chronic Disease Score (CDS) lorsqu'appliqué dans la population à l'étude (c-statistique du CDS : 0.47; IC 95%: 0.45-0.49). Une revue de littérature exhaustive a montré que les facteurs associés au décès étaient très différents de ceux associés à l’institutionnalisation, justifiant ainsi le développement d'un score spécifique pour prédire le risque d'institutionnalisation. La performance de ce dernier s'est avérée non statistiquement différente de celle du score de décès (c-statistique institutionnalisation : 0.79 IC95% 0.77-0.81). L'inclusion de variables non rapportées dans les banques de données administratives n'a amélioré que de 11% la performance du score de décès; le statut marital et le soutien social ayant le plus contribué à l'amélioration observée. En conclusion, de cette thèse, sont issues trois contributions majeures. D'une part, il a été démontré que la performance des scores de comorbidité basés sur le décès dépend de la population cible, d'où l'intérêt du Geriatric Comorbidity Score, qui fut développé pour la population âgée vivant à domicile. D'autre part, les médicaments associés au risque d'institutionnalisation diffèrent de ceux associés au risque de décès dans la population âgé, justifiant ainsi le développement de deux scores distincts. Cependant, les performances des deux scores sont semblables. Enfin, les résultats indiquent que, dans la population âgée, l'absence de certaines caractéristiques ne compromet pas de façon importante la performance des scores de comorbidité déterminés à partir de banques de données d'ordonnances. Par conséquent, les scores de comorbidité demeurent un outil de recherche important pour les études observationnelles.
Resumo:
L'objectif de cette thèse est de présenter différentes applications du programme de recherche de calcul conditionnel distribué. On espère que ces applications, ainsi que la théorie présentée ici, mènera à une solution générale du problème d'intelligence artificielle, en particulier en ce qui a trait à la nécessité d'efficience. La vision du calcul conditionnel distribué consiste à accélérer l'évaluation et l'entraînement de modèles profonds, ce qui est très différent de l'objectif usuel d'améliorer sa capacité de généralisation et d'optimisation. Le travail présenté ici a des liens étroits avec les modèles de type mélange d'experts. Dans le chapitre 2, nous présentons un nouvel algorithme d'apprentissage profond qui utilise une forme simple d'apprentissage par renforcement sur un modèle d'arbre de décisions à base de réseau de neurones. Nous démontrons la nécessité d'une contrainte d'équilibre pour maintenir la distribution d'exemples aux experts uniforme et empêcher les monopoles. Pour rendre le calcul efficient, l'entrainement et l'évaluation sont contraints à être éparse en utilisant un routeur échantillonnant des experts d'une distribution multinomiale étant donné un exemple. Dans le chapitre 3, nous présentons un nouveau modèle profond constitué d'une représentation éparse divisée en segments d'experts. Un modèle de langue à base de réseau de neurones est construit à partir des transformations éparses entre ces segments. L'opération éparse par bloc est implémentée pour utilisation sur des cartes graphiques. Sa vitesse est comparée à deux opérations denses du même calibre pour démontrer le gain réel de calcul qui peut être obtenu. Un modèle profond utilisant des opérations éparses contrôlées par un routeur distinct des experts est entraîné sur un ensemble de données d'un milliard de mots. Un nouvel algorithme de partitionnement de données est appliqué sur un ensemble de mots pour hiérarchiser la couche de sortie d'un modèle de langage, la rendant ainsi beaucoup plus efficiente. Le travail présenté dans cette thèse est au centre de la vision de calcul conditionnel distribué émis par Yoshua Bengio. Elle tente d'appliquer la recherche dans le domaine des mélanges d'experts aux modèles profonds pour améliorer leur vitesse ainsi que leur capacité d'optimisation. Nous croyons que la théorie et les expériences de cette thèse sont une étape importante sur la voie du calcul conditionnel distribué car elle cadre bien le problème, surtout en ce qui concerne la compétitivité des systèmes d'experts.
On Implementing Joins, Aggregates and Universal Quantifier in Temporal Databases using SQL Standards
Resumo:
A feasible way of implementing a temporal database is by mapping temporal data model onto a conventional data model followed by a commercial database management system. Even though extensions were proposed to standard SQL for supporting temporal databases, such proposals have not yet come across standardization processes. This paper attempts to implement database operators such as aggregates and universal quantifier for temporal databases, implemented on top of relational database systems, using currently available SQL standards.
Resumo:
This thesis attempts to investigate the problems associated with such schemes and suggests a software architecture, which is aimed towards achieving a meaningful discovery. Usage of information elements as a modelling base for efficient information discovery in distributed systems is demonstrated with the aid of a novel conceptual entity called infotron. The investigations are focused on distributed systems and their associated problems. The study was directed towards identifying suitable software architecture and incorporating the same in an environment where information growth is phenomenal and a proper mechanism for carrying out information discovery becomes feasible. An empirical study undertaken with the aid of an election database of constituencies distributed geographically, provided the insights required. This is manifested in the Election Counting and Reporting Software (ECRS) System. ECRS system is a software system, which is essentially distributed in nature designed to prepare reports to district administrators about the election counting process and to generate other miscellaneous statutory reports.
Resumo:
In Wireless Sensor Networks (WSN), neglecting the effects of varying channel quality can lead to an unnecessary wastage of precious battery resources and in turn can result in the rapid depletion of sensor energy and the partitioning of the network. Fairness is a critical issue when accessing a shared wireless channel and fair scheduling must be employed to provide the proper flow of information in a WSN. In this paper, we develop a channel adaptive MAC protocol with a traffic-aware dynamic power management algorithm for efficient packet scheduling and queuing in a sensor network, with time varying characteristics of the wireless channel also taken into consideration. The proposed protocol calculates a combined weight value based on the channel state and link quality. Then transmission is allowed only for those nodes with weights greater than a minimum quality threshold and nodes attempting to access the wireless medium with a low weight will be allowed to transmit only when their weight becomes high. This results in many poor quality nodes being deprived of transmission for a considerable amount of time. To avoid the buffer overflow and to achieve fairness for the poor quality nodes, we design a Load prediction algorithm. We also design a traffic aware dynamic power management scheme to minimize the energy consumption by continuously turning off the radio interface of all the unnecessary nodes that are not included in the routing path. By Simulation results, we show that our proposed protocol achieves a higher throughput and fairness besides reducing the delay
Resumo:
Diagnosis of Hridroga (cardiac disorders) in Ayurveda requires the combination of many different types of data, including personal details, patient symptoms, patient histories, general examination results, Ashtavidha pareeksha results etc. Computer-assisted decision support systems must be able to combine these data types into a seamless system. Intelligent agents, an approach that has been used chiefly in business applications, is used in medical diagnosis in this case. This paper is about a multi-agent system named “Distributed Ayurvedic Diagnosis and Therapy System for Hridroga using Agents” (DADTSHUA). It describes the architecture of the DADTSHUA model .This system is using mobile agents and ontology for passing data through the network. Due to this, transport delay can be minimized. It is a system which will be very helpful for the beginning physicians to eliminate his ambiguity in diagnosis and therapy. The system is implemented using Java Agent DEvelopment framework (JADE), which is a java-complaint mobile agent platform from TILab.
Resumo:
In this paper, we have evolved a generic software architecture for a domain specific distributed embedded system. The system under consideration belongs to the Command, Control and Communication systems domain. The systems in such domain have very long operational lifetime. The quality attributes of these systems are equally important as the functional requirements. The main guiding principle followed in this paper for evolving the software architecture has been functional independence of the modules. The quality attributes considered most important for the system are maintainability and modifiability. Architectural styles best suited for the functionally independent modules are proposed with focus on these quality attributes. The software architecture for the system is envisioned as a collection of architecture styles of the functionally independent modules identified
Resumo:
Study on variable stars is an important topic of modern astrophysics. After the invention of powerful telescopes and high resolving powered CCD’s, the variable star data is accumulating in the order of peta-bytes. The huge amount of data need lot of automated methods as well as human experts. This thesis is devoted to the data analysis on variable star’s astronomical time series data and hence belong to the inter-disciplinary topic, Astrostatistics. For an observer on earth, stars that have a change in apparent brightness over time are called variable stars. The variation in brightness may be regular (periodic), quasi periodic (semi-periodic) or irregular manner (aperiodic) and are caused by various reasons. In some cases, the variation is due to some internal thermo-nuclear processes, which are generally known as intrinsic vari- ables and in some other cases, it is due to some external processes, like eclipse or rotation, which are known as extrinsic variables. Intrinsic variables can be further grouped into pulsating variables, eruptive variables and flare stars. Extrinsic variables are grouped into eclipsing binary stars and chromospheri- cal stars. Pulsating variables can again classified into Cepheid, RR Lyrae, RV Tauri, Delta Scuti, Mira etc. The eruptive or cataclysmic variables are novae, supernovae, etc., which rarely occurs and are not periodic phenomena. Most of the other variations are periodic in nature. Variable stars can be observed through many ways such as photometry, spectrophotometry and spectroscopy. The sequence of photometric observa- xiv tions on variable stars produces time series data, which contains time, magni- tude and error. The plot between variable star’s apparent magnitude and time are known as light curve. If the time series data is folded on a period, the plot between apparent magnitude and phase is known as phased light curve. The unique shape of phased light curve is a characteristic of each type of variable star. One way to identify the type of variable star and to classify them is by visually looking at the phased light curve by an expert. For last several years, automated algorithms are used to classify a group of variable stars, with the help of computers. Research on variable stars can be divided into different stages like observa- tion, data reduction, data analysis, modeling and classification. The modeling on variable stars helps to determine the short-term and long-term behaviour and to construct theoretical models (for eg:- Wilson-Devinney model for eclips- ing binaries) and to derive stellar properties like mass, radius, luminosity, tem- perature, internal and external structure, chemical composition and evolution. The classification requires the determination of the basic parameters like pe- riod, amplitude and phase and also some other derived parameters. Out of these, period is the most important parameter since the wrong periods can lead to sparse light curves and misleading information. Time series analysis is a method of applying mathematical and statistical tests to data, to quantify the variation, understand the nature of time-varying phenomena, to gain physical understanding of the system and to predict future behavior of the system. Astronomical time series usually suffer from unevenly spaced time instants, varying error conditions and possibility of big gaps. This is due to daily varying daylight and the weather conditions for ground based observations and observations from space may suffer from the impact of cosmic ray particles. Many large scale astronomical surveys such as MACHO, OGLE, EROS, xv ROTSE, PLANET, Hipparcos, MISAO, NSVS, ASAS, Pan-STARRS, Ke- pler,ESA, Gaia, LSST, CRTS provide variable star’s time series data, even though their primary intention is not variable star observation. Center for Astrostatistics, Pennsylvania State University is established to help the astro- nomical community with the aid of statistical tools for harvesting and analysing archival data. Most of these surveys releases the data to the public for further analysis. There exist many period search algorithms through astronomical time se- ries analysis, which can be classified into parametric (assume some underlying distribution for data) and non-parametric (do not assume any statistical model like Gaussian etc.,) methods. Many of the parametric methods are based on variations of discrete Fourier transforms like Generalised Lomb-Scargle peri- odogram (GLSP) by Zechmeister(2009), Significant Spectrum (SigSpec) by Reegen(2007) etc. Non-parametric methods include Phase Dispersion Minimi- sation (PDM) by Stellingwerf(1978) and Cubic spline method by Akerlof(1994) etc. Even though most of the methods can be brought under automation, any of the method stated above could not fully recover the true periods. The wrong detection of period can be due to several reasons such as power leakage to other frequencies which is due to finite total interval, finite sampling interval and finite amount of data. Another problem is aliasing, which is due to the influence of regular sampling. Also spurious periods appear due to long gaps and power flow to harmonic frequencies is an inherent problem of Fourier methods. Hence obtaining the exact period of variable star from it’s time series data is still a difficult problem, in case of huge databases, when subjected to automation. As Matthew Templeton, AAVSO, states “Variable star data analysis is not always straightforward; large-scale, automated analysis design is non-trivial”. Derekas et al. 2007, Deb et.al. 2010 states “The processing of xvi huge amount of data in these databases is quite challenging, even when looking at seemingly small issues such as period determination and classification”. It will be beneficial for the variable star astronomical community, if basic parameters, such as period, amplitude and phase are obtained more accurately, when huge time series databases are subjected to automation. In the present thesis work, the theories of four popular period search methods are studied, the strength and weakness of these methods are evaluated by applying it on two survey databases and finally a modified form of cubic spline method is intro- duced to confirm the exact period of variable star. For the classification of new variable stars discovered and entering them in the “General Catalogue of Vari- able Stars” or other databases like “Variable Star Index“, the characteristics of the variability has to be quantified in term of variable star parameters.
Resumo:
Das Grünbuch 2006 der Europäischen Kommission "Eine Europäische Strategie für nachhaltige, wettbewerbsfähige und sichere Energie" unterstreicht, dass Europa in ein neues Energie-Zeitalter eingetreten ist. Die vorrangigen Ziele europäischer Energiepolitik müssen Nachhaltigkeit, Wettbewerbsfähigkeit und Versorgungssicherheit sein, wobei sie eine zusammenhängende und logische Menge von Taktiken und Maßnahmen benötigt, um diese Ziele zu erreichen. Die Strommärkte und Verbundnetze Europas bilden das Kernstück unseres Energiesystems und müssen sich weiterentwickeln, um den neuen Anforderungen zu entsprechen. Die europäischen Stromnetze haben die lebenswichtigen Verbindungen zwischen Stromproduzenten und Verbrauchern mit großem Erfolg seit vielen Jahrzehnten gesichert. Die grundlegende Struktur dieser Netze ist entwickelt worden, um die Bedürfnisse großer, überwiegend auf Kohle aufgebauten Herstellungstechnologien zu befriedigen, die sich entfernt von den Verbraucherzentren befinden. Die Energieprobleme, denen Europa jetzt gegenübersteht, ändern die Stromerzeugungslandschaft in zwei Gesichtspunkten: die Notwendigkeit für saubere Kraftwerkstechnologien verbunden mit erheblich verbesserten Wirkungsgraden auf der Verbraucherseite wird es Kunden ermöglichen, mit den Netzen viel interaktiver zu arbeiten; andererseits müssen die zukünftigen europaweiten Stromnetze allen Verbrauchern eine höchst zuverlässige, preiswerte Energiezufuhr bereitstellen, wobei sowohl die Nutzung von großen zentralisierten Kraftwerken als auch kleineren lokalen Energiequellen überall in Europa ausgeschöpft werden müssen. In diesem Zusammenhang wird darauf hingewiesen, dass die Informationen, die in dieser Arbeit dargestellt werden, auf aktuellen Fragen mit großem Einfluss auf die gegenwärtigen technischen und wirtschaftspolitischen Diskussionen basieren. Der Autor hat während der letzten Jahre viele der hier vorgestellten Schlussfolgerungen und Empfehlungen mit Vertretern der Kraftwerksindustrie, Betreibern von Stromnetzen und Versorgungsbetrieben, Forschungsgremien und den Regulierungsstellen diskutiert. Die folgenden Absätze fassen die Hauptergebnisse zusammen: Diese Arbeit definiert das neue Konzept, das auf mehr verbraucherorientierten Netzen basiert, und untersucht die Notwendigkeiten sowie die Vorteile und die Hindernisse für den Übergang auf ein mögliches neues Modell für Europa: die intelligenten Stromnetze basierend auf starker Integration erneuerbarer Quellen und lokalen Kleinkraftwerken. Das neue Modell wird als eine grundlegende Änderung dargestellt, die sich deutlich auf Netzentwurf und -steuerung auswirken wird. Sie fordert ein europäisches Stromnetz mit den folgenden Merkmalen: – Flexibel: es erfüllt die Bedürfnisse der Kunden, indem es auf Änderungen und neue Forderungen eingehen kann – Zugänglich: es gestattet den Verbindungszugang aller Netzbenutzer besonders für erneuerbare Energiequellen und lokale Stromerzeugung mit hohem Wirkungsgrad sowie ohne oder mit niedrigen Kohlendioxidemissionen – Zuverlässig: es verbessert und garantiert die Sicherheit und Qualität der Versorgung mit den Forderungen des digitalen Zeitalters mit Reaktionsmöglichkeiten gegen Gefahren und Unsicherheiten – Wirtschaftlich: es garantiert höchste Wirtschaftlichkeit durch Innovation, effizientes Energiemanagement und liefert „gleiche Ausgangsbedingungen“ für Wettbewerb und Regulierung. Es beinhaltet die neuesten Technologien, um Erfolg zu gewährleisten, während es die Flexibilität behält, sich an weitere Entwicklungen anzupassen und fordert daher ein zuversichtliches Programm für Forschung, Entwicklung und Demonstration, das einen Kurs im Hinblick auf ein Stromversorgungsnetz entwirft, welches die Bedürfnisse der Zukunft Europas befriedigt: – Netztechnologien, die die Stromübertragung verbessern und Energieverluste verringern, werden die Effizienz der Versorgung erhöhen, während neue Leistungselektronik die Versorgungsqualität verbessern wird. Es wird ein Werkzeugkasten erprobter technischer Lösungen geschaffen werden, der schnell und wirtschaftlich eingesetzt werden kann, so dass bestehende Netze Stromeinleitungen von allen Energieressourcen aufnehmen können. – Fortschritte bei Simulationsprogrammen wird die Einführung innovativer Technologien in die praktische Anwendung zum Vorteil sowohl der Kunden als auch der Versorger stark unterstützen. Sie werden das erfolgreiche Anpassen neuer und alter Ausführungen der Netzkomponenten gewährleisten, um die Funktion von Automatisierungs- und Regelungsanordnungen zu garantieren. – Harmonisierung der ordnungspolitischen und kommerziellen Rahmen in Europa, um grenzüberschreitenden Handel von sowohl Energie als auch Netzdienstleistungen zu erleichtern; damit muss eine Vielzahl von Einsatzsituationen gewährleistet werden. Gemeinsame technische Normen und Protokolle müssen eingeführt werden, um offenen Zugang zu gewährleisten und den Einsatz der Ausrüstung eines jeden Herstellers zu ermöglichen. – Entwicklungen in Nachrichtentechnik, Mess- und Handelssystemen werden auf allen Ebenen neue Möglichkeiten eröffnen, auf Grund von Signalen des Marktes frühzeitig technische und kommerzielle Wirkungsgrade zu verbessern. Es wird Unternehmen ermöglichen, innovative Dienstvereinbarungen zu benutzen, um ihre Effizienz zu verbessern und ihre Angebote an Kunden zu vergrößern. Schließlich muss betont werden, dass für einen erfolgreichen Übergang zu einem zukünftigen nachhaltigen Energiesystem alle relevanten Beteiligten involviert werden müssen.
Resumo:
With this document, we provide a compilation of in-depth discussions on some of the most current security issues in distributed systems. The six contributions have been collected and presented at the 1st Kassel Student Workshop on Security in Distributed Systems (KaSWoSDS’08). We are pleased to present a collection of papers not only shedding light on the theoretical aspects of their topics, but also being accompanied with elaborate practical examples. In Chapter 1, Stephan Opfer discusses Viruses, one of the oldest threats to system security. For years there has been an arms race between virus producers and anti-virus software providers, with no end in sight. Stefan Triller demonstrates how malicious code can be injected in a target process using a buffer overflow in Chapter 2. Websites usually store their data and user information in data bases. Like buffer overflows, the possibilities of performing SQL injection attacks targeting such data bases are left open by unwary programmers. Stephan Scheuermann gives us a deeper insight into the mechanisms behind such attacks in Chapter 3. Cross-site scripting (XSS) is a method to insert malicious code into websites viewed by other users. Michael Blumenstein explains this issue in Chapter 4. Code can be injected in other websites via XSS attacks in order to spy out data of internet users, spoofing subsumes all methods that directly involve taking on a false identity. In Chapter 5, Till Amma shows us different ways how this can be done and how it is prevented. Last but not least, cryptographic methods are used to encode confidential data in a way that even if it got in the wrong hands, the culprits cannot decode it. Over the centuries, many different ciphers have been developed, applied, and finally broken. Ilhan Glogic sketches this history in Chapter 6.
Resumo:
In this report, we discuss the application of global optimization and Evolutionary Computation to distributed systems. We therefore selected and classified many publications, giving an insight into the wide variety of optimization problems which arise in distributed systems. Some interesting approaches from different areas will be discussed in greater detail with the use of illustrative examples.
Resumo:
Genetic Programming can be effectively used to create emergent behavior for a group of autonomous agents. In the process we call Offline Emergence Engineering, the behavior is at first bred in a Genetic Programming environment and then deployed to the agents in the real environment. In this article we shortly describe our approach, introduce an extended behavioral rule syntax, and discuss the impact of the expressiveness of the behavioral description to the generation success, using two scenarios in comparison: the election problem and the distributed critical section problem. We evaluate the results, formulating criteria for the applicability of our approach.