914 resultados para Data sets storage


Relevância:

90.00% 90.00%

Publicador:

Resumo:

Im Rahmen der Fallstudie Harz sollte an der Schnittstelle zwischen Grundlagenforschung und angewandter Forschung ein Beitrag zur Klärung der Frage geleistet werden, inwieweit zwei Zuläufe der Sösetalsperre im Westharz versauert bzw. versauerungsgefährdet sind; aus diesem Stausee wird Trinkwasser für mehrere Gemeinden in Norddeutschland gewonnen. Die Belastung des fast vollständig bewaldeten Einzugsgebiets der Sösetalsperre mit luftbürtigen Schadstoffen (Saurer Regen) zählte zu den höchsten in Mitteleuropa. An jeweils drei Untersuchungsstellen der beiden Bäche Alte Riefensbeek (R1 bis R3) und Große Söse (S1 bis S3) wurden zwischen März 1987 und November 1988 Proben aus Moospolstern und dem hyporheischen Interstitial entnommen und physikalisch, chemisch und biologisch untersucht. Ergänzend wurden Wasserproben zwischen März 1986 und Oktober 1991 sowie vom April 1998 ebenso wie qualitative Fänge von Makroinvertebraten zwischen November 1986 und Juli 1990 sowie vom April 1998 ausgewertet. Die Analyse der tierischen Besiedlung der Moos- und Interstitialproben beschränkte sich auf die taxonomischen Gruppen Turbellaria (Strudelwürmer), Mollusca (Weichtiere), Amphipoda (Flohkrebse), Ephemeroptera (Eintagsfliegen), Plecoptera (Steinfliegen), Heteroptera (Wanzen), Megaloptera (Schlammfliegen), Coleoptera (Käfer), Trichoptera (Köcherfliegen) und Diptera (Zweiflügler). Der Grundsatz, daß normalverteilte und nicht normalverteilte Daten statistisch unterschiedlich behandelt werden müssen, wurde konsequent angewandt. Am Beispiel der Choriotopstruktur wurde gezeigt, daß die Auswahl des Analyseverfahrens das Ergebnis der ökologischen Interpretation multivariater statistischer Auswertung beeinflußt. Die Daten der Korngrößen-Verteilung wurden vergleichend einer univariaten und einer multivariaten statistischen Analyse unterworfen. Mit dem univariaten Verfahren wurden die Gradienten der ökologisch relevanten Korngrößen-Parameter eher erkannt als mit dem multivariaten Verfahren. Die Auswirkungen von Gewässerversauerung sowie anderer Umweltfaktoren (insgesamt 42 Faktoren) auf die Lebensgemeinschaften wurden anhand der Parameter Artenzahl, Besiedlungsdichte, Körpergröße und Biomasse untersucht. Abundanz, Biomasse und Körpergröße sowie die Umweltfaktoren wurden auf einem horizontalen Gradienten, d.h. im Längslauf der Bäche, und auf einem vertikalen Gradienten, d.h. fließende Welle / Bryorheon / Benthon versus Hyporheon, untersucht. Es wurde ein terminologisches System für die Kompartimente in der Fließgewässer-Aue vorgeschlagen, das in sich einheitlich ist. Es wurde ein neuer Moos-Vitalitätsindex für die Moospolster vorgestellt. Es wurden Bestimmungsschlüssel für die Larven der Chloroperlidae (Steinfliegen-Familie) und der Empididae (Tanzfliegen) in den beiden Harzbächen entwickelt. Die untersuchten Bachstrecken waren frei von Abwasserbelastung. An zwei Stellen wurde Wasser für einen Forellenteich ausgeleitet. Abgesehen von zwei meterhohen Abstürzen in der Großen Söse waren wasserbauliche Veränderungen ohne große Bedeutung. Das Abfluß-Regime war insofern nicht mehr natürlich, als beide Bäche in das System der bergbaulichen Bewässerungsgräben des Oberharzes eingebunden sind. Die Söse hatte ein F-nivopluviales Abfluß-Regime, der abflußreichste Doppelmonat war der März / April, die Unregelmäßigkeit des Abfluß-Regimes war sehr hoch, die Vorhersagbarkeit sehr niedrig, die monatlichen Abfluß-Maxima wiesen eine sehr geringe Konstanz auf. Der Zeitraum der biologischen Probenahme wurde von überdurchschnittlich vielen Tagen mit mäßig erhöhten Abflüssen geprägt, sehr große Hochwasser-Wellen fehlten aber. Die Abfluß-Dynamik wurde statistisch beschrieben. Das hydraulische Regime wurde anhand der Meßgrößen Fließgeschwindigkeit, Fließkraft und FROUDE-Zahl dargestellt. Der Zusammenhang zwischen Abfluß und Fließgeschwindigkeit auf der einen Seite und der Korngrößen-Verteilung auf der anderen Seite wurde statistisch untersucht, ebenfalls zwischen dem Abfluß und dem Kohlenstoff- und Stickstoff-Gehalt der Feinstpartikel sowie dem Wasserchemismus. In den Phasen ohne Hochwasser hatte das Hyporheal die Funktion einer Senke für Feinstkörner. Das Bachbett der Alten Riefensbeek war stabiler als das der Großen Söse. Insgesamt gesehen war das hyporheische Sediment in den quellnahen Abschnitten grobkörniger und auf den quellfernen Strecken feinkörniger. Der prozentuale Anteil der Feinstkörner im Hyporheal und Benthal nahm aber im Längslauf der Bäche ab. Dies ist ungewöhnlich, konnte aber nicht plausibel mit geologischen und hydrologischen Meßgrößen erklärt werden. Beide Bäche waren sommerkalt. Der Einfluß der Wassertemperatur auf die Larvalentwicklung wurde beispielhaft an den Taxa Baetis spp. und Leuctra gr. inermis untersucht. Es gab eine Tendenz, daß der Kohlenstoff- und Stickstoff-Gehalt der Feinstpartikel vom Benthal in das Hyporheal anstieg. Dies war ein weiterer Hinweis darauf, daß das Hyporheal die Funktion einer Senke und Vorratskammer für Nährstoffe hat. Der Zusammenhang zwischen partikulärer und gelöster Kohlenstoff-Fraktion wurde diskutiert. Im Hyporheon war die Nitrifikation nicht stärker als in der fließenden Welle. Es gab Hinweise, daß die sauren pH-Werte in der Großen Söse die Nitrifikation hemmten. Die Valenzen der Moos- und Tier-Taxa bezüglich Fließgeschwindigkeit, pH-Wert, Alkalinität sowie der Gehalte von Sauerstoff, Calcium, Magnesium, Kalium und Natrium wurden zusammengestellt. Das hyporheische Sediment war sehr grob und hatte eine hohe Porosität. Der Austausch zwischen fließender Welle und hyporheischem Wasser konnte deshalb sehr schnell erfolgen, es gab keine intergranulare Sprungschicht, die physikalischen und chemischen Tiefengradienten waren in den meisten Fällen gar nicht ausgeprägt oder nur sehr flach. Die Wassertemperatur des Freiwassers unterschied sich nicht signifikant von derjenigen im hyporheischen Wasser. Es gab -- von wenigen Ausnahmen bei pH-Wert, Leitfähigkeit und Sauerstoffgehalt abgesehen -- keine signifikanten Unterschiede zwischen dem Wasserchemismus der fließenden Welle und dem des Hyporheals. Die physikalischen und chemischen Voraussetzungen für die Refugialfunktion des Hyporheons waren deshalb für versauerungsempfindliche Taxa nicht gegeben. In der Tiefenverteilung der untersuchten Tiergruppen im Hyporheal lag das Maximum der Abundanz bzw. Biomasse häufiger in 10 cm als in 30 cm Tiefe. Daraus läßt sich aber keine allgemeine Gesetzmäßigkeit ableiten. Es wurde durchgehend die Definition angewendet, daß die Gewässerversauerung durch den Verlust an Pufferkapazität charakterisiert ist. Saure Gewässer können, müssen aber nicht versauert sein; versauerte Gewässer können, müssen aber nicht saures Wasser haben. Maßstab für das Pufferungsvermögen eines Gewässers ist nicht der pH-Wert, sondern sind die Alkalinität und andere chemische Versauerungsparameter. Der pH-Wert war auch operativ nicht als Indikator für Gewässerversauerung anwendbar. Die chemische Qualität des Bachwassers der Großen Söse entsprach aufgrund der Versauerung nicht den umweltrechtlichen Vorgaben bezüglich der Parameter pH-Wert, Aluminium, Eisen und Mangan, bzgl. Zink galt dies nur an S1. In der Alten Riefensbeek genügte das Hyporheal-Wasser in 30 cm Tiefe an R2 bzgl. des Sauerstoff-Gehalts nicht den umweltrechtlichen Anforderungen. Nur im Freiwasser an R1 genügten die Ammonium-Werte den Vorgaben der EG-Fischgewässer-Richtlinie, der Grenzwert wurde an allen anderen Meßstellen und Entnahmetiefen überschritten. Das BSB-Regime in allen Entnahmetiefen an R2, im Freiwasser an R3 und S1, im Hyporheal an R1 sowie in 30 cm Tiefe an R3 genügte nicht den Anforderungen der Fischgewässer-Richtlinie. Der Grenzwert für Gesamt-Phosphor wurde an S3 überschritten. In der Großen Söse war der Aluminium-Gehalt so hoch, daß anorganisches und organisches Aluminium unterschieden werden konnten. Besonders hohe Gehalte an toxischem anorganischen Aluminium wurden an Tagen mit Spitzen-Abflüssen und Versauerungsschüben gemessen. Erst die Ermittlung verschiedener chemischer Versauerungsparameter zeigte, daß auch die alkalischen Probestellen R2 und R3 mindestens versauerungsempfindlich waren. Die Messung bzw. Berechnung von chemischen Versauerungsparametern sollte deshalb zum Routineprogramm bei der Untersuchung von Gewässerversauerung gehören. Zu Beginn des Untersuchungsprogramms war angenommen worden, daß die mittleren und unteren Abschnitte der Alten Riefensbeek unversauert sind. Dieser Ansatz des Untersuchungsprogramms, einen unversauerten Referenzbach (Alte Riefensbeek) mit einem versauerten Bach (Große Söse) zu vergleichen, mußte nach der Berechnung von chemischen Versauerungsindikatoren sowie der Analyse der Abundanz- und Biomasse-Werte modifiziert werden. Es gab einen Versauerungsgradienten entlang der Probestellen: R1 (unversauert) R2 und R3 (versauerungsempfindlich bis episodisch leicht versauert) S2 und S3 (dauerhaft versauert) S1 (dauerhaft stark versauert). An S1 war das Hydrogencarbonat-Puffersystem vollständig, an S2 und S3 zeitweise ausgefallen. Die Versauerungslage an R2 und R3 war also schlechter als vorausgesehen. Unterschiede im Versauerungsgrad zwischen den Meßstellen waren nicht so sehr in unterschiedlichen Eintragsraten von versauernden Stoffen aus der Luft begründet, sondern in unterschiedlichen Grundgesteinen mit unterschiedlichem Puffervermögen. Der Anteil der verschiedenen sauren Anionen an der Versauerung wurde untersucht, die chemischen Versauerungsmechanismen wurden mit Hilfe von Ionenbilanzen und verschiedenen Versauerungsquotienten analysiert. Die beiden untersuchten Bäche waren von anthropogener Versauerung betroffen. Dabei spielte die Schwefel-Deposition (Sulfat) eine größere Rolle als die Stickstoff-Deposition (Nitrat). Die Probestelle S1 war immer schon in unbekanntem Maß natürlich sauer. Dieser natürlich saure Zustand wurde von der hinzugekommenen anthropogenen Versauerung bei weitem überragt. Die wenigen gewässerökologischen Daten, die im Wassereinzugsgebiet der Söse vor 1986 gewonnen wurden, deuten darauf hin, daß die Versauerung in den 70er und in der ersten Hälfte der 80er Jahre vom Boden und Gestein in die Bäche durchgeschlagen war. Dieser Versauerungsprozeß begann vermutlich vor 1973 in den Quellen auf dem Acker-Bruchberg und bewegte sich im Laufe der Jahre immer weiter talwärts in Richtung Trinkwasser-Talsperre. Der Mangel an (historischen) freilandökologischen Grundlagendaten war nicht nur im Untersuchungsgebiet, sondern ist allgemein in der Versauerungsforschung ein Problem. Wenn sich das Vorkommen von nah verwandten Arten (weitgehend) ausschließt, kann dies an der Versauerung liegen, z.B. war die Alte Riefensbeek ein Gammarus-Bach, die Große Söse ein Niphargus-Bach; dieses muß aber nicht an der Versauerung liegen, z.B. fehlte Habroleptoides confusa im Hyporheos an R3, Habrophlebia lauta hatte dagegen ihr Abundanz- und Biomasse-Maximum an R3. Zugleich lag das Maximum des prozentualen Anteils von Grobsand an R3, eine mögliche Ursache für diese interspezifische Konkurrenz. Die biologische Indikation von Gewässerversauerung mit Hilfe der Säurezustandsklassen funktionierte nicht in den beiden Harzbächen. Es wurde deshalb ein biologischer Versauerungsindex vorgeschlagen; dieser wurde nicht am pH-Wert kalibriert, sondern an der chemischen Versauerungslage, gekennzeichnet durch die Alkalinität und andere chemische Meßgrößen der Versauerung. Dafür wurden aufgrund der qualitativen und quantitativen Daten die häufigeren Taxa in die vier Klassen deutlich versauerungsempfindlich, mäßig versauerungsempfindlich, mäßig versauerungstolerant und deutlich versauerungstolerant eingeteilt. Es reicht nicht aus, die biologischen Folgen von Gewässerversauerung sowie Veränderungen in der Nährstoff-Verfügbarkeit und im sonstigen Wasserchemismus nur anhand der Artenzahl oder des Artenspektrums abzuschätzen. Vielmehr müssen quantitative Methoden wie die Ermittlung der Abundanzen angewandt werden, um anthropogene und natürliche Störungen des Ökosystems zu erfassen. Es wurde eine Strategie für die behördliche Gewässergüteüberwachung von Bachoberläufen vorgeschlagen, die flächendeckend die Versauerungsgefährdung erfassen kann. Die Auswirkungen der zeitlichen Dynamik des Versauerungschemismus wurden am Beispiel des versauerungsempfindlichen Taxons Baetis spp. (Eintagsfliegen) dargestellt. An S2 und S3 kam es zu starken Versauerungsschüben. Baetis konnte sich nicht ganzjährig halten, sondern nur in versauerungsarmen Phasen im Sommer und im Herbst; es gab einen Besiedlungskreislauf aus Ausrottungs- und Wiederbesiedlungsphasen. Die temporäre Population von Baetis an S2 und S3 bestand nur aus ersten Larvenstadien. Die Probestellen wurden auf horizontalen Gradienten der Umweltfaktoren angeordnet. Bei einigen Parametern gab es keinen Gradienten (z.B. Sauerstoff-Gehalt), bei anderen Parametern waren die Meßstellen auf sehr flachen Gradienten angeordnet (z.B. C:N-Quotient der Feinstkörner), bei den restlichen Meßgrößen waren die Gradienten sehr deutlich (z.B. Alkalinität). Bei den Längsgradienten von Abundanz und Biomasse waren alle Möglichkeiten vertreten: Zunahme (z.B. Leuctra pseudosignifera), Abnahme (z.B. Gammarus pulex), Maximum an der mittleren Probestelle (z.B. Leuctra pseudocingulata) und kein signifikanter Trend (z.B. Nemoura spp.). Abundanz und Biomasse zahlreicher taxonomischer Einheiten hatten ihr Maximum im Längslauf an den quellnächsten Probestellen R1 und S1, z.B. Protonemura spp. und Plectrocnemia spp. Die Lebensgemeinschaften an R1 und S1 waren allerdings völlig unterschiedlich zusammengesetzt. Die häufig vertretene Annahme, versauerte Gewässer seien biologisch tot, ist falsch. Unter Anwendung des 3. biozönotischen Grundprinzips wurde das Maximum von Abundanz und Biomasse in den quellnahen Abschnitten mit dem eustatistischen (stabilen) Regime von Wassertemperatur, Abfluß und Protonen-Gehalt, in der Alten Riefensbeek auch von Alkalinität und ALMER-Relation erklärt. Aufgrund der natürlichen und anthropogenen Störungen war im Längslauf der untersuchten Bäche keine natürliche biozönotische Gliederung des Artenbestands erkennbar. Die Korrelationsberechnungen zwischen den Umweltfaktoren und der Taxazahl ergaben, daß in erster Linie versauerungsrelevante Parameter -- Gehalte saurer Anionen, basischer Kationen und von Metallen, Alkalinität usw. -- die höchsten Korrelationskoeffizienten mit der Taxa-Zahl hatten; unter den natürlichen Meßgrößen zählten nur die Gehalte von DOC und TIC sowie der Anteil der Sande zu der Gruppe mit den höchsten Korrelationskoeffizienten. Die Korrelationsberechnungen zwischen den Umweltfaktoren und den Abundanzen ergab dagegen, daß die quantitative Zusammensetzung der Lebensgemeinschaft nicht nur durch die anthropogene Gewässerversauerung, sondern mindestens genauso durch einige natürliche Meßgrößen beeinflußt wurde. Es gab in den Harzbächen keinen ökologischen Superfaktor, der die quantitative Zusammensetzung der Lebensgemeinschaft überwiegend bestimmte. Auch die Meßgrößen der anthropogenen Gewässerversauerung waren nicht solch ein Superfaktor. Einen ähnlich hohen Einfluß auf die quantitative Zusammensetzung der Lebensgemeinschaft hatten die geologisch bestimmten Umweltfaktoren Leitfähigkeit und TIC-Gehalt, der von der Landnutzung bestimmte DOC-Gehalt sowie der Chlorid-Gehalt, der geologisch, möglicherweise aber auch durch den Eintrag von Straßensalz bestimmt wird. Die Mischung von anthropogenen und natürlichen Faktoren wurde in einem Modell der Wirkung von abiotischen Faktoren auf Bryorheos und Hyporheos dargestellt. Als Beispiel für die zeitliche Nutzung ökologischer Nischen wurde die Verteilung der Larven und Adulten der Dryopidae (Hakenkäfer) im Hyporheos und Bryorheos untersucht. Die Larven wurden vorzugsweise im Hyporheon, die Adulten im Bryorheon angetroffen. Die untersuchten Taxa wurden in die Varianten bryorheobiont, bryorheophil, bryorheotolerant, bryorheoxen und bryorheophob bzw. hyporheobiont, hyporheophil, hyporheotolerant, hyporheoxen und hyporheophob eingeteilt, um ihre räumliche Nutzung ökologischer Nischen zu beschreiben. Die gängige Lehrmeinung, daß das Hyporheon die Kinderstube benthaler Makroinvertebraten ist, konnte für zahlreiche Taxa bestätigt werden (z.B. Habrophlebia lauta). Für die bryorheophilen Taxa (z.B. Gammarus pulex und Baetis spp.) trifft diese Lehrmeinung in den beiden Harzbächen nicht zu. Vielmehr übernimmt das Bryorheon die Funktion einer Kinderstube. Die Larven von Plectrocnemia conspersa / geniculata sowie von Baetis spp. und Amphinemura spp. / Protonemura spp. neben Gammarus pulex zeigten eine Habitatbindung, die erstgenannte Gattung an das Hyporheal, die letztgenannten 3 Taxa an untergetauchte Moospolster (Bryorheal). Die Idee von der Funktion des Hyporheals als Kinderstube der Larven und Jungtiere, als Schutzraum gegen die Verdriftung durch Strömung und vor Fraßdruck durch Räuber sowie als Ort hohen Nahrungsangebots mußte für die letztgenannten 3 Taxa abgelehnt werden. Für sie übernahm das Bryorheal diese Aufgaben. Zwar waren die beiden Bäche oligotroph und die Nahrungsqualität der Feinstkörner im Hyporheal war niedrig. Die Abundanz- und Biomasse-Werte im Bryorheos und Hyporheos gehörten aber zu den weltweit höchsten. Es wurde das Paradoxon diskutiert, daß im Hyporheon der beiden Bäche Diatomeen-Rasen gefunden wurden, obwohl das Hyporheon lichtlos sein soll. Das Hyporheon wurde als ein Ökoton zwischen Benthon / Rheon und Stygon angesehen. Es wurden vier Haupttypen des Hyporheons beschrieben. Wegen des sehr unterschiedlichen Charakters des Hyporheons in verschiedenen Fließgewässern gibt es keinen einheitlichen Satz von abiotischen und biotischen Faktoren, mit denen das Hyporheon vom Benthon und Stygon abgegrenzt werden kann. In den beiden Harzbächen ähnelte das Hyporheon mehr dem Benthon als dem Stygon. Es konnte nicht anhand der chemischen Meßgrößen vom Benthon abgegrenzt werden, sondern anhand der physikalischen Meßgrößen Trübung und der Anteile von Feinsand und Schluffe/Tone sowie anhand der biologischen Parameter Summen-Abundanz und Summen-Biomasse. Aus der Typologie des Hyporheons folgt, daß ein bestimmtes Hyporheon nicht alle in der Literatur beschriebenen Funktionen innerhalb der Fließgewässer-Aue übernehmen kann. Es wurde ein Schema entwickelt, mit dem sich die optimale Liste der Parameter für die Untersuchung eines bestimmten Hyporheons auswählen läßt. Der Tendenz in der Fließgewässer-Ökologie, immer neue Konzepte zu entwickeln, die allgemeingültig sein sollen, wurde das Konzept vom individuellen Charakter von Fließgewässer-Ökosystemen entgegengestellt.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Real-world learning tasks often involve high-dimensional data sets with complex patterns of missing features. In this paper we review the problem of learning from incomplete data from two statistical perspectives---the likelihood-based and the Bayesian. The goal is two-fold: to place current neural network approaches to missing data within a statistical framework, and to describe a set of algorithms, derived from the likelihood-based framework, that handle clustering, classification, and function approximation from incomplete data in a principled and efficient manner. These algorithms are based on mixture modeling and make two distinct appeals to the Expectation-Maximization (EM) principle (Dempster, Laird, and Rubin 1977)---both for the estimation of mixture components and for coping with the missing data.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

One of the tantalising remaining problems in compositional data analysis lies in how to deal with data sets in which there are components which are essential zeros. By an essential zero we mean a component which is truly zero, not something recorded as zero simply because the experimental design or the measuring instrument has not been sufficiently sensitive to detect a trace of the part. Such essential zeros occur in many compositional situations, such as household budget patterns, time budgets, palaeontological zonation studies, ecological abundance studies. Devices such as nonzero replacement and amalgamation are almost invariably ad hoc and unsuccessful in such situations. From consideration of such examples it seems sensible to build up a model in two stages, the first determining where the zeros will occur and the second how the unit available is distributed among the non-zero parts. In this paper we suggest two such models, an independent binomial conditional logistic normal model and a hierarchical dependent binomial conditional logistic normal model. The compositional data in such modelling consist of an incidence matrix and a conditional compositional matrix. Interesting statistical problems arise, such as the question of estimability of parameters, the nature of the computational process for the estimation of both the incidence and compositional parameters caused by the complexity of the subcompositional structure, the formation of meaningful hypotheses, and the devising of suitable testing methodology within a lattice of such essential zero-compositional hypotheses. The methodology is illustrated by application to both simulated and real compositional data

Relevância:

90.00% 90.00%

Publicador:

Resumo:

As stated in Aitchison (1986), a proper study of relative variation in a compositional data set should be based on logratios, and dealing with logratios excludes dealing with zeros. Nevertheless, it is clear that zero observations might be present in real data sets, either because the corresponding part is completely absent –essential zeros– or because it is below detection limit –rounded zeros. Because the second kind of zeros is usually understood as “a trace too small to measure”, it seems reasonable to replace them by a suitable small value, and this has been the traditional approach. As stated, e.g. by Tauber (1999) and by Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000), the principal problem in compositional data analysis is related to rounded zeros. One should be careful to use a replacement strategy that does not seriously distort the general structure of the data. In particular, the covariance structure of the involved parts –and thus the metric properties– should be preserved, as otherwise further analysis on subpopulations could be misleading. Following this point of view, a non-parametric imputation method is introduced in Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000). This method is analyzed in depth by Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2003) where it is shown that the theoretical drawbacks of the additive zero replacement method proposed in Aitchison (1986) can be overcome using a new multiplicative approach on the non-zero parts of a composition. The new approach has reasonable properties from a compositional point of view. In particular, it is “natural” in the sense that it recovers the “true” composition if replacement values are identical to the missing values, and it is coherent with the basic operations on the simplex. This coherence implies that the covariance structure of subcompositions with no zeros is preserved. As a generalization of the multiplicative replacement, in the same paper a substitution method for missing values on compositional data sets is introduced

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Developments in the statistical analysis of compositional data over the last two decades have made possible a much deeper exploration of the nature of variability, and the possible processes associated with compositional data sets from many disciplines. In this paper we concentrate on geochemical data sets. First we explain how hypotheses of compositional variability may be formulated within the natural sample space, the unit simplex, including useful hypotheses of subcompositional discrimination and specific perturbational change. Then we develop through standard methodology, such as generalised likelihood ratio tests, statistical tools to allow the systematic investigation of a complete lattice of such hypotheses. Some of these tests are simple adaptations of existing multivariate tests but others require special construction. We comment on the use of graphical methods in compositional data analysis and on the ordination of specimens. The recent development of the concept of compositional processes is then explained together with the necessary tools for a staying- in-the-simplex approach, namely compositional singular value decompositions. All these statistical techniques are illustrated for a substantial compositional data set, consisting of 209 major-oxide and rare-element compositions of metamorphosed limestones from the Northeast and Central Highlands of Scotland. Finally we point out a number of unresolved problems in the statistical analysis of compositional processes

Relevância:

90.00% 90.00%

Publicador:

Resumo:

R from http://www.r-project.org/ is ‘GNU S’ – a language and environment for statistical computing and graphics. The environment in which many classical and modern statistical techniques have been implemented, but many are supplied as packages. There are 8 standard packages and many more are available through the cran family of Internet sites http://cran.r-project.org . We started to develop a library of functions in R to support the analysis of mixtures and our goal is a MixeR package for compositional data analysis that provides support for operations on compositions: perturbation and power multiplication, subcomposition with or without residuals, centering of the data, computing Aitchison’s, Euclidean, Bhattacharyya distances, compositional Kullback-Leibler divergence etc. graphical presentation of compositions in ternary diagrams and tetrahedrons with additional features: barycenter, geometric mean of the data set, the percentiles lines, marking and coloring of subsets of the data set, theirs geometric means, notation of individual data in the set . . . dealing with zeros and missing values in compositional data sets with R procedures for simple and multiplicative replacement strategy, the time series analysis of compositional data. We’ll present the current status of MixeR development and illustrate its use on selected data sets

Relevância:

90.00% 90.00%

Publicador:

Resumo:

The log-ratio methodology makes available powerful tools for analyzing compositional data. Nevertheless, the use of this methodology is only possible for those data sets without null values. Consequently, in those data sets where the zeros are present, a previous treatment becomes necessary. Last advances in the treatment of compositional zeros have been centered especially in the zeros of structural nature and in the rounded zeros. These tools do not contemplate the particular case of count compositional data sets with null values. In this work we deal with \count zeros" and we introduce a treatment based on a mixed Bayesian-multiplicative estimation. We use the Dirichlet probability distribution as a prior and we estimate the posterior probabilities. Then we apply a multiplicative modi¯cation for the non-zero values. We present a case study where this new methodology is applied. Key words: count data, multiplicative replacement, composition, log-ratio analysis

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Abstract This seminar is a research discussion around a very interesting problem, which may be a good basis for a WAISfest theme. A little over a year ago Professor Alan Dix came to tell us of his plans for a magnificent adventure:to walk all of the way round Wales - 1000 miles 'Alan Walks Wales'. The walk was a personal journey, but also a technological and community one, exploring the needs of the walker and the people along the way. Whilst walking he recorded his thoughts in an audio diary, took lots of photos, wrote a blog and collected data from the tech instruments he was wearing. As a result Alan has extensive quantitative data (bio-sensing and location) and qualitative data (text, images and some audio). There are challenges in analysing individual kinds of data, including merging similar data streams, entity identification, time-series and textual data mining, dealing with provenance, ontologies for paths, and journeys. There are also challenges for author and third-party annotation, linking the data-sets and visualising the merged narrative or facets of it.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

An emerging consensus in cognitive science views the biological brain as a hierarchically-organized predictive processing system. This is a system in which higher-order regions are continuously attempting to predict the activity of lower-order regions at a variety of (increasingly abstract) spatial and temporal scales. The brain is thus revealed as a hierarchical prediction machine that is constantly engaged in the effort to predict the flow of information originating from the sensory surfaces. Such a view seems to afford a great deal of explanatory leverage when it comes to a broad swathe of seemingly disparate psychological phenomena (e.g., learning, memory, perception, action, emotion, planning, reason, imagination, and conscious experience). In the most positive case, the predictive processing story seems to provide our first glimpse at what a unified (computationally-tractable and neurobiological plausible) account of human psychology might look like. This obviously marks out one reason why such models should be the focus of current empirical and theoretical attention. Another reason, however, is rooted in the potential of such models to advance the current state-of-the-art in machine intelligence and machine learning. Interestingly, the vision of the brain as a hierarchical prediction machine is one that establishes contact with work that goes under the heading of 'deep learning'. Deep learning systems thus often attempt to make use of predictive processing schemes and (increasingly abstract) generative models as a means of supporting the analysis of large data sets. But are such computational systems sufficient (by themselves) to provide a route to general human-level analytic capabilities? I will argue that they are not and that closer attention to a broader range of forces and factors (many of which are not confined to the neural realm) may be required to understand what it is that gives human cognition its distinctive (and largely unique) flavour. The vision that emerges is one of 'homomimetic deep learning systems', systems that situate a hierarchically-organized predictive processing core within a larger nexus of developmental, behavioural, symbolic, technological and social influences. Relative to that vision, I suggest that we should see the Web as a form of 'cognitive ecology', one that is as much involved with the transformation of machine intelligence as it is with the progressive reshaping of our own cognitive capabilities.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Asymmetry in a distribution can arise from a long tail of values in the underlying process or from outliers that belong to another population that contaminate the primary process. The first paper of this series examined the effects of the former on the variogram and this paper examines the effects of asymmetry arising from outliers. Simulated annealing was used to create normally distributed random fields of different size that are realizations of known processes described by variograms with different nugget:sill ratios. These primary data sets were then contaminated with randomly located and spatially aggregated outliers from a secondary process to produce different degrees of asymmetry. Experimental variograms were computed from these data by Matheron's estimator and by three robust estimators. The effects of standard data transformations on the coefficient of skewness and on the variogram were also investigated. Cross-validation was used to assess the performance of models fitted to experimental variograms computed from a range of data contaminated by outliers for kriging. The results showed that where skewness was caused by outliers the variograms retained their general shape, but showed an increase in the nugget and sill variances and nugget:sill ratios. This effect was only slightly more for the smallest data set than for the two larger data sets and there was little difference between the results for the latter. Overall, the effect of size of data set was small for all analyses. The nugget:sill ratio showed a consistent decrease after transformation to both square roots and logarithms; the decrease was generally larger for the latter, however. Aggregated outliers had different effects on the variogram shape from those that were randomly located, and this also depended on whether they were aggregated near to the edge or the centre of the field. The results of cross-validation showed that the robust estimators and the removal of outliers were the most effective ways of dealing with outliers for variogram estimation and kriging. (C) 2007 Elsevier Ltd. All rights reserved.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Population size estimation with discrete or nonparametric mixture models is considered, and reliable ways of construction of the nonparametric mixture model estimator are reviewed and set into perspective. Construction of the maximum likelihood estimator of the mixing distribution is done for any number of components up to the global nonparametric maximum likelihood bound using the EM algorithm. In addition, the estimators of Chao and Zelterman are considered with some generalisations of Zelterman’s estimator. All computations are done with CAMCR, a special software developed for population size estimation with mixture models. Several examples and data sets are discussed and the estimators illustrated. Problems using the mixture model-based estimators are highlighted.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

We describe a general likelihood-based 'mixture model' for inferring phylogenetic trees from gene-sequence or other character-state data. The model accommodates cases in which different sites in the alignment evolve in qualitatively distinct ways, but does not require prior knowledge of these patterns or partitioning of the data. We call this qualitative variability in the pattern of evolution across sites "pattern-heterogeneity" to distinguish it from both a homogenous process of evolution and from one characterized principally by differences in rates of evolution. We present studies to show that the model correctly retrieves the signals of pattern-heterogeneity from simulated gene-sequence data, and we apply the method to protein-coding genes and to a ribosomal 12S data set. The mixture model outperforms conventional partitioning in both these data sets. We implement the mixture model such that it can simultaneously detect rate- and pattern-heterogeneity. The model simplifies to a homogeneous model or a rate- variability model as special cases, and therefore always performs at least as well as these two approaches, and often considerably improves upon them. We make the model available within a Bayesian Markov-chain Monte Carlo framework for phylogenetic inference, as an easy-to-use computer program.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Resolving the relationships between Metazoa and other eukaryotic groups as well as between metazoan phyla is central to the understanding of the origin and evolution of animals. The current view is based on limited data sets, either a single gene with many species (e.g., ribosomal RNA) or many genes but with only a few species. Because a reliable phylogenetic inference simultaneously requires numerous genes and numerous species, we assembled a very large data set containing 129 orthologous proteins (similar to30,000 aligned amino acid positions) for 36 eukaryotic species. Included in the alignments are data from the choanoflagellate Monosiga ovata, obtained through the sequencing of about 1,000 cDNAs. We provide conclusive support for choanoflagellates as the closest relative of animals and for fungi as the second closest. The monophyly of Plantae and chromalveolates was recovered but without strong statistical support. Within animals, in contrast to the monophyly of Coelomata observed in several recent large-scale analyses, we recovered a paraphyletic Coelamata, with nematodes and platyhelminths nested within. To include a diverse sample of organisms, data from EST projects were used for several species, resulting in a large amount of missing data in our alignment (about 25%). By using different approaches, we verify that the inferred phylogeny is not sensitive to these missing data. Therefore, this large data set provides a reliable phylogenetic framework for studying eukaryotic and animal evolution and will be easily extendable when large amounts of sequence information become available from a broader taxonomic range.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Once unit-cell dimensions have been determined from a powder diffraction data set and therefore the crystal system is known (e.g. orthorhombic), the method presented by Markvardsen, David, Johnson & Shankland [Acta Cryst. (2001), A57, 47-54] can be used to generate a table ranking the extinction symbols of the given crystal system according to probability. Markvardsen et al. tested a computer program (ExtSym) implementing the method against Pawley refinement outputs generated using the TF12LS program [David, Ibberson & Matthewman (1992). Report RAL-92-032. Rutherford Appleton Laboratory, Chilton, Didcot, Oxon, UK]. Here, it is shown that ExtSym can be used successfully with many well known powder diffraction analysis packages, namely DASH [David, Shankland, van de Streek, Pidcock, Motherwell & Cole (2006). J. Appl. Cryst. 39, 910-915], FullProf [Rodriguez-Carvajal (1993). Physica B, 192, 55-69], GSAS [Larson & Von Dreele (1994). Report LAUR 86-748. Los Alamos National Laboratory, New Mexico, USA], PRODD [Wright (2004). Z. Kristallogr. 219, 1-11] and TOPAS [Coelho (2003). Bruker AXS GmbH, Karlsruhe, Germany]. In addition, a precise description of the optimal input for ExtSym is given to enable other software packages to interface with ExtSym and to allow the improvement/modification of existing interfacing scripts. ExtSym takes as input the powder data in the form of integrated intensities and error estimates for these intensities. The output returned by ExtSym is demonstrated to be strongly dependent on the accuracy of these error estimates and the reason for this is explained. ExtSym is tested against a wide range of data sets, confirming the algorithm to be very successful at ranking the published extinction symbol as the most likely. (C) 2008 International Union of Crystallography Printed in Singapore - all rights reserved.

Relevância:

90.00% 90.00%

Publicador:

Resumo:

Automatic indexing and retrieval of digital data poses major challenges. The main problem arises from the ever increasing mass of digital media and the lack of efficient methods for indexing and retrieval of such data based on the semantic content rather than keywords. To enable intelligent web interactions, or even web filtering, we need to be capable of interpreting the information base in an intelligent manner. For a number of years research has been ongoing in the field of ontological engineering with the aim of using ontologies to add such (meta) knowledge to information. In this paper, we describe the architecture of a system (Dynamic REtrieval Analysis and semantic metadata Management (DREAM)) designed to automatically and intelligently index huge repositories of special effects video clips, based on their semantic content, using a network of scalable ontologies to enable intelligent retrieval. The DREAM Demonstrator has been evaluated as deployed in the film post-production phase to support the process of storage, indexing and retrieval of large data sets of special effects video clips as an exemplar application domain. This paper provides its performance and usability results and highlights the scope for future enhancements of the DREAM architecture which has proven successful in its first and possibly most challenging proving ground, namely film production, where it is already in routine use within our test bed Partners' creative processes. (C) 2009 Published by Elsevier B.V.