905 resultados para LONGITUDINAL DATA-ANALYSIS
Resumo:
Triple quadrupole mass spectrometers coupled with high performance liquid chromatography are workhorses in quantitative bioanalyses. It provides substantial benefits including reproducibility, sensitivity and selectivity for trace analysis. Selected Reaction Monitoring allows targeted assay development but data sets generated contain very limited information. Data mining and analysis of non-targeted high-resolution mass spectrometry profiles of biological samples offer the opportunity to perform more exhaustive assessments, including quantitative and qualitative analysis. The objectives of this study was to test method precision and accuracy, statistically compare bupivacaine drug concentration in real study samples and verify if high resolution and accurate mass data collected in scan mode can actually permit retrospective data analysis, more specifically, extract metabolite related information. The precision and accuracy data presented using both instruments provided equivalent results. Overall, the accuracy was ranging from 106.2 to 113.2% and the precision observed was from 1.0 to 3.7%. Statistical comparisons using a linear regression between both methods reveal a coefficient of determination (R2) of 0.9996 and a slope of 1.02 demonstrating a very strong correlation between both methods. Individual sample comparison showed differences from -4.5% to 1.6% well within the accepted analytical error. Moreover, post acquisition extracted ion chromatograms at m/z 233.1648 ± 5 ppm (M-56) and m/z 305.2224 ± 5 ppm (M+16) revealed the presence of desbutyl-bupivacaine and three distinct hydroxylated bupivacaine metabolites. Post acquisition analysis allowed us to produce semiquantitative evaluations of the concentration-time profiles for bupicavaine metabolites.
Resumo:
Microarray data analysis is one of data mining tool which is used to extract meaningful information hidden in biological data. One of the major focuses on microarray data analysis is the reconstruction of gene regulatory network that may be used to provide a broader understanding on the functioning of complex cellular systems. Since cancer is a genetic disease arising from the abnormal gene function, the identification of cancerous genes and the regulatory pathways they control will provide a better platform for understanding the tumor formation and development. The major focus of this thesis is to understand the regulation of genes responsible for the development of cancer, particularly colorectal cancer by analyzing the microarray expression data. In this thesis, four computational algorithms namely fuzzy logic algorithm, modified genetic algorithm, dynamic neural fuzzy network and Takagi Sugeno Kang-type recurrent neural fuzzy network are used to extract cancer specific gene regulatory network from plasma RNA dataset of colorectal cancer patients. Plasma RNA is highly attractive for cancer analysis since it requires a collection of small amount of blood and it can be obtained at any time in repetitive fashion allowing the analysis of disease progression and treatment response.
Resumo:
Im Rahmen der Fallstudie Harz sollte an der Schnittstelle zwischen Grundlagenforschung und angewandter Forschung ein Beitrag zur Klärung der Frage geleistet werden, inwieweit zwei Zuläufe der Sösetalsperre im Westharz versauert bzw. versauerungsgefährdet sind; aus diesem Stausee wird Trinkwasser für mehrere Gemeinden in Norddeutschland gewonnen. Die Belastung des fast vollständig bewaldeten Einzugsgebiets der Sösetalsperre mit luftbürtigen Schadstoffen (Saurer Regen) zählte zu den höchsten in Mitteleuropa. An jeweils drei Untersuchungsstellen der beiden Bäche Alte Riefensbeek (R1 bis R3) und Große Söse (S1 bis S3) wurden zwischen März 1987 und November 1988 Proben aus Moospolstern und dem hyporheischen Interstitial entnommen und physikalisch, chemisch und biologisch untersucht. Ergänzend wurden Wasserproben zwischen März 1986 und Oktober 1991 sowie vom April 1998 ebenso wie qualitative Fänge von Makroinvertebraten zwischen November 1986 und Juli 1990 sowie vom April 1998 ausgewertet. Die Analyse der tierischen Besiedlung der Moos- und Interstitialproben beschränkte sich auf die taxonomischen Gruppen Turbellaria (Strudelwürmer), Mollusca (Weichtiere), Amphipoda (Flohkrebse), Ephemeroptera (Eintagsfliegen), Plecoptera (Steinfliegen), Heteroptera (Wanzen), Megaloptera (Schlammfliegen), Coleoptera (Käfer), Trichoptera (Köcherfliegen) und Diptera (Zweiflügler). Der Grundsatz, daß normalverteilte und nicht normalverteilte Daten statistisch unterschiedlich behandelt werden müssen, wurde konsequent angewandt. Am Beispiel der Choriotopstruktur wurde gezeigt, daß die Auswahl des Analyseverfahrens das Ergebnis der ökologischen Interpretation multivariater statistischer Auswertung beeinflußt. Die Daten der Korngrößen-Verteilung wurden vergleichend einer univariaten und einer multivariaten statistischen Analyse unterworfen. Mit dem univariaten Verfahren wurden die Gradienten der ökologisch relevanten Korngrößen-Parameter eher erkannt als mit dem multivariaten Verfahren. Die Auswirkungen von Gewässerversauerung sowie anderer Umweltfaktoren (insgesamt 42 Faktoren) auf die Lebensgemeinschaften wurden anhand der Parameter Artenzahl, Besiedlungsdichte, Körpergröße und Biomasse untersucht. Abundanz, Biomasse und Körpergröße sowie die Umweltfaktoren wurden auf einem horizontalen Gradienten, d.h. im Längslauf der Bäche, und auf einem vertikalen Gradienten, d.h. fließende Welle / Bryorheon / Benthon versus Hyporheon, untersucht. Es wurde ein terminologisches System für die Kompartimente in der Fließgewässer-Aue vorgeschlagen, das in sich einheitlich ist. Es wurde ein neuer Moos-Vitalitätsindex für die Moospolster vorgestellt. Es wurden Bestimmungsschlüssel für die Larven der Chloroperlidae (Steinfliegen-Familie) und der Empididae (Tanzfliegen) in den beiden Harzbächen entwickelt. Die untersuchten Bachstrecken waren frei von Abwasserbelastung. An zwei Stellen wurde Wasser für einen Forellenteich ausgeleitet. Abgesehen von zwei meterhohen Abstürzen in der Großen Söse waren wasserbauliche Veränderungen ohne große Bedeutung. Das Abfluß-Regime war insofern nicht mehr natürlich, als beide Bäche in das System der bergbaulichen Bewässerungsgräben des Oberharzes eingebunden sind. Die Söse hatte ein F-nivopluviales Abfluß-Regime, der abflußreichste Doppelmonat war der März / April, die Unregelmäßigkeit des Abfluß-Regimes war sehr hoch, die Vorhersagbarkeit sehr niedrig, die monatlichen Abfluß-Maxima wiesen eine sehr geringe Konstanz auf. Der Zeitraum der biologischen Probenahme wurde von überdurchschnittlich vielen Tagen mit mäßig erhöhten Abflüssen geprägt, sehr große Hochwasser-Wellen fehlten aber. Die Abfluß-Dynamik wurde statistisch beschrieben. Das hydraulische Regime wurde anhand der Meßgrößen Fließgeschwindigkeit, Fließkraft und FROUDE-Zahl dargestellt. Der Zusammenhang zwischen Abfluß und Fließgeschwindigkeit auf der einen Seite und der Korngrößen-Verteilung auf der anderen Seite wurde statistisch untersucht, ebenfalls zwischen dem Abfluß und dem Kohlenstoff- und Stickstoff-Gehalt der Feinstpartikel sowie dem Wasserchemismus. In den Phasen ohne Hochwasser hatte das Hyporheal die Funktion einer Senke für Feinstkörner. Das Bachbett der Alten Riefensbeek war stabiler als das der Großen Söse. Insgesamt gesehen war das hyporheische Sediment in den quellnahen Abschnitten grobkörniger und auf den quellfernen Strecken feinkörniger. Der prozentuale Anteil der Feinstkörner im Hyporheal und Benthal nahm aber im Längslauf der Bäche ab. Dies ist ungewöhnlich, konnte aber nicht plausibel mit geologischen und hydrologischen Meßgrößen erklärt werden. Beide Bäche waren sommerkalt. Der Einfluß der Wassertemperatur auf die Larvalentwicklung wurde beispielhaft an den Taxa Baetis spp. und Leuctra gr. inermis untersucht. Es gab eine Tendenz, daß der Kohlenstoff- und Stickstoff-Gehalt der Feinstpartikel vom Benthal in das Hyporheal anstieg. Dies war ein weiterer Hinweis darauf, daß das Hyporheal die Funktion einer Senke und Vorratskammer für Nährstoffe hat. Der Zusammenhang zwischen partikulärer und gelöster Kohlenstoff-Fraktion wurde diskutiert. Im Hyporheon war die Nitrifikation nicht stärker als in der fließenden Welle. Es gab Hinweise, daß die sauren pH-Werte in der Großen Söse die Nitrifikation hemmten. Die Valenzen der Moos- und Tier-Taxa bezüglich Fließgeschwindigkeit, pH-Wert, Alkalinität sowie der Gehalte von Sauerstoff, Calcium, Magnesium, Kalium und Natrium wurden zusammengestellt. Das hyporheische Sediment war sehr grob und hatte eine hohe Porosität. Der Austausch zwischen fließender Welle und hyporheischem Wasser konnte deshalb sehr schnell erfolgen, es gab keine intergranulare Sprungschicht, die physikalischen und chemischen Tiefengradienten waren in den meisten Fällen gar nicht ausgeprägt oder nur sehr flach. Die Wassertemperatur des Freiwassers unterschied sich nicht signifikant von derjenigen im hyporheischen Wasser. Es gab -- von wenigen Ausnahmen bei pH-Wert, Leitfähigkeit und Sauerstoffgehalt abgesehen -- keine signifikanten Unterschiede zwischen dem Wasserchemismus der fließenden Welle und dem des Hyporheals. Die physikalischen und chemischen Voraussetzungen für die Refugialfunktion des Hyporheons waren deshalb für versauerungsempfindliche Taxa nicht gegeben. In der Tiefenverteilung der untersuchten Tiergruppen im Hyporheal lag das Maximum der Abundanz bzw. Biomasse häufiger in 10 cm als in 30 cm Tiefe. Daraus läßt sich aber keine allgemeine Gesetzmäßigkeit ableiten. Es wurde durchgehend die Definition angewendet, daß die Gewässerversauerung durch den Verlust an Pufferkapazität charakterisiert ist. Saure Gewässer können, müssen aber nicht versauert sein; versauerte Gewässer können, müssen aber nicht saures Wasser haben. Maßstab für das Pufferungsvermögen eines Gewässers ist nicht der pH-Wert, sondern sind die Alkalinität und andere chemische Versauerungsparameter. Der pH-Wert war auch operativ nicht als Indikator für Gewässerversauerung anwendbar. Die chemische Qualität des Bachwassers der Großen Söse entsprach aufgrund der Versauerung nicht den umweltrechtlichen Vorgaben bezüglich der Parameter pH-Wert, Aluminium, Eisen und Mangan, bzgl. Zink galt dies nur an S1. In der Alten Riefensbeek genügte das Hyporheal-Wasser in 30 cm Tiefe an R2 bzgl. des Sauerstoff-Gehalts nicht den umweltrechtlichen Anforderungen. Nur im Freiwasser an R1 genügten die Ammonium-Werte den Vorgaben der EG-Fischgewässer-Richtlinie, der Grenzwert wurde an allen anderen Meßstellen und Entnahmetiefen überschritten. Das BSB-Regime in allen Entnahmetiefen an R2, im Freiwasser an R3 und S1, im Hyporheal an R1 sowie in 30 cm Tiefe an R3 genügte nicht den Anforderungen der Fischgewässer-Richtlinie. Der Grenzwert für Gesamt-Phosphor wurde an S3 überschritten. In der Großen Söse war der Aluminium-Gehalt so hoch, daß anorganisches und organisches Aluminium unterschieden werden konnten. Besonders hohe Gehalte an toxischem anorganischen Aluminium wurden an Tagen mit Spitzen-Abflüssen und Versauerungsschüben gemessen. Erst die Ermittlung verschiedener chemischer Versauerungsparameter zeigte, daß auch die alkalischen Probestellen R2 und R3 mindestens versauerungsempfindlich waren. Die Messung bzw. Berechnung von chemischen Versauerungsparametern sollte deshalb zum Routineprogramm bei der Untersuchung von Gewässerversauerung gehören. Zu Beginn des Untersuchungsprogramms war angenommen worden, daß die mittleren und unteren Abschnitte der Alten Riefensbeek unversauert sind. Dieser Ansatz des Untersuchungsprogramms, einen unversauerten Referenzbach (Alte Riefensbeek) mit einem versauerten Bach (Große Söse) zu vergleichen, mußte nach der Berechnung von chemischen Versauerungsindikatoren sowie der Analyse der Abundanz- und Biomasse-Werte modifiziert werden. Es gab einen Versauerungsgradienten entlang der Probestellen: R1 (unversauert) R2 und R3 (versauerungsempfindlich bis episodisch leicht versauert) S2 und S3 (dauerhaft versauert) S1 (dauerhaft stark versauert). An S1 war das Hydrogencarbonat-Puffersystem vollständig, an S2 und S3 zeitweise ausgefallen. Die Versauerungslage an R2 und R3 war also schlechter als vorausgesehen. Unterschiede im Versauerungsgrad zwischen den Meßstellen waren nicht so sehr in unterschiedlichen Eintragsraten von versauernden Stoffen aus der Luft begründet, sondern in unterschiedlichen Grundgesteinen mit unterschiedlichem Puffervermögen. Der Anteil der verschiedenen sauren Anionen an der Versauerung wurde untersucht, die chemischen Versauerungsmechanismen wurden mit Hilfe von Ionenbilanzen und verschiedenen Versauerungsquotienten analysiert. Die beiden untersuchten Bäche waren von anthropogener Versauerung betroffen. Dabei spielte die Schwefel-Deposition (Sulfat) eine größere Rolle als die Stickstoff-Deposition (Nitrat). Die Probestelle S1 war immer schon in unbekanntem Maß natürlich sauer. Dieser natürlich saure Zustand wurde von der hinzugekommenen anthropogenen Versauerung bei weitem überragt. Die wenigen gewässerökologischen Daten, die im Wassereinzugsgebiet der Söse vor 1986 gewonnen wurden, deuten darauf hin, daß die Versauerung in den 70er und in der ersten Hälfte der 80er Jahre vom Boden und Gestein in die Bäche durchgeschlagen war. Dieser Versauerungsprozeß begann vermutlich vor 1973 in den Quellen auf dem Acker-Bruchberg und bewegte sich im Laufe der Jahre immer weiter talwärts in Richtung Trinkwasser-Talsperre. Der Mangel an (historischen) freilandökologischen Grundlagendaten war nicht nur im Untersuchungsgebiet, sondern ist allgemein in der Versauerungsforschung ein Problem. Wenn sich das Vorkommen von nah verwandten Arten (weitgehend) ausschließt, kann dies an der Versauerung liegen, z.B. war die Alte Riefensbeek ein Gammarus-Bach, die Große Söse ein Niphargus-Bach; dieses muß aber nicht an der Versauerung liegen, z.B. fehlte Habroleptoides confusa im Hyporheos an R3, Habrophlebia lauta hatte dagegen ihr Abundanz- und Biomasse-Maximum an R3. Zugleich lag das Maximum des prozentualen Anteils von Grobsand an R3, eine mögliche Ursache für diese interspezifische Konkurrenz. Die biologische Indikation von Gewässerversauerung mit Hilfe der Säurezustandsklassen funktionierte nicht in den beiden Harzbächen. Es wurde deshalb ein biologischer Versauerungsindex vorgeschlagen; dieser wurde nicht am pH-Wert kalibriert, sondern an der chemischen Versauerungslage, gekennzeichnet durch die Alkalinität und andere chemische Meßgrößen der Versauerung. Dafür wurden aufgrund der qualitativen und quantitativen Daten die häufigeren Taxa in die vier Klassen deutlich versauerungsempfindlich, mäßig versauerungsempfindlich, mäßig versauerungstolerant und deutlich versauerungstolerant eingeteilt. Es reicht nicht aus, die biologischen Folgen von Gewässerversauerung sowie Veränderungen in der Nährstoff-Verfügbarkeit und im sonstigen Wasserchemismus nur anhand der Artenzahl oder des Artenspektrums abzuschätzen. Vielmehr müssen quantitative Methoden wie die Ermittlung der Abundanzen angewandt werden, um anthropogene und natürliche Störungen des Ökosystems zu erfassen. Es wurde eine Strategie für die behördliche Gewässergüteüberwachung von Bachoberläufen vorgeschlagen, die flächendeckend die Versauerungsgefährdung erfassen kann. Die Auswirkungen der zeitlichen Dynamik des Versauerungschemismus wurden am Beispiel des versauerungsempfindlichen Taxons Baetis spp. (Eintagsfliegen) dargestellt. An S2 und S3 kam es zu starken Versauerungsschüben. Baetis konnte sich nicht ganzjährig halten, sondern nur in versauerungsarmen Phasen im Sommer und im Herbst; es gab einen Besiedlungskreislauf aus Ausrottungs- und Wiederbesiedlungsphasen. Die temporäre Population von Baetis an S2 und S3 bestand nur aus ersten Larvenstadien. Die Probestellen wurden auf horizontalen Gradienten der Umweltfaktoren angeordnet. Bei einigen Parametern gab es keinen Gradienten (z.B. Sauerstoff-Gehalt), bei anderen Parametern waren die Meßstellen auf sehr flachen Gradienten angeordnet (z.B. C:N-Quotient der Feinstkörner), bei den restlichen Meßgrößen waren die Gradienten sehr deutlich (z.B. Alkalinität). Bei den Längsgradienten von Abundanz und Biomasse waren alle Möglichkeiten vertreten: Zunahme (z.B. Leuctra pseudosignifera), Abnahme (z.B. Gammarus pulex), Maximum an der mittleren Probestelle (z.B. Leuctra pseudocingulata) und kein signifikanter Trend (z.B. Nemoura spp.). Abundanz und Biomasse zahlreicher taxonomischer Einheiten hatten ihr Maximum im Längslauf an den quellnächsten Probestellen R1 und S1, z.B. Protonemura spp. und Plectrocnemia spp. Die Lebensgemeinschaften an R1 und S1 waren allerdings völlig unterschiedlich zusammengesetzt. Die häufig vertretene Annahme, versauerte Gewässer seien biologisch tot, ist falsch. Unter Anwendung des 3. biozönotischen Grundprinzips wurde das Maximum von Abundanz und Biomasse in den quellnahen Abschnitten mit dem eustatistischen (stabilen) Regime von Wassertemperatur, Abfluß und Protonen-Gehalt, in der Alten Riefensbeek auch von Alkalinität und ALMER-Relation erklärt. Aufgrund der natürlichen und anthropogenen Störungen war im Längslauf der untersuchten Bäche keine natürliche biozönotische Gliederung des Artenbestands erkennbar. Die Korrelationsberechnungen zwischen den Umweltfaktoren und der Taxazahl ergaben, daß in erster Linie versauerungsrelevante Parameter -- Gehalte saurer Anionen, basischer Kationen und von Metallen, Alkalinität usw. -- die höchsten Korrelationskoeffizienten mit der Taxa-Zahl hatten; unter den natürlichen Meßgrößen zählten nur die Gehalte von DOC und TIC sowie der Anteil der Sande zu der Gruppe mit den höchsten Korrelationskoeffizienten. Die Korrelationsberechnungen zwischen den Umweltfaktoren und den Abundanzen ergab dagegen, daß die quantitative Zusammensetzung der Lebensgemeinschaft nicht nur durch die anthropogene Gewässerversauerung, sondern mindestens genauso durch einige natürliche Meßgrößen beeinflußt wurde. Es gab in den Harzbächen keinen ökologischen Superfaktor, der die quantitative Zusammensetzung der Lebensgemeinschaft überwiegend bestimmte. Auch die Meßgrößen der anthropogenen Gewässerversauerung waren nicht solch ein Superfaktor. Einen ähnlich hohen Einfluß auf die quantitative Zusammensetzung der Lebensgemeinschaft hatten die geologisch bestimmten Umweltfaktoren Leitfähigkeit und TIC-Gehalt, der von der Landnutzung bestimmte DOC-Gehalt sowie der Chlorid-Gehalt, der geologisch, möglicherweise aber auch durch den Eintrag von Straßensalz bestimmt wird. Die Mischung von anthropogenen und natürlichen Faktoren wurde in einem Modell der Wirkung von abiotischen Faktoren auf Bryorheos und Hyporheos dargestellt. Als Beispiel für die zeitliche Nutzung ökologischer Nischen wurde die Verteilung der Larven und Adulten der Dryopidae (Hakenkäfer) im Hyporheos und Bryorheos untersucht. Die Larven wurden vorzugsweise im Hyporheon, die Adulten im Bryorheon angetroffen. Die untersuchten Taxa wurden in die Varianten bryorheobiont, bryorheophil, bryorheotolerant, bryorheoxen und bryorheophob bzw. hyporheobiont, hyporheophil, hyporheotolerant, hyporheoxen und hyporheophob eingeteilt, um ihre räumliche Nutzung ökologischer Nischen zu beschreiben. Die gängige Lehrmeinung, daß das Hyporheon die Kinderstube benthaler Makroinvertebraten ist, konnte für zahlreiche Taxa bestätigt werden (z.B. Habrophlebia lauta). Für die bryorheophilen Taxa (z.B. Gammarus pulex und Baetis spp.) trifft diese Lehrmeinung in den beiden Harzbächen nicht zu. Vielmehr übernimmt das Bryorheon die Funktion einer Kinderstube. Die Larven von Plectrocnemia conspersa / geniculata sowie von Baetis spp. und Amphinemura spp. / Protonemura spp. neben Gammarus pulex zeigten eine Habitatbindung, die erstgenannte Gattung an das Hyporheal, die letztgenannten 3 Taxa an untergetauchte Moospolster (Bryorheal). Die Idee von der Funktion des Hyporheals als Kinderstube der Larven und Jungtiere, als Schutzraum gegen die Verdriftung durch Strömung und vor Fraßdruck durch Räuber sowie als Ort hohen Nahrungsangebots mußte für die letztgenannten 3 Taxa abgelehnt werden. Für sie übernahm das Bryorheal diese Aufgaben. Zwar waren die beiden Bäche oligotroph und die Nahrungsqualität der Feinstkörner im Hyporheal war niedrig. Die Abundanz- und Biomasse-Werte im Bryorheos und Hyporheos gehörten aber zu den weltweit höchsten. Es wurde das Paradoxon diskutiert, daß im Hyporheon der beiden Bäche Diatomeen-Rasen gefunden wurden, obwohl das Hyporheon lichtlos sein soll. Das Hyporheon wurde als ein Ökoton zwischen Benthon / Rheon und Stygon angesehen. Es wurden vier Haupttypen des Hyporheons beschrieben. Wegen des sehr unterschiedlichen Charakters des Hyporheons in verschiedenen Fließgewässern gibt es keinen einheitlichen Satz von abiotischen und biotischen Faktoren, mit denen das Hyporheon vom Benthon und Stygon abgegrenzt werden kann. In den beiden Harzbächen ähnelte das Hyporheon mehr dem Benthon als dem Stygon. Es konnte nicht anhand der chemischen Meßgrößen vom Benthon abgegrenzt werden, sondern anhand der physikalischen Meßgrößen Trübung und der Anteile von Feinsand und Schluffe/Tone sowie anhand der biologischen Parameter Summen-Abundanz und Summen-Biomasse. Aus der Typologie des Hyporheons folgt, daß ein bestimmtes Hyporheon nicht alle in der Literatur beschriebenen Funktionen innerhalb der Fließgewässer-Aue übernehmen kann. Es wurde ein Schema entwickelt, mit dem sich die optimale Liste der Parameter für die Untersuchung eines bestimmten Hyporheons auswählen läßt. Der Tendenz in der Fließgewässer-Ökologie, immer neue Konzepte zu entwickeln, die allgemeingültig sein sollen, wurde das Konzept vom individuellen Charakter von Fließgewässer-Ökosystemen entgegengestellt.
Resumo:
While most data analysis and decision support tools use numerical aspects of the data, Conceptual Information Systems focus on their conceptual structure. This paper discusses how both approaches can be combined.
Resumo:
Die zunehmende Vernetzung der Informations- und Kommunikationssysteme führt zu einer weiteren Erhöhung der Komplexität und damit auch zu einer weiteren Zunahme von Sicherheitslücken. Klassische Schutzmechanismen wie Firewall-Systeme und Anti-Malware-Lösungen bieten schon lange keinen Schutz mehr vor Eindringversuchen in IT-Infrastrukturen. Als ein sehr wirkungsvolles Instrument zum Schutz gegenüber Cyber-Attacken haben sich hierbei die Intrusion Detection Systeme (IDS) etabliert. Solche Systeme sammeln und analysieren Informationen von Netzwerkkomponenten und Rechnern, um ungewöhnliches Verhalten und Sicherheitsverletzungen automatisiert festzustellen. Während signatur-basierte Ansätze nur bereits bekannte Angriffsmuster detektieren können, sind anomalie-basierte IDS auch in der Lage, neue bisher unbekannte Angriffe (Zero-Day-Attacks) frühzeitig zu erkennen. Das Kernproblem von Intrusion Detection Systeme besteht jedoch in der optimalen Verarbeitung der gewaltigen Netzdaten und der Entwicklung eines in Echtzeit arbeitenden adaptiven Erkennungsmodells. Um diese Herausforderungen lösen zu können, stellt diese Dissertation ein Framework bereit, das aus zwei Hauptteilen besteht. Der erste Teil, OptiFilter genannt, verwendet ein dynamisches "Queuing Concept", um die zahlreich anfallenden Netzdaten weiter zu verarbeiten, baut fortlaufend Netzverbindungen auf, und exportiert strukturierte Input-Daten für das IDS. Den zweiten Teil stellt ein adaptiver Klassifikator dar, der ein Klassifikator-Modell basierend auf "Enhanced Growing Hierarchical Self Organizing Map" (EGHSOM), ein Modell für Netzwerk Normalzustand (NNB) und ein "Update Model" umfasst. In dem OptiFilter werden Tcpdump und SNMP traps benutzt, um die Netzwerkpakete und Hostereignisse fortlaufend zu aggregieren. Diese aggregierten Netzwerkpackete und Hostereignisse werden weiter analysiert und in Verbindungsvektoren umgewandelt. Zur Verbesserung der Erkennungsrate des adaptiven Klassifikators wird das künstliche neuronale Netz GHSOM intensiv untersucht und wesentlich weiterentwickelt. In dieser Dissertation werden unterschiedliche Ansätze vorgeschlagen und diskutiert. So wird eine classification-confidence margin threshold definiert, um die unbekannten bösartigen Verbindungen aufzudecken, die Stabilität der Wachstumstopologie durch neuartige Ansätze für die Initialisierung der Gewichtvektoren und durch die Stärkung der Winner Neuronen erhöht, und ein selbst-adaptives Verfahren eingeführt, um das Modell ständig aktualisieren zu können. Darüber hinaus besteht die Hauptaufgabe des NNB-Modells in der weiteren Untersuchung der erkannten unbekannten Verbindungen von der EGHSOM und der Überprüfung, ob sie normal sind. Jedoch, ändern sich die Netzverkehrsdaten wegen des Concept drif Phänomens ständig, was in Echtzeit zur Erzeugung nicht stationärer Netzdaten führt. Dieses Phänomen wird von dem Update-Modell besser kontrolliert. Das EGHSOM-Modell kann die neuen Anomalien effektiv erkennen und das NNB-Model passt die Änderungen in Netzdaten optimal an. Bei den experimentellen Untersuchungen hat das Framework erfolgversprechende Ergebnisse gezeigt. Im ersten Experiment wurde das Framework in Offline-Betriebsmodus evaluiert. Der OptiFilter wurde mit offline-, synthetischen- und realistischen Daten ausgewertet. Der adaptive Klassifikator wurde mit dem 10-Fold Cross Validation Verfahren evaluiert, um dessen Genauigkeit abzuschätzen. Im zweiten Experiment wurde das Framework auf einer 1 bis 10 GB Netzwerkstrecke installiert und im Online-Betriebsmodus in Echtzeit ausgewertet. Der OptiFilter hat erfolgreich die gewaltige Menge von Netzdaten in die strukturierten Verbindungsvektoren umgewandelt und der adaptive Klassifikator hat sie präzise klassifiziert. Die Vergleichsstudie zwischen dem entwickelten Framework und anderen bekannten IDS-Ansätzen zeigt, dass der vorgeschlagene IDSFramework alle anderen Ansätze übertrifft. Dies lässt sich auf folgende Kernpunkte zurückführen: Bearbeitung der gesammelten Netzdaten, Erreichung der besten Performanz (wie die Gesamtgenauigkeit), Detektieren unbekannter Verbindungen und Entwicklung des in Echtzeit arbeitenden Erkennungsmodells von Eindringversuchen.
Resumo:
Modern methods of compositional data analysis are not well known in biomedical research. Moreover, there appear to be few mathematical and statistical researchers working on compositional biomedical problems. Like the earth and environmental sciences, biomedicine has many problems in which the relevant scienti c information is encoded in the relative abundance of key species or categories. I introduce three problems in cancer research in which analysis of compositions plays an important role. The problems involve 1) the classi cation of serum proteomic pro les for early detection of lung cancer, 2) inference of the relative amounts of di erent tissue types in a diagnostic tumor biopsy, and 3) the subcellular localization of the BRCA1 protein, and it's role in breast cancer patient prognosis. For each of these problems I outline a partial solution. However, none of these problems is \solved". I attempt to identify areas in which additional statistical development is needed with the hope of encouraging more compositional data analysts to become involved in biomedical research
Resumo:
As stated in Aitchison (1986), a proper study of relative variation in a compositional data set should be based on logratios, and dealing with logratios excludes dealing with zeros. Nevertheless, it is clear that zero observations might be present in real data sets, either because the corresponding part is completely absent –essential zeros– or because it is below detection limit –rounded zeros. Because the second kind of zeros is usually understood as “a trace too small to measure”, it seems reasonable to replace them by a suitable small value, and this has been the traditional approach. As stated, e.g. by Tauber (1999) and by Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000), the principal problem in compositional data analysis is related to rounded zeros. One should be careful to use a replacement strategy that does not seriously distort the general structure of the data. In particular, the covariance structure of the involved parts –and thus the metric properties– should be preserved, as otherwise further analysis on subpopulations could be misleading. Following this point of view, a non-parametric imputation method is introduced in Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2000). This method is analyzed in depth by Martín-Fernández, Barceló-Vidal, and Pawlowsky-Glahn (2003) where it is shown that the theoretical drawbacks of the additive zero replacement method proposed in Aitchison (1986) can be overcome using a new multiplicative approach on the non-zero parts of a composition. The new approach has reasonable properties from a compositional point of view. In particular, it is “natural” in the sense that it recovers the “true” composition if replacement values are identical to the missing values, and it is coherent with the basic operations on the simplex. This coherence implies that the covariance structure of subcompositions with no zeros is preserved. As a generalization of the multiplicative replacement, in the same paper a substitution method for missing values on compositional data sets is introduced
Resumo:
Hydrogeological research usually includes some statistical studies devised to elucidate mean background state, characterise relationships among different hydrochemical parameters, and show the influence of human activities. These goals are achieved either by means of a statistical approach or by mixing models between end-members. Compositional data analysis has proved to be effective with the first approach, but there is no commonly accepted solution to the end-member problem in a compositional framework. We present here a possible solution based on factor analysis of compositions illustrated with a case study. We find two factors on the compositional bi-plot fitting two non-centered orthogonal axes to the most representative variables. Each one of these axes defines a subcomposition, grouping those variables that lay nearest to it. With each subcomposition a log-contrast is computed and rewritten as an equilibrium equation. These two factors can be interpreted as the isometric log-ratio coordinates (ilr) of three hidden components, that can be plotted in a ternary diagram. These hidden components might be interpreted as end-members. We have analysed 14 molarities in 31 sampling stations all along the Llobregat River and its tributaries, with a monthly measure during two years. We have obtained a bi-plot with a 57% of explained total variance, from which we have extracted two factors: factor G, reflecting geological background enhanced by potash mining; and factor A, essentially controlled by urban and/or farming wastewater. Graphical representation of these two factors allows us to identify three extreme samples, corresponding to pristine waters, potash mining influence and urban sewage influence. To confirm this, we have available analysis of diffused and widespread point sources identified in the area: springs, potash mining lixiviates, sewage, and fertilisers. Each one of these sources shows a clear link with one of the extreme samples, except fertilisers due to the heterogeneity of their composition. This approach is a useful tool to distinguish end-members, and characterise them, an issue generally difficult to solve. It is worth note that the end-member composition cannot be fully estimated but only characterised through log-ratio relationships among components. Moreover, the influence of each endmember in a given sample must be evaluated in relative terms of the other samples. These limitations are intrinsic to the relative nature of compositional data
Resumo:
The statistical analysis of compositional data should be treated using logratios of parts, which are difficult to use correctly in standard statistical packages. For this reason a freeware package, named CoDaPack was created. This software implements most of the basic statistical methods suitable for compositional data. In this paper we describe the new version of the package that now is called CoDaPack3D. It is developed in Visual Basic for applications (associated with Excel©), Visual Basic and Open GL, and it is oriented towards users with a minimum knowledge of computers with the aim at being simple and easy to use. This new version includes new graphical output in 2D and 3D. These outputs could be zoomed and, in 3D, rotated. Also a customization menu is included and outputs could be saved in jpeg format. Also this new version includes an interactive help and all dialog windows have been improved in order to facilitate its use. To use CoDaPack one has to access Excel© and introduce the data in a standard spreadsheet. These should be organized as a matrix where Excel© rows correspond to the observations and columns to the parts. The user executes macros that return numerical or graphical results. There are two kinds of numerical results: new variables and descriptive statistics, and both appear on the same sheet. Graphical output appears in independent windows. In the present version there are 8 menus, with a total of 38 submenus which, after some dialogue, directly call the corresponding macro. The dialogues ask the user to input variables and further parameters needed, as well as where to put these results. The web site http://ima.udg.es/CoDaPack contains this freeware package and only Microsoft Excel© under Microsoft Windows© is required to run the software. Kew words: Compositional data Analysis, Software
Resumo:
In a seminal paper, Aitchison and Lauder (1985) introduced classical kernel density estimation techniques in the context of compositional data analysis. Indeed, they gave two options for the choice of the kernel to be used in the kernel estimator. One of these kernels is based on the use the alr transformation on the simplex SD jointly with the normal distribution on RD-1. However, these authors themselves recognized that this method has some deficiencies. A method for overcoming these dificulties based on recent developments for compositional data analysis and multivariate kernel estimation theory, combining the ilr transformation with the use of the normal density with a full bandwidth matrix, was recently proposed in Martín-Fernández, Chacón and Mateu- Figueras (2006). Here we present an extensive simulation study that compares both methods in practice, thus exploring the finite-sample behaviour of both estimators
Resumo:
The aim of this talk is to convince the reader that there are a lot of interesting statistical problems in presentday life science data analysis which seem ultimately connected with compositional statistics. Key words: SAGE, cDNA microarrays, (1D-)NMR, virus quasispecies
Resumo:
Pounamu (NZ jade), or nephrite, is a protected mineral in its natural form following the transfer of ownership back to Ngai Tahu under the Ngai Tahu (Pounamu Vesting) Act 1997. Any theft of nephrite is prosecutable under the Crimes Act 1961. Scientific evidence is essential in cases where origin is disputed. A robust method for discrimination of this material through the use of elemental analysis and compositional data analysis is required. Initial studies have characterised the variability within a given nephrite source. This has included investigation of both in situ outcrops and alluvial material. Methods for the discrimination of two geographically close nephrite sources are being developed. Key Words: forensic, jade, nephrite, laser ablation, inductively coupled plasma mass spectrometry, multivariate analysis, elemental analysis, compositional data analysis
Resumo:
Planners in public and private institutions would like coherent forecasts of the components of age-specic mortality, such as causes of death. This has been di cult to achieve because the relative values of the forecast components often fail to behave in a way that is coherent with historical experience. In addition, when the group forecasts are combined the result is often incompatible with an all-groups forecast. It has been shown that cause-specic mortality forecasts are pessimistic when compared with all-cause forecasts (Wilmoth, 1995). This paper abandons the conventional approach of using log mortality rates and forecasts the density of deaths in the life table. Since these values obey a unit sum constraint for both conventional single-decrement life tables (only one absorbing state) and multiple-decrement tables (more than one absorbing state), they are intrinsically relative rather than absolute values across decrements as well as ages. Using the methods of Compositional Data Analysis pioneered by Aitchison (1986), death densities are transformed into the real space so that the full range of multivariate statistics can be applied, then back-transformed to positive values so that the unit sum constraint is honoured. The structure of the best-known, single-decrement mortality-rate forecasting model, devised by Lee and Carter (1992), is expressed in compositional form and the results from the two models are compared. The compositional model is extended to a multiple-decrement form and used to forecast mortality by cause of death for Japan
Resumo:
The quantitative estimation of Sea Surface Temperatures from fossils assemblages is a fundamental issue in palaeoclimatic and paleooceanographic investigations. The Modern Analogue Technique, a widely adopted method based on direct comparison of fossil assemblages with modern coretop samples, was revised with the aim of conforming it to compositional data analysis. The new CODAMAT method was developed by adopting the Aitchison metric as distance measure. Modern coretop datasets are characterised by a large amount of zeros. The zero replacement was carried out by adopting a Bayesian approach to the zero replacement, based on a posterior estimation of the parameter of the multinomial distribution. The number of modern analogues from which reconstructing the SST was determined by means of a multiple approach by considering the Proxies correlation matrix, Standardized Residual Sum of Squares and Mean Squared Distance. This new CODAMAT method was applied to the planktonic foraminiferal assemblages of a core recovered in the Tyrrhenian Sea. Kew words: Modern analogues, Aitchison distance, Proxies correlation matrix, Standardized Residual Sum of Squares
Resumo:
Functional Data Analysis (FDA) deals with samples where a whole function is observed for each individual. A particular case of FDA is when the observed functions are density functions, that are also an example of infinite dimensional compositional data. In this work we compare several methods for dimensionality reduction for this particular type of data: functional principal components analysis (PCA) with or without a previous data transformation and multidimensional scaling (MDS) for diferent inter-densities distances, one of them taking into account the compositional nature of density functions. The difeerent methods are applied to both artificial and real data (households income distributions)