15 resultados para data pre-processing

em Universitätsbibliothek Kassel, Universität Kassel, Germany


Relevância:

80.00% 80.00%

Publicador:

Resumo:

Der Europäische Markt für ökologische Lebensmittel ist seit den 1990er Jahren stark gewachsen. Begünstigt wurde dies durch die Einführung der EU-Richtlinie 2092/91 zur Zertifizierung ökologischer Produkte und durch die Zahlung von Subventionen an umstellungswillige Landwirte. Diese Maßnahmen führten am Ende der 1990er Jahre für einige ökologische Produkte zu einem Überangebot auf europäischer Ebene. Die Verbrauchernachfrage stieg nicht in gleichem Maße wie das Angebot, und die Notwendigkeit für eine Verbesserung des Marktgleichgewichts wurde offensichtlich. Dieser Bedarf wurde im Jahr 2004 von der Europäischen Kommission im ersten „Europäischen Aktionsplan für ökologisch erzeugte Lebensmittel und den ökologischen Landbau“ formuliert. Als Voraussetzung für ein gleichmäßigeres Marktwachstum wird in diesem Aktionsplan die Schaffung eines transparenteren Marktes durch die Erhebung statistischer Daten über Produktion und Verbrauch ökologischer Produkte gefordert. Die Umsetzung dieses Aktionsplans ist jedoch bislang nicht befriedigend, da es auf EU-Ebene noch immer keine einheitliche Datenerfassung für den Öko-Sektor gibt. Ziel dieser Studie ist es, angemessene Methoden für die Erhebung, Verarbeitung und Analyse von Öko-Marktdaten zu finden. Geeignete Datenquellen werden identifiziert und es wird untersucht, wie die erhobenen Daten auf Plausibilität untersucht werden können. Hierzu wird ein umfangreicher Datensatz zum Öko-Markt analysiert, der im Rahmen des EU-Forschungsprojektes „Organic Marketing Initiatives and Rural Development” (OMIaRD) erhoben wurde und alle EU-15-Länder sowie Tschechien, Slowenien, Norwegen und die Schweiz abdeckt. Daten für folgende Öko-Produktgruppen werden untersucht: Getreide, Kartoffeln, Gemüse, Obst, Milch, Rindfleisch, Schaf- und Ziegenfleisch, Schweinefleisch, Geflügelfleisch und Eier. Ein zentraler Ansatz dieser Studie ist das Aufstellen von Öko-Versorgungsbilanzen, die einen zusammenfassenden Überblick von Angebot und Nachfrage der jeweiligen Produktgruppen liefern. Folgende Schlüsselvariablen werden untersucht: Öko-Produktion, Öko-Verkäufe, Öko-Verbrauch, Öko-Außenhandel, Öko-Erzeugerpreise und Öko-Verbraucherpreise. Zudem werden die Öko-Marktdaten in Relation zu den entsprechenden Zahlen für den Gesamtmarkt (öko plus konventionell) gesetzt, um die Bedeutung des Öko-Sektors auf Produkt- und Länderebene beurteilen zu können. Für die Datenerhebung werden Primär- und Sekundärforschung eingesetzt. Als Sekundärquellen werden Publikationen von Marktforschungsinstituten, Öko-Erzeugerverbänden und wissenschaftlichen Instituten ausgewertet. Empirische Daten zum Öko-Markt werden im Rahmen von umfangreichen Interviews mit Marktexperten in allen beteiligten Ländern erhoben. Die Daten werden mit Korrelations- und Regressionsanalysen untersucht, und es werden Hypothesen über vermutete Zusammenhänge zwischen Schlüsselvariablen des Öko-Marktes getestet. Die Datenbasis dieser Studie bezieht sich auf ein einzelnes Jahr und stellt damit einen Schnappschuss der Öko-Marktsituation der EU dar. Um die Marktakteure in die Lage zu versetzen, zukünftige Markttrends voraussagen zu können, wird der Aufbau eines EU-weiten Öko-Marktdaten-Erfassungssystems gefordert. Hierzu wird eine harmonisierte Datenerfassung in allen EU-Ländern gemäß einheitlicher Standards benötigt. Die Zusammenstellung der Marktdaten für den Öko-Sektor sollte kompatibel sein mit den Methoden und Variablen der bereits existierenden Eurostat-Datenbank für den gesamten Agrarmarkt (öko plus konventionell). Eine jährlich aktualisierte Öko-Markt-Datenbank würde die Transparenz des Öko-Marktes erhöhen und die zukünftige Entwicklung des Öko-Sektors erleichtern. ---------------------------

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Analysis by reduction is a linguistically motivated method for checking correctness of a sentence. It can be modelled by restarting automata. In this paper we propose a method for learning restarting automata which are strictly locally testable (SLT-R-automata). The method is based on the concept of identification in the limit from positive examples only. Also we characterize the class of languages accepted by SLT-R-automata with respect to the Chomsky hierarchy.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Data mining means to summarize information from large amounts of raw data. It is one of the key technologies in many areas of economy, science, administration and the internet. In this report we introduce an approach for utilizing evolutionary algorithms to breed fuzzy classifier systems. This approach was exercised as part of a structured procedure by the students Achler, Göb and Voigtmann as contribution to the 2006 Data-Mining-Cup contest, yielding encouragingly positive results.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Drei Feldversuche auf zwei Standorten (DFH: 51°4, 9°4’, BEL: 52°2’, 8°08’) wurden in den Jahren 2002 bis 2004 durchgeführt, um den Einfluss der Vorfrucht, des Vorkeimens, der N- und K-Düngung und der Sorte auf Nährstoffverfügbarkeit, Gesamt- und sortierte Knollenerträge sowie die Qualität von Kartoffeln und deren Eignung für die industrielle Verarbeitung zu Pommes frites und Chips zu untersuchen. Bestimmt wurden die N- und K-Verfügbarkeit im Boden, die N- und K-Aufnahme von Kraut und Knollen, gesamte Frisch- und Trockenmasseerträge, sortierte Frischmasseerträge für die Verarbeitung, sowie die Gehalte der Knollen an Trockensubstanz und reduzierenden Zuckern. In einer sensorischen Prüfung wurden Qualitätsparameter von Pommes frites (Aussehen/Farbe, Textur und Geschmack/Geruch) bewertet, die gewichtet in einen Qualitätsindex eingingen. Die Qualität der Chips wurde maschinell durch den L-Wert (Helligkeit) des Produktes quantifiziert. Der Gehalt des Bodens an mineralisiertem Nitrat-Stickstoff hing von der Vorfrucht und dem Jahr ab. Nach Erbsen wurden zum Auflaufen der Kartoffeln in den Versuchsjahren 2003 und 2004 (187 und 132 kg NO3-N ha-1) die höchsten NO3-N-Werte in 0-60 cm Boden gemessen verglichen mit Kleegras (169 bzw. 108 kg NO3-N ha-1 oder Getreide (112 kg bzw. 97 kg NO3-N ha-1), obgleich die Differenz nicht in allen Fällen signifikant war. Entsprechend wurden nach Erbsen die höchsten Knollen-Frischmasseerträge (414 und 308 dt ha-1) geerntet. Dasselbe galt für die Trockenmasserträge, was belegt, dass der Trockensubstanzgehalt der Knollen bei verbesserter N-Versorgung nicht im selben Maße sinkt, wie der Frischmasseertrag steigt. Das Vorkeimen der Pflanzknollen führte zu einer rascheren phänologischen Entwicklung im Jugendstadium der Pflanze, beschleunigter Trockenmassebildung des Krautes und einer früheren Einlagerung von Assimilaten vom Kraut in die Knollen. Obwohl die positive Wirkung des Vorkeimens auf den Gesamtertrag bis Ende Juli (+ 26 in 2003 bzw. 34 dt ha-1 in 2004) im Jahr ohne Krautfäuleepidemie von den nicht vorgekeimten Varianten bis zur Endernte im September kompensiert wurde, konnte in diesem Jahr durch Vorkeimen dennoch ein erhöhter Ertragsanteil (+ 12%) der besonders nachgefragten Übergrößen (>50 mm für Pommes frites) erzielt werden. Die durchschnittliche Knollenmasse reagierte positiv auf Vorkeimen (+ 5,4 g), Sortenwahl (Sorte Agria) und ein erhöhtes N-Angebot (Leguminosenvorfrucht). Generell wurde deutlich, dass die Knollengesamterträge unter den Bedingungen des Ökologischen Landbaus (geringe bis mittlere Nährstoffversorgung, verkürzte Vegetationsdauer) sehr stark vom Anbaujahr abhängen. Die Ergebnisse belegen jedoch, dass organisch-mineralische N-K-Düngung den sortierten Ertrag an Knollen für die Verarbeitung signifikant erhöht: Höchste Gesamt- und sortierte Knollenfrischmasseerträge wurden nach kombinierter N (Horngrieß) und mineralischer K- (Kaliumsulfat) Gabe erzielt (348 dt ha-1 im Durchschnitt von 2002-2004). Im Gegensatz dazu kann eine Wirkung von Stallmist auf den Ertrag im Jahr der Ausbringung nicht unbedingt erwartet werden. Steigende Erträge nach Stallmistdüngung wurden lediglich in einem von drei Versuchsjahren (+58 dt ha-1) festgestellt und ließen sich eher auf eine K- als eine N-Wirkung zurückführen. Die Ergebnisse belegen, dass die Sortenwahl eine entscheidende Rolle spielt, wenn die Kartoffeln für die industrielle Verarbeitung zu den oben genannten Produkten angebaut werden. Insgesamt kann festgestellt werden, dass Kartoffelknollen aus ökologischen Anbauverfahren ausreichend hohe Trockensubstanzgehalte aufweisen, um für die Verarbeitung zu Pommes frites (>19%) geeignet zu sein und ohne dass dadurch die Konsistenz des Endproduktes gefährdet würde. Der Trockensubstanzgehalt der Referenzsorte für Chips, „Marlen“, unterschritt das in der Literatur geforderte Minimum für Chips von 23% lediglich, wenn die kombinierte Horngrieß-Kaliumsulfatdüngung zur Anwendung kam. Die Trockensubstanzgehalte der Knollen konnten durch Vorkeimen signifikant gesteigert werden und der Effekt war besonders groß (+1.2% absolut) in dem Jahr mit frühem Auftreten der Krautfäule (Phytophthora infestans), d.h. verkürzter Vegetationszeit. Die Knollen-Trockensubstanzgehalte waren in zwei von drei Experimenten nach Lagerung höher (+0.4 und 0.5% absolut) als noch zur Ernte. Sorten der sehr frühen und frühen Reifegruppe wiesen den größten relativen Anstieg der Gehalte an reduzierenden Zuckern (Glukose und Fruktose) während der Lagerung auf. Den mittelfrühen Sorten „Agria“ und „Marena“ hingegen kann aufgrund des von ihnen erreichten höchsten Qualitätsstandards (Pommes frites) zur Ernte eine sehr gute Eignung für die Bedingungen des Ökologischen Landbaus unterstellt werden. Die durchgehend beste Chipseignung wies die mittelfrühe Referenzsorte „Marlen“ auf. Insgesamt konnte nachgewiesen werden, dass durch gezielte Sortenwahl der Trockensubstanzgehalt und die Konzentration reduzierender Zucker, sowie die Qualität der Endprodukte (Pommes frites und Chips) gezielt beeinflusst werden kann. Im Gegensatz dazu haben acker- und pflanzenbauliche Maßnahmen wie Düngung, Wahl der Vorfrucht und Vorkeimen der Pflanzknollen einen eher geringen Einfluss. Dementsprechend sollte der Landwirt versuchen, durch die Wahl der Sorte den hohen Anforderungen der Industrie an die Rohware gerecht zu werden.

Relevância:

30.00% 30.00%

Publicador:

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A conceptual information system consists of a database together with conceptual hierarchies. The management system TOSCANA visualizes arbitrary combinations of conceptual hierarchies by nested line diagrams and allows an on-line interaction with a database to analyze data conceptually. The paper describes the conception of conceptual information systems and discusses the use of their visualization techniques for on-line analytical processing (OLAP).

Relevância:

30.00% 30.00%

Publicador:

Resumo:

While most data analysis and decision support tools use numerical aspects of the data, Conceptual Information Systems focus on their conceptual structure. This paper discusses how both approaches can be combined.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

We present a new algorithm called TITANIC for computing concept lattices. It is based on data mining techniques for computing frequent itemsets. The algorithm is experimentally evaluated and compared with B. Ganter's Next-Closure algorithm.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

In this paper, we discuss Conceptual Knowledge Discovery in Databases (CKDD) in its connection with Data Analysis. Our approach is based on Formal Concept Analysis, a mathematical theory which has been developed and proven useful during the last 20 years. Formal Concept Analysis has led to a theory of conceptual information systems which has been applied by using the management system TOSCANA in a wide range of domains. In this paper, we use such an application in database marketing to demonstrate how methods and procedures of CKDD can be applied in Data Analysis. In particular, we show the interplay and integration of data mining and data analysis techniques based on Formal Concept Analysis. The main concern of this paper is to explain how the transition from data to knowledge can be supported by a TOSCANA system. To clarify the transition steps we discuss their correspondence to the five levels of knowledge representation established by R. Brachman and to the steps of empirically grounded theory building proposed by A. Strauss and J. Corbin.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Formal Concept Analysis is an unsupervised learning technique for conceptual clustering. We introduce the notion of iceberg concept lattices and show their use in Knowledge Discovery in Databases (KDD). Iceberg lattices are designed for analyzing very large databases. In particular they serve as a condensed representation of frequent patterns as known from association rule mining. In order to show the interplay between Formal Concept Analysis and association rule mining, we discuss the algorithm TITANIC. We show that iceberg concept lattices are a starting point for computing condensed sets of association rules without loss of information, and are a visualization method for the resulting rules.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Among many other knowledge representations formalisms, Ontologies and Formal Concept Analysis (FCA) aim at modeling ‘concepts’. We discuss how these two formalisms may complement another from an application point of view. In particular, we will see how FCA can be used to support Ontology Engineering, and how ontologies can be exploited in FCA applications. The interplay of FCA and ontologies is studied along the life cycle of an ontology: (i) FCA can support the building of the ontology as a learning technique. (ii) The established ontology can be analyzed and navigated by using techniques of FCA. (iii) Last but not least, the ontology may be used to improve an FCA application.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

About ten years ago, triadic contexts were presented by Lehmann and Wille as an extension of Formal Concept Analysis. However, they have rarely been used up to now, which may be due to the rather complex structure of the resulting diagrams. In this paper, we go one step back and discuss how traditional line diagrams of standard (dyadic) concept lattices can be used for exploring and navigating triadic data. Our approach is inspired by the slice & dice paradigm of On-Line-Analytical Processing (OLAP). We recall the basic ideas of OLAP, and show how they may be transferred to triadic contexts. For modeling the navigation patterns a user might follow, we use the formalisms of finite state machines. In order to present the benefits of our model, we show how it can be used for navigating the IT Baseline Protection Manual of the German Federal Office for Information Security.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Die zunehmende Vernetzung der Informations- und Kommunikationssysteme führt zu einer weiteren Erhöhung der Komplexität und damit auch zu einer weiteren Zunahme von Sicherheitslücken. Klassische Schutzmechanismen wie Firewall-Systeme und Anti-Malware-Lösungen bieten schon lange keinen Schutz mehr vor Eindringversuchen in IT-Infrastrukturen. Als ein sehr wirkungsvolles Instrument zum Schutz gegenüber Cyber-Attacken haben sich hierbei die Intrusion Detection Systeme (IDS) etabliert. Solche Systeme sammeln und analysieren Informationen von Netzwerkkomponenten und Rechnern, um ungewöhnliches Verhalten und Sicherheitsverletzungen automatisiert festzustellen. Während signatur-basierte Ansätze nur bereits bekannte Angriffsmuster detektieren können, sind anomalie-basierte IDS auch in der Lage, neue bisher unbekannte Angriffe (Zero-Day-Attacks) frühzeitig zu erkennen. Das Kernproblem von Intrusion Detection Systeme besteht jedoch in der optimalen Verarbeitung der gewaltigen Netzdaten und der Entwicklung eines in Echtzeit arbeitenden adaptiven Erkennungsmodells. Um diese Herausforderungen lösen zu können, stellt diese Dissertation ein Framework bereit, das aus zwei Hauptteilen besteht. Der erste Teil, OptiFilter genannt, verwendet ein dynamisches "Queuing Concept", um die zahlreich anfallenden Netzdaten weiter zu verarbeiten, baut fortlaufend Netzverbindungen auf, und exportiert strukturierte Input-Daten für das IDS. Den zweiten Teil stellt ein adaptiver Klassifikator dar, der ein Klassifikator-Modell basierend auf "Enhanced Growing Hierarchical Self Organizing Map" (EGHSOM), ein Modell für Netzwerk Normalzustand (NNB) und ein "Update Model" umfasst. In dem OptiFilter werden Tcpdump und SNMP traps benutzt, um die Netzwerkpakete und Hostereignisse fortlaufend zu aggregieren. Diese aggregierten Netzwerkpackete und Hostereignisse werden weiter analysiert und in Verbindungsvektoren umgewandelt. Zur Verbesserung der Erkennungsrate des adaptiven Klassifikators wird das künstliche neuronale Netz GHSOM intensiv untersucht und wesentlich weiterentwickelt. In dieser Dissertation werden unterschiedliche Ansätze vorgeschlagen und diskutiert. So wird eine classification-confidence margin threshold definiert, um die unbekannten bösartigen Verbindungen aufzudecken, die Stabilität der Wachstumstopologie durch neuartige Ansätze für die Initialisierung der Gewichtvektoren und durch die Stärkung der Winner Neuronen erhöht, und ein selbst-adaptives Verfahren eingeführt, um das Modell ständig aktualisieren zu können. Darüber hinaus besteht die Hauptaufgabe des NNB-Modells in der weiteren Untersuchung der erkannten unbekannten Verbindungen von der EGHSOM und der Überprüfung, ob sie normal sind. Jedoch, ändern sich die Netzverkehrsdaten wegen des Concept drif Phänomens ständig, was in Echtzeit zur Erzeugung nicht stationärer Netzdaten führt. Dieses Phänomen wird von dem Update-Modell besser kontrolliert. Das EGHSOM-Modell kann die neuen Anomalien effektiv erkennen und das NNB-Model passt die Änderungen in Netzdaten optimal an. Bei den experimentellen Untersuchungen hat das Framework erfolgversprechende Ergebnisse gezeigt. Im ersten Experiment wurde das Framework in Offline-Betriebsmodus evaluiert. Der OptiFilter wurde mit offline-, synthetischen- und realistischen Daten ausgewertet. Der adaptive Klassifikator wurde mit dem 10-Fold Cross Validation Verfahren evaluiert, um dessen Genauigkeit abzuschätzen. Im zweiten Experiment wurde das Framework auf einer 1 bis 10 GB Netzwerkstrecke installiert und im Online-Betriebsmodus in Echtzeit ausgewertet. Der OptiFilter hat erfolgreich die gewaltige Menge von Netzdaten in die strukturierten Verbindungsvektoren umgewandelt und der adaptive Klassifikator hat sie präzise klassifiziert. Die Vergleichsstudie zwischen dem entwickelten Framework und anderen bekannten IDS-Ansätzen zeigt, dass der vorgeschlagene IDSFramework alle anderen Ansätze übertrifft. Dies lässt sich auf folgende Kernpunkte zurückführen: Bearbeitung der gesammelten Netzdaten, Erreichung der besten Performanz (wie die Gesamtgenauigkeit), Detektieren unbekannter Verbindungen und Entwicklung des in Echtzeit arbeitenden Erkennungsmodells von Eindringversuchen.