909 resultados para Knowledge Discovery
Resumo:
The rapid emergence of infectious diseases calls for immediate attention to determine practical solutions for intervention strategies. To this end, it becomes necessary to obtain a holistic view of the complex hostpathogen interactome. Advances in omics and related technology have resulted in massive generation of data for the interacting systems at unprecedented levels of detail. Systems-level studies with the aid of mathematical tools contribute to a deeper understanding of biological systems, where intuitive reasoning alone does not suffice. In this review, we discuss different aspects of hostpathogen interactions (HPIs) and the available data resources and tools used to study them. We discuss in detail models of HPIs at various levels of abstraction, along with their applications and limitations. We also enlist a few case studies, which incorporate different modeling approaches, providing significant insights into disease. (c) 2013 Wiley Periodicals, Inc.
Resumo:
No presente trabalho foram utilizados modelos de classificação para minerar dados relacionados à aprendizagem de Matemática e ao perfil de professores do ensino fundamental. Mais especificamente, foram abordados os fatores referentes aos educadores do Estado do Rio de Janeiro que influenciam positivamente e negativamente no desempenho dos alunos do 9 ano do ensino básico nas provas de Matemática. Os dados utilizados para extrair estas informações são disponibilizados pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira que avalia o sistema educacional brasileiro em diversos níveis e modalidades de ensino, incluindo a Educação Básica, cuja avaliação, que foi foco deste estudo, é realizada pela Prova Brasil. A partir desta base, foi aplicado o processo de Descoberta de Conhecimento em Bancos de Dados (KDD - Knowledge Discovery in Databases), composto das etapas de preparação, mineração e pós-processamento dos dados. Os padrões foram extraídos dos modelos de classificação gerados pelas técnicas árvore de decisão, indução de regras e classificadores Bayesianos, cujos algoritmos estão implementados no software Weka (Waikato Environment for Knowledge Analysis). Além disso, foram aplicados métodos de grupos e uma metodologia para tornar as classes uniformemente distribuídas, afim de melhorar a precisão dos modelos obtidos. Os resultados apresentaram importantes fatores que contribuem para o ensino-aprendizagem de Matemática, assim como evidenciaram aspectos que comprometem negativamente o desempenho dos discentes. Por fim, os resultados extraídos fornecem ao educador e elaborador de políticas públicas fatores para uma análise que os auxiliem em posteriores tomadas de decisão.
Resumo:
Nos dias atuais, a maioria das operações feitas por empresas e organizações é armazenada em bancos de dados que podem ser explorados por pesquisadores com o objetivo de se obter informações úteis para auxílio da tomada de decisão. Devido ao grande volume envolvido, a extração e análise dos dados não é uma tarefa simples. O processo geral de conversão de dados brutos em informações úteis chama-se Descoberta de Conhecimento em Bancos de Dados (KDD - Knowledge Discovery in Databases). Uma das etapas deste processo é a Mineração de Dados (Data Mining), que consiste na aplicação de algoritmos e técnicas estatísticas para explorar informações contidas implicitamente em grandes bancos de dados. Muitas áreas utilizam o processo KDD para facilitar o reconhecimento de padrões ou modelos em suas bases de informações. Este trabalho apresenta uma aplicação prática do processo KDD utilizando a base de dados de alunos do 9 ano do ensino básico do Estado do Rio de Janeiro, disponibilizada no site do INEP, com o objetivo de descobrir padrões interessantes entre o perfil socioeconômico do aluno e seu desempenho obtido em Matemática na Prova Brasil 2011. Neste trabalho, utilizando-se da ferramenta chamada Weka (Waikato Environment for Knowledge Analysis), foi aplicada a tarefa de mineração de dados conhecida como associação, onde se extraiu regras por intermédio do algoritmo Apriori. Neste estudo foi possível descobrir, por exemplo, que alunos que já foram reprovados uma vez tendem a tirar uma nota inferior na prova de matemática, assim como alunos que nunca foram reprovados tiveram um melhor desempenho. Outros fatores, como a sua pretensão futura, a escolaridade dos pais, a preferência de matemática, o grupo étnico o qual o aluno pertence, se o aluno lê sites frequentemente, também influenciam positivamente ou negativamente no aprendizado do discente. Também foi feita uma análise de acordo com a infraestrutura da escola onde o aluno estuda e com isso, pôde-se afirmar que os padrões descobertos ocorrem independentemente se estes alunos estudam em escolas que possuem infraestrutura boa ou ruim. Os resultados obtidos podem ser utilizados para traçar perfis de estudantes que tem um melhor ou um pior desempenho em matemática e para a elaboração de políticas públicas na área de educação, voltadas ao ensino fundamental.
Resumo:
No presente trabalho foram desenvolvidos modelos de classificação aplicados à mineração de dados climáticos para a previsão de eventos extremos de precipitação com uma hora de antecedência. Mais especificamente, foram utilizados dados observacionais registrados pela estação meteorológica de superfície localizada no Instituto Politécnico da Universidade do Estado do Rio de Janeiro em Nova Friburgo RJ, durante o período de 2008 a 2012. A partir desses dados foi aplicado o processo de Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in Databases), composto das etapas de preparação, mineração e pós processamento dos dados. Com base no uso de algoritmos de Redes Neurais Artificiais e Árvores de Decisão para a extração de padrões que indicassem um acúmulo de precipitação maior que 10 mm na hora posterior à medição das variáveis climáticas, pôde-se notar que a utilização da observação meteorológica de micro escala para previsões de curto prazo é suscetível a altas taxas de alarmes falsos (falsos positivos). Para contornar este problema, foram utilizados dados históricos de previsões realizadas pelo Modelo Eta com resolução de 15 km, disponibilizados pelo Centro de Previsão de Tempo e Estudos Climáticos do Instituto Nacional de Pesquisas Espaciais CPTEC/INPE. De posse desses dados, foi possível calcular os índices de instabilidade relacionados à formação de situação convectiva severa na região de Nova Friburgo e então armazená-los de maneira estruturada em um banco de dados, realizando a união entre os registros de micro e meso escala. Os resultados demonstraram que a união entre as bases de dados foi de extrema importância para a redução dos índices de falsos positivos, sendo essa uma importante contribuição aos estudos meteorológicos realizados em estações meteorológicas de superfície. Por fim, o modelo com maior precisão foi utilizado para o desenvolvimento de um sistema de alertas em tempo real, que verifica, para a região estudada, a possibilidade de chuva maior que 10 mm na próxima hora.
Resumo:
Compared with construction data sources that are usually stored and analyzed in spreadsheets and single data tables, data sources with more complicated structures, such as text documents, site images, web pages, and project schedules have been less intensively studied due to additional challenges in data preparation, representation, and analysis. In this paper, our definition and vision for advanced data analysis addressing such challenges are presented, together with related research results from previous work, as well as our recent developments of data analysis on text-based, image-based, web-based, and network-based construction sources. It is shown in this paper that particular data preparation, representation, and analysis operations should be identified, and integrated with careful problem investigations and scientific validation measures in order to provide general frameworks in support of information search and knowledge discovery from such information-abundant data sources.
Resumo:
An effective face detection system used for detecting multi pose frontal face in gray images is presented. Image preprocessing approaches are applied to reduce the influence of the complex illumination. Eye-analog pairing and improved multiple related template matching are used to glancing and accurate face detecting, respectively. To shorten the time cost of detecting process, we employ prejudge rules in checking candidate image segments before template matching. Test by our own face database with complicated illumination and background, the system has high calculation speed and illumination independency, and obtains good experimental results.
Resumo:
Tianjin University of Technology
Resumo:
National Key Basic Research and Development Program of China [2006CB701305]; State Key Laboratory of Resource and Environment Information System [088RA400SA]; Chinese Academy of Sciences
Constructing a raster-based spatio-temporal hierarchical data model for marine risheries application
Resumo:
This study investigated the method of the focus identification in Chinese text discourse and the relationship between accent and focus, large corpus analysis and decision tree were used in the research. The main results are: 1. Based on the concept of the Focus and understanding of the discourse, Foci identification is consistent and steady; 2. Special Focus markers and specific Focus constructions have greater influence than special constituent order on identifying Focus in Chinese discourse; while information states also have great influence on focus identifying; part of speech,information state, the relative position in the sentence, focus-sensitive operator, specific Focus constructions, contrast relations, relations between the sentences are important factors to focus identifying; 3. Using multi-dimensional tagging and knowledge discovery, it is a feasible way to construct and employ decision trees by computing tagging results to identify Focus; 4. Focus predicting also depends on literal types and styles of the discourse, several types of decision trees should be constructed for different literal types; 5. In the monologue discourse, the most prominent accent is located on the Focus word or in the scope of the Focus; there are some kinds of rules on accent assignment in broad Focus; it is necessary to analyze and classify focus structure for the research of relations between accent and Focus.
Resumo:
O Sistema de Indução C4.5. Requerimentos-chave para a utilização do software. Um exemplo ilustrativo. Algumas dicas de uso.
Resumo:
King, R. D. and Ouali, M. (2004) Poly-transformation. In proceedings of 5th International Conference on Intelligent Data Engineering and Automated Learning (IDEAL 2004). Springer LNCS 3177 p99-107
Resumo:
Enot, D. and King, R. D. (2003) Application of Inductive Logic Programming to Structure-Based Drug Design. 7th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD '03). Springer LNAI 2838 p156-167
Resumo:
M. Galea, Q. Shen and J. Levine. Evolutionary approaches to fuzzy modelling. Knowledge Engineering Review, 19(1):27-59, 2004.