43 resultados para Extração semi-automática
em Lume - Repositório Digital da Universidade Federal do Rio Grande do Sul
Resumo:
Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames".
Resumo:
Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados.
Resumo:
Dados são disponibilizados através dos mais distintos meios e com os mais variados níveis de estruturação. Em um nível baixo de estruturação tem-se arquivos binários e no outro extremo tem-se bancos de dados com uma estrutura extremamente rígida. Entre estes dois extremos estão os dados semi-estruturados que possuem variados graus de estruturação com os quais não estão rigidamente comprometidos. Na categoria dos dados semiestruturados tem-se exemplos como o HTML, o XML e o SGML. O uso de informações contidas nas mais diversas fontes de dados que por sua vez possuem os mais diversos níveis de estruturação só será efetivo se esta informação puder ser manejada de uma forma integrada e através de algum tipo de esquema. O objetivo desta dissertação é fornecer um processo para construção de uma ontologia de domínio que haja como esquema representativo de diferentes conjuntos de informação. Estes conjuntos de informações podem variar de dados semi-estruturados a dados estruturados e devem referir-se a um mesmo domínio do conhecimento. Esta proposta permite que qualquer modelo que possa ser transformado no modelo comum de integração possa ser utilizado com entrada para o processo de integração. A ontologia de domínio resultante do processo de integração é um modelo semântico que representa o consenso obtido através da integração de diversas fontes de forma ascendente (bottom-up), binária, incremental, semi-automática e auto-documentável. Diz-se que o processo é ascendente porque integra o modelo que representa a fonte de interesse sobre a ontologia, é binário porque trabalha com dois esquemas a cada integração o que facilita o processo de documentação das integrações realizadas, é incremental porque cada novo esquema de interesse é integrado sobre a ontologia vigente naquele momento, é semiautomático porque considera a intervenção do usuário durante o processo e finalmente é autodocumentável porque durante o processo, toda integração de pares de conceitos semanticamente equivalentes é registrada. O fato de auto-documentar-se é a principal característica do processo proposto e seu principal diferencial com relação a outras propostas de integração. O processo de mapeamento utiliza, dos esquemas de entrada, toda a informação presente ou que possa ser inferida. Informações como se o conceito é léxico ou não, se é raiz e os símbolos que permitem deduzir cardinalidades são consideradas. No processo de integração são consideradas práticas consagradas de integração de esquemas de BDs, na identificação de relacionamentos entre objetos dos esquemas, para geração do esquema integrado e para resolução de conflitos. As principais contribuições desta dissertação são (i) a proposta de um metamodelo capaz de manter o resultado dos mapeamentos e das integrações realizadas e (ii) a especificação de um processo auto-documentável que de sustentação a auditoria do processo de integração.
Resumo:
Esta dissertação apresenta duas implementações de algoritmos para gerência dinâmica de memória em software, as quais foram desenvolvidas utilizando como alvo uma plataforma embarcada Java. Uma vez que a plataforma utilizada pertence a uma metodologia para geração semi-automática de hardware e software para sistemas embarcados, os dois algoritmos implementados foram projetados para serem integrados ao contexto desta mesma metodologia. Como forma de estabelecer comparações detalhadas entre as duas implementações desenvolvidas, foram realizadas diversas estimativas em desempenho, uso de memória, potência e energia para cada implementação, utilizando para isto duas versões existentes da plataforma adotada. Através da análise dos resultados obtidos, observou-se que um dos algoritmos desenvolvidos obteve um desempenho melhor para realização da gerência dinâmica da memória. Em contrapartida, o outro algoritmo possui características de projeto que possibilitam sua utilização com aplicações de tempo-real. De um modo geral, os custos adicionais resultantes da utilização do algoritmo de tempo-real, em relação ao outro algoritmo também implementado, são de aproximadamente 2% para a potência média dissipada, 16% para o número de ciclos executados, 18% para a energia consumida e 10% sobre a quantidade de total memória utilizada. Isto mostra que o custo extra necessário para utilização do algoritmo de tempo real é razoavelmente baixo se comparado aos benefícios proporcionados pela sua utilização. Como impactos finais produzidos por este trabalho, obteve-se um acréscimo de 35% sobre o número total de instruções suportadas pela arquitetura utilizada. Adicionalmente, 12% das instruções que já existiam no conjunto desta arquitetura foram modificadas para se adaptarem aos novos mecanismos implementados. Com isto, o conjunto atual da arquitetura passa a corresponder a 44% do total de instruções existentes na arquitetura da máquina virtual Java. Por último, além das estimativas desenvolvidas, foram também realizadas algumas sugestões para melhoria global dos algoritmos implementados. Em síntese, alguns pontos cobertos por estas sugestões incluem: a migração de elementos do processamento do escopo dinâmico para o estático, o desenvolvimento de mecanismos escaláveis para compactação de memória em tempo-real, a integração de escalonadores ao processo de gerência de memória e a extensão do processo de geração semi-automática de software e hardware para sistemas embarcados.
Resumo:
Com a crescente popularização dos microcomputadores e da rede mundial de informação, Internet, uma enorme variedade e quantidade de informações estão se tornando acessíveis a um número cada vez maior de pessoas. Desta forma, também cresce a importância de se extrair a informação útil que está no grande conjunto das informações disponibilizadas. Hoje há muito mais dados na forma de textos eletrônicos do que em tempos passados, mas muito disto é ignorado. Nenhuma pessoa pode ler, entender e sintetizar megabytes de texto no seu cotidiano. Informações perdidas, e conseqüentemente oportunidades perdidas, estimularam pesquisas na exploração de várias estratégias para a administração da informação, a fim de estabelecer uma ordem na imensidão de textos. As estratégias mais comuns são recuperação de informações, filtragem de informações e outra relativamente nova, chamada de extração de informações. A extração de informações tem muitas aplicações potenciais. Por exemplo, a informação disponível em textos não-estruturados pode ser armazenada em bancos de dados tradicionais e usuários podem examiná-las através de consultas padrão. Para isso, há um complexo trabalho de gerenciamento, que é conseqüência da natureza não estruturada e da difícil análise dos dados. Os dados de entrada, que são os textos semi ou não-estruturados, são manipulados por um processo de extração configurado através de bases de conhecimento criadas pelo usuário do sistema. Esta dissertação tem como objetivo a definição de uma linguagem, com base em uma arquitetura de múltiplos níveis, para extrair satisfatoriamente as informações desejadas pelo usuário, presentes em bases de dados textuais. Também faz parte deste trabalho a implementação de um protótipo que utiliza a linguagem proposta.
Resumo:
Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual.
Resumo:
Amostras de solo (latossolo vermelho destroférrico) coletadas em três pontos distintos, no município de Caibaté (Região das Missões, RS), na profundidade de aproximadamente 10 cm (da superfície do solo), em diferentes estações do ano e com diferentes tipos de manejo de solo (plantio convencional; plantio direto e cultivo mínimo), foram analisadas com o intuito de verificar a presença e a persistência de pesticidas no solo. Adicionalmente foi avaliada a relação entre a concentração dos produtos e tipo de manejo de solo aplicado. Este estudo é justificado por ser esta região de caráter tipicamente agrícola, com uso sistemático de pesticidas, tais como: monocrotofós, tiabendazole, triadimenol, lufenuron e imazetapir. Primeiramente foram estudadas as melhores condições de extração, considerando as técnicas mais comumente utilizadas, como o soxhlet, o banho e a sonda de ultra-som. As análises foram realizadas por Cromatografia Líquida de Alta Eficiência com Detector UV-visível (lufenuron e imazetapir) e Cromatografia Gasosa com Detector Seletivo de Massas (monocrotofós, tiabendazole e triadimenol), dependendo das características do analito em estudo. Os resultados mostram a presença de todos os pesticidas estudados, permitindo inferir que os mesmos persistem no solo. Além disto, os resultados indicam que não há uma uniformidade da extração dos analitos nas amostras dos solos, que foram extraídas com as técnicas de soxhlet, banho e sonda de ultra-som. Tais diferenças podem ser devido à heterogeneidade das amostras ou uma extração seletiva dos analitos. Quanto as influências do tipo de manejo das lavouras, não foi possível constatar a contribuição destas formas de plantio para a persistência de resíduos de pesticidas no solo.
Resumo:
Sistemas de visão artificial são cada vez mais usados para auxiliar seres humanos em diferentes tarefas. Estes sistemas são capazes de reconhecer padrões previamente ensinados em uma imagem complexa. A leitura automática é uma das mais atraentes tarefas nesta área [1], sendo que uma máquina com esta capacidade pode reconhecer objetos que possuam caracteres em sua identificação. Na área de trânsito, a identificação de veículos através da leitura de sua placa de licença vem conquistando cada vez mais espaço. No início dos anos cinqüenta, este conceito era usado para estudar o tempo de duração de viagens entre origem e destino. Os primeiros métodos utilizados eram baseados em observadores que anotavam as placas dos veículos e os tempos correspondentes em um papel ou fita gravada. As placas eram manualmente comparadas mais tarde, e os tempos de viagem calculados [2]. O crescente avanço tecnológico tem aumentado substancialmente a precisão e facilidade desta técnica permitindo sua utilização na identificação de veículos infratores e em situação irregular, e no controle de pedágios e estacionamentos pagos Este trabalho envolve o estudo de diversas técnicas de processamento e análise de imagem culminando no desenvolvimento de um sistema capaz de localizar e reconhecer os caracteres contidos numa placa de licença de um veículo. A imagem é previamente analisada por um algoritmo de procura por variações tonais padronizadas de maneira a restringir a área de análise do algoritmo principal do sistema. Este, por sua vez, binariza a imagem através de um algoritmo adaptativo e busca elementos que possuam dimensões próximas às dimensões esperadas dos caracteres da placa. O sistema busca encontrar uma seqüência de caracteres de dimensões aproximadamente iguais e para isso, varia um valor de limiar no processo de binarização conferindo maior robustez ao algoritmo. Uma vez encontrado um grupo de dígitos que satisfaçam alguns critérios prédefinidos, os caracteres são redimensionados e apresentados a duas redes neurais, uma para as letras e outra para os números.
Resumo:
Este trabalho é dedicado ao estudo e à aplicação da mineração de regras de associação a fim de descobrir padrões de navegação no ambiente Web. As regras de associação são padrões descritivos que representam a probabilidade de um conjunto de itens aparecer em uma transação visto que outro conjunto está presente. Dentre as possibilidades de aplicação da mineração de dados na Web, a mineração do seu uso consiste na extração de regras e padrões que descrevam o perfil dos visitantes aos sites e o seu comportamento navegacional. Neste contexto, alguns trabalhos já foram propostos, contudo diversos pontos foram deixados em aberto por seus autores. O objetivo principal deste trabalho é a apresentação de um modelo para a extração de regras de associação aplicado ao uso da Web. Este modelo, denominado Access Miner, caracteriza-se por enfocar as etapas do processo de descoberta do conhecimento desde a obtenção dos dados até a apresentação das regras obtidas ao analista. Características específicas do domínio foram consideradas, como a estrutura do site, para o pósprocessamento das regras mineradas a fim de selecionar as potencialmente mais interessantes e reduzir a quantidade de regras a serem apreciadas. O projeto possibilitou a implementação de uma ferramenta para a automação das diversas etapas do processo, sendo consideradas, na sua construção, as características de interatividade e iteratividade, necessárias para a descoberta e consolidação do conhecimento. Finalmente, alguns resultados foram obtidos a partir da aplicação desta ferramenta em dois casos, de forma que o modelo proposto pôde ser validado.
Resumo:
Este trabalho visa desenvolver um modelo físico e matemático geral para os processos de extração sólido-líquido em fluxos contracorrente cruzados (CCC) que são utilizados na indústria de alimentos. Levam-se em consideração os processos principais (o transporte de massa entre as fases, difusão e convecção) envolvidos por todo o campo de extração, com uma abordagem bidimensional evolutiva, incluindo as zonas de carregamento, drenagem e as bandejas acumuladoras. O modelo matemático é formado por equações diferenciais parciais que determinam a alteração das concentrações nas fases poro e “bulk” em todo o campo de extração e equações diferenciais ordinárias (que refletem as evoluções das concentrações médias nas bandejas). As condições de contorno estabelecem as ligações entre os fluxos CCC da micela e matéria-prima e consideram, também, a influência das zonas de drenagem e carregamento. O algoritmo de resolução utiliza o método de linhas que transforma as equações diferenciais parciais em equações diferenciais ordinárias, que são resolvidas pelo método de Runge-Kutta. Na etapa de validação do modelo foram estabelecidos os parâmetros da malha e o passo de integração, a verificação do código com a lei de conservação da espécie e um único estado estacionário. Também foram realizadas a comparação com os dados experimentais coletados no extrator real e com o método de estágios ideais, a análise da influência de propriedades da matéria-prima nas características principais do modelo, e estabelecidos os dados iniciais do regime básico (regime de operação) Foram realizadas pesquisas numéricas para determinar: os regimes estacionário e transiente, a variação da constante de equilíbrio entre as fases, a variação do número de seções, a alteração da vazão de matéria-prima nas características de um extrator industrial e, também foram realizadas as simulações comparativas para diferentes tipos de matéria-prima (flocos laminados e flocos expandidos) usados amplamente na indústria. Além dessas pesquisas, o modelo também permite simular diferentes tipos de solventes. O estudo da capacidade de produção do extrator revelou que é necessário ter cuidado com o aumento da vazão da matéria-prima, pois um pequeno aumento desta pode causar grandes perdas de óleo tornando alto o custo da produção. Mesmo que ainda seja necessário abastecer o modelo com mais dados experimentais, principalmente da matéria-prima, os resultados obtidos estão em concordância com os fenômenos físico-químicos envolvidos no processo, com a lei de conservação de espécies químicas e com os resultados experimentais.