101 resultados para Informacao


Relevância:

10.00% 10.00%

Publicador:

Resumo:

A World Wide Web em poucos anos de existência se tornou uma importante e essencial fonte de informação e a localização e recuperação de informações na Internet passou a ser um grande problema a ser resolvido. Isto porque a falta de padronização e estrutura adequada para representação dos dados, que é resultado da liberdade de criação e manipulação dos documentos, compromete a eficácia dos modelos de recuperação de informação tradicionais. Muitos modelos foram então desenvolvidos para melhorar o desempenho dos sistemas de recuperação de informação. Com o passar dos anos surge assim uma nova área de pesquisa a extração de dados da web que, ao contrário dos sistemas de recuperação, extrai informações dos documentos relevantes e não documentos relevantes de conjunto de documentos. Tais estudos viabilizaram a integração de informações de documentos distribuídos e heterogêneos, que foram baseados nos mesmos modelos aplicados a banco de dados distribuídos. Neste trabalho é apresentado um estudo que tem como objetivo materializar informações contidas em documentos HTML de modo que se possa melhorar o desempenho das consultas em relação ao tempo de execução quanto à qualidade dos resultados obtidos. Para isso são estudados o ambiente web e as características dos dados contidos neste ambiente, como por exemplo, a distribuição e a heterogeneidade, aspectos relacionados à maneira pela qual as informações estão disponibilizadas e como estas podem ser recuperadas e extraídas através de regras sintáticas. Finalizando o estudo são apresentados vários tipos de classificação para os modelos de integração de dados e é monstrado em detalhes um estudo de caso, que tem como objetivo demonstrar a aplicação das técnicas apresentadas ao longo desta pesquisa.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

As particularidades encontradas na modelagem de bancos de dados geográficos tornam necessário o desenvolvimento de modelos específicos. A totalidade dos modelos desenvolvidos oferece recursos para a modelagem de aspectos estáticos. Alguns dos modelos apresentam soluções parciais para a modelagem de aspectos dinâmicos. A possibilidade de executar processos de análise geográfica, que alteram o estado dos componentes do banco de dados geográficos é, de forma geral, a maior motivação para justificar os investimentos necessários para a sua construção. A formalização desses processos em um modelo conceitual, na fase de projeto, torna desnecessário o uso da terminologia específica que cada software de SIG emprega. A solução desenvolvida estende um framework conceitual (GeoFrame) com uma semântica que suporta a expressão de processos de análise geográfica, mantendo compatibilidade com a linguagem UML. Para utilizar de forma adequada os recursos do framework, uma metodologia para a elaboração do modelo do usuário é indicada. Nessa metodologia, os processos são identificados a partir da elaboração de diagramas de casos de uso e atividades, incorporados no diagrama de classes e detalhados através de diagramas de atividades contendo ações. Um levantamento sobre operações utilizadas em processos de análise geográfica abrangendo a visão conceitual, lógica e de implementação de vários autores levou à construção de um catálogo de operações geográficas. Essas operações foram modeladas utilizando os elementos de modelagem de comportamento da especificação da UML, versão 2.0. O conjunto de recursos oferecidos nesse trabalho proporciona ao projetista de bancos de dados geográficos o desenvolvimento de uma especificação em alto nível e abrangente, utilizando a linguagem UML, reconhecida como padrão em modelagem de sistemas.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A presente tese visa contribuir na construção de ambientes de desenvolvimento de software através da proposição de uma arquitetura reflexiva para ambiente de suporte a processo, nomeada WRAPPER (Webbased Reflective Architecture for Process suPport EnviRonment). O objetivo desta arquitetura é prover uma infra-estrutura para um ambiente de suporte a processo de software, integrando tecnologias da World Wide Web, objetos distribuídos e reflexão computacional. A motivação principal para esta arquitetura vem da necessidade de se obter maior flexibilidade na gerência de processo de software. Esta flexibilidade é obtida através do uso de objetos reflexivos que permitem a um gerente de processo obter informações e também alterar o processo de software de forma dinâmica. Para se obter um ambiente integrado, a arquitetura provê facilidades para a agregação de ferramentas CASE de plataformas e fabricantes diversos, mesmo disponibilizadas em locais remotos. A integração de ferramentas heterogêneas e distribuídas é obtida através do uso de tecnologias Web e de objetos distribuídos. Reflexão computacional é usada no ambiente tanto para extrair dados da execução do processo, quanto para permitir a adaptação do mesmo. Isto é feito através da introdução e controle de meta-objetos, no metanível da arquitetura, que podem monitorar e mesmo alterar os objetos do nível base. Como resultado, a arquitetura provê as seguintes características: flexibilidade na gerência de processo, permitindo o controle e adaptação do processo; distribuição do ambiente na Web, permitindo a distribuição de tarefas do processo de software e a integração de ferramentas em locais remotos; e heterogeneidade para agregar componentes ao ambiente, permitindo o uso de ferramentas de plataformas e fornecedores diversos. Neste contexto, o presente trabalho apresenta a estrutura da arquitetura reflexiva, bem como os mecanismos usados (e suas interações) para a modelagem e execução de processo dentro do ambiente de suporte ao processo de software.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Existem vários trabalhos na área de extração de dados semi-estruturados, usando diferentes técnicas. As soluções de extração disponibilizadas pelos trabalhos existentes são direcionadas para atenderem a dados de certos domínios, considerando-se domínio o conjunto de elementos pertencentes à mesma área de interesse. Dada a complexidade e a grande quantidade dos dados semi-estruturados, principalmente dos disponíveis na World Wide Web (WWW), é que existem ainda muitos domínios a serem explorados. A maior parte das informações disponíveis em sites da Web está em páginas HTML. Muitas dessas páginas contêm dados de certos domínios (por exemplo, remédios). Em alguns casos, sites de organizações diferentes apresentam dados referentes a um mesmo domínio (por exemplo, farmácias diferentes oferecem remédios). O conhecimento de um determinado domínio, expresso em um modelo conceitual, serve para definir a estrutura de um documento. Nesta pesquisa, são consideradas exclusivamente tabelas de páginas HTML. A razão de se trabalhar somente com tabelas está baseada no fato de que parte dos dados de páginas HTML encontra-se nelas, e, como conseqüência, elimina-se o processamento dos outros dados, concentrando-se os esforços para que sejam processadas automaticamente. A pesquisa aborda o tratamento exclusivo de tabelas de páginas HTML na geração das regras de extração, na utilização das regras e do modelo conceitual para o reconhecimento de dados em páginas semelhantes. Para essa técnica, foi implementado o protótipo de uma ferramenta visual denominado Gerador de Regras de Extração e Modelo Conceitual (GREMO). GREMO foi desenvolvido em linguagem de programação visual Delphi 6.0. O processo de extração ocorre em quatro etapas: identificação e análise das tabelas de informações úteis em páginas HTML; identificação de conceitos para os elementos dos modelos conceituais; geração dos modelos conceituais correspondentes à página, ou utilização de modelo conceitual existente no repositório que satisfaça a página em questão; construção das regras de extração, extração dos dados da página, geração de arquivo XML correspondente aos dados extraídos e, finalmente, realimentação do repositório. A pesquisa apresenta as técnicas para geração e extração de dados semi-estruturados, as representações de domínio exclusivo de tabelas de páginas HTML por meio de modelo conceitual, as formas de geração e uso das regras de extração e de modelo conceitual.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Atualmente, a World Wide Web (WWW) já se estabeleceu como um dos meios de divulgação mais difundidos. Sendo um meio de publicação de custo relativamente baixo, muitas iniciativas foram desenvolvidas no sentido de estendê-la e transformá-la também numa ferramenta de apoio. Assim, uma série de pesquisas foi realizada no sentido de promover e facilitar o gerenciamento das informações da WWW, que são estruturadas, em sua maioria, como conjuntos de documentos inter-relacionados. Grafos são estruturas utilizadas para a representação de objetos e seus múltiplos relacionamentos. Nesse sentido, pode-se afirmar que hiperdocumentos podem ser modelados através de grafos, onde uma página representa um nodo e um link para outra página é representado por uma aresta. Considerando estas características, e dada a crescente complexidade dos materiais publicados na WWW, desenvolveu-se, ao longo da última década, o uso de técnicas e recursos de Visualização de Grafos com larga aplicação na visualização da estrutura e da navegação na WWW. Técnicas de visualização de grafos são aplicáveis especificamente para representar visualmente estruturas que possam ser modeladas por meio de objetos relacionados, sendo investigadas técnicas para a abstração de modo a facilitar tanto o processo de compreensão do contexto da informação, quanto a apreensão dos dados relacionados. Este trabalho tem como objetivo a investigação de técnicas de Visualização de Grafos aplicadas a autômatos finitos com saída. Este direcionamento se deve ao fato de alguns autores utilizar a abordagem de autômatos finitos com saída para as estruturas de hiperdocumentos. Se for considerado que um documento da WWW (ou o estado de um autômato) é composto por fragmentos de informação (ou saídas) tais como trechos de texto, imagens, animações, etc e que este documento é relacionado a outros por meio de links (ou transições), tem-se a verificação de sua representatividade por meio destas estruturas. Em trabalho anterior, no âmbito do PPGC da UFRGS, a ferramenta Hyper-Automaton foi desenvolvida com o objetivo de estender o uso da Internet no sentido de prover uma ferramenta de apoio à publicação de materiais instrucionais. Por adotar a notação de autômatos finitos com saída, possibilita, além da criação e gerenciamento de hiperdocumentos, a reutilização de fragmentos de informação sem que haja qualquer interferência de um autômato que utilize este fragmento sobre outro. O Hyper-Automaton foi selecionado como caso de estudo motivador deste trabalho. As técnicas aqui desenvolvidas têm como intuito diminuir a complexidade visual da informação, assim como permitir a navegação através dos autômatos finitos com saída de forma que seja possível visualizar detalhes como as saídas e informações relacionadas a cada uma delas, mantendo a visualização do contexto da informação. Foram analisadas técnicas de agrupamento como forma de redução da complexidade visual, e técnicas do tipo foco+contexto, como alternativa para prover a visualização simultânea do contexto e dos detalhes da informação.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O gerenciamento de riscos constitui atualmente um dos principais fatores relacionados ao baixo índice de sucesso nos projetos de desenvolvimento de software. Neste contexto, dentre outras contribuições relevantes, pode-se considerar o levantamento de ações preventivas que auxiliem os profissionais da área de desenvolvimento de sistemas para a obtenção dos resultados definidos. Mais especificamente, de maneira a cobrir as principais situações problemáticas, é importante considerar ações relacionadas ao comprometimento da gerência sênior e do usuário, à indefinição e alteração de escopo, ao perfil e volatilidade da equipe, e ao orçamento e cronograma do projeto. A partir da utilização de questionários e da realização de entrevistas com profissionais da área, identificaram-se, para cada situação problemática de risco, as ações adotadas por empresas da área de tecnologia da informação e empresas de outras áreas de negócio, como telecomunicação, indústria de computadores, educação e financeira. Foi também analisado o modo de posicionamento das empresas (preventivo ou corretivo) nas situações de risco, acompanhado de uma apreciação relacionada tanto ao ambiente das empresas como às categorias de conceitos desenvolvidos pela literatura especializada. Espera-se, com os resultados deste trabalho, auxiliar as empresas que lidam com projetos de desenvolvimento de software na estruturação de seus processos de gerenciamento de risco.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Este trabalho faz avaliação de ferramentas que utilizam técnica de Descoberta de Conhecimento em Texto (agrupamento ou “clustering”). As duas ferramentas são: Eurekha e Umap. O Eurekha é baseado na hipótese de agrupamento, que afirma que documentos similares e relevantes ao mesmo assunto tendem a permanecer em um mesmo grupo. O Umap, por sua vez, é baseado na árvore do conhecimento. A mesma coleção de documentos submetida às ferramentas foi lida por um especialista humano, que agrupou textos similares, a fim de que seus resultados fossem comparados aos das ferramentas. Com isso, pretende-se responder a seguinte questão: a recuperação automática é equivalente à recuperação humana? A coleção de teste é composta por matérias do jornal Folha de São Paulo, cujo tema central é a Amazônia. Com os resultados, pretende-se verificar a validade das ferramentas, os conhecimentos obtidos sobre a região e o tratamento que o jornal dá em relação à mesma.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Sistemas de informação incorporam processos de negócios particulares de cada organização. A medida em que se observa uma crescente pressão de mercado para que empresas troquem informações de forma automatizada e segura para obtenção de melhores resultados, faz-se necessário repensar a forma como são concebidos os sistemas de informação, desde a modelagem da empresa propriamente dita até a modelagem dos processos de negócio e sua interação com os demais colaboradores. Modelar os processos de negócio de uma empresa em um contexto global significa não apenas estabelecer regras de comportamento, mas também expressar a forma como os processos poderão ser acionados e interagir com sistemas de informação diferentes. Existem várias tecnologias empregadas para a integração de sistemas de informação. Entre tantas tecnologias, uma delas vêm recebendo especial atenção: a tecnologia Web services. A suposta interoperabilidade dos Web services permite a comunicação de aplicações desenvolvidas em diferentes plataformas de hardware e diferentes linguagens de programação através da Internet ou de uma rede local. No entanto, algumas particularidades devem ser observadas para que a implementação de Web services seja eficiente. Disponibilizar processos de negócio de uma empresa através da Internet pode ser uma ótima opção para o incremento de suas atividades, mas requer cuidados especiais. Este trabalho apresenta uma revisão bibliográfica sobre a modelagem de empresas, modelagem de processos de negócio e a integração de sistemas de informação através do uso de Web services. Através de um estudo de caso, são apresentados os principais conceitos e as etapas necessárias para a implementação de Web services em um sistema Web. Como contribuição deste trabalho, é proposta uma alternativa de modelagem de sistemas que permite um melhor controle sobre o tratamento de exceções em Web services. O trabalho desenvolvido compreendeu a especificação, desenvolvimento e aplicação de um ambiente para suportar esta classe de aplicação. No texto é descrito o funcionamento da biblioteca NuSOAP, apresentando o código-fonte completo da aplicação desenvolvida, acessando Web services através de chamadas em alto nível (WSDL). Com o presente trabalho, tem-se uma proposta, já avaliada e validada, para funcionar como referencial conceitual e prático para o desenvolvimento de aplicações usando a tecnologia de Web services.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A descoberta e a análise de conglomerados textuais são processos muito importantes para a estruturação, organização e a recuperação de informações, assim como para a descoberta de conhecimento. Isto porque o ser humano coleta e armazena uma quantidade muito grande de dados textuais, que necessitam ser vasculhados, estudados, conhecidos e organizados de forma a fornecerem informações que lhe dêem o conhecimento para a execução de uma tarefa que exija a tomada de uma decisão. É justamente nesse ponto que os processos de descoberta e de análise de conglomerados (clustering) se insere, pois eles auxiliam na exploração e análise dos dados, permitindo conhecer melhor seu conteúdo e inter-relações. No entanto, esse processo, por ser aplicado em textos, está sujeito a sofrer interferências decorrentes de problemas da própria linguagem e do vocabulário utilizado nos mesmos, tais como erros ortográficos, sinonímia, homonímia, variações morfológicas e similares. Esta Tese apresenta uma solução para minimizar esses problemas, que consiste na utilização de “conceitos” (estruturas capazes de representar objetos e idéias presentes nos textos) na modelagem do conteúdo dos documentos. Para tanto, são apresentados os conceitos e as áreas relacionadas com o tema, os trabalhos correlatos (revisão bibliográfica), a metodologia proposta e alguns experimentos que permitem desenvolver determinados argumentos e comprovar algumas hipóteses sobre a proposta. As conclusões principais desta Tese indicam que a técnica de conceitos possui diversas vantagens, dentre elas a utilização de uma quantidade muito menor, porém mais representativa, de descritores para os documentos, o que torna o tempo e a complexidade do seu processamento muito menor, permitindo que uma quantidade muito maior deles seja analisada. Outra vantagem está no fato de o poder de expressão de conceitos permitir que os usuários analisem os aglomerados resultantes muito mais facilmente e compreendam melhor seu conteúdo e forma. Além do método e da metodologia proposta, esta Tese possui diversas contribuições, entre elas vários trabalhos e artigos desenvolvidos em parceria com outros pesquisadores e colegas.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A grande disponibilidade de informações oferece um amplo potencial comercial. Contudo, o enorme volume e diversidade de oportunidades gera um problema: limitações comerciais criadas pela seleção e a manipulação manual dessa informação. O tratamento das grandes bases de dados não estruturadas e/ou semi-estruturadas (BDNE/SE), como as trazidas pela Internet, é uma fonte de conhecimento rica e confiável, permitindo a análise de mercados. O tratamento e a estruturação dessa informação permitirá seu melhor gerenciamento, a realização de consultas e a tomada de decisões, criando diferenciais competitivos de mercado. Pesquisas em Recuperação de Informação (RI), as quais culminaram nesta tese, investem na melhoria da posição competitiva de pequenas e médias empresas, hoje inseridas, pelo comércio eletrônico, em um mercado globalizado, dinâmico e competitivo. O objetivo deste trabalho é o desenvolvimento de uma Metodologia de Extração de Informações para o Tratamento e Manipulação de Informações de Comércio Eletrônico. Chamaremos essa metodologia de EI-MNBC, ou seja, Extração de Informações em Múltiplos Níveis Baseada em Conhecimento. Os usuários da EIMNBC podem rapidamente obter as informações desejadas, frente ao tempo de pesquisa e leitura manual dos dados, ou ao uso de ferramentas automáticas inadequadas. Os problemas de volume, diversidade de formatos de armazenamento, diferentes necessidades de pesquisa das informações, entre outros, serão solucionados. A metodologia EI-MNBC utiliza conhecimentos de RI, combinando tecnologias de Recuperação de Documentos, Extração de Informações e Mineração de Dados em uma abordagem híbrida para o tratamento de BDNE/SE. Propõe-se uma nova forma de integração (múltiplos níveis) e configuração (sistema baseado em conhecimento - SBC) de processos de extração de informações, tratando de forma mais eficaz e eficiente as BDNE/SE usadas em comércio eletrônico. Esse tratamento viabilizará o uso de ferramentas de manipulação de dados estruturados, como Sistemas Gerenciadores de Bancos de Dados, sobre as informações anteriormente desestruturadas. A busca do conhecimento existente em bases de dados textuais não estruturadas demanda a compreensão desses dados. O objetivo é enfatizar os aspectos cognitivos superficiais envolvidos na leitura de um texto, entendendo como as pessoas recuperam as informações e armazenando esse conhecimento em regras que guiarão o processo de extração. A estrutura da metodolo gia EI-MNBC é similar a de um SBC: os módulos de extração (máquinas de inferência) analisam os documentos (eventos) de acordo com o conteúdo das bases de conhecimento, interpretando as regras. O resultado é um arquivo estruturado com as informações extraíd as (conclusões). Usando a EI-MNBC, implementou-se o SE-MNBC (Sistema de Extração de Informações em Múltiplos Níveis Baseado em Conhecimento) que foi aplicado sobre o sistema ETO (Electronic Trading Opportunities). O sistema ETO permite que as empresas negociem através da troca de e-mails e o SE-MNBC extrai as informações relevantes nessas mensagens. A aplicação é estruturada em três fases: análise estrutural dos textos, identificação do assunto (domínio) de cada texto e extração, transformando a informação não estruturada em uma base de dados estruturada.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A modelagem conceitual de banco de dados geográficos (BDG) é um aspecto fundamental para o reuso, uma vez que a realidade geográfica é bastante complexa e, mais que isso, parte dela é utilizada recorrentemente na maioria dos projetos de BDG. A modelagem conceitual garante a independência da implementação do banco de dados e melhora a documentação do projeto, evitando que esta seja apenas um conjunto de documentos escritos no jargão da aplicação. Um modelo conceitual bem definido oferece uma representação canônica da realidade geográfica, possibilitando o reuso de subesquemas. Para a obtenção dos sub-esquemas a serem reutilizados, o processo de Descoberta de Conhecimento em Bancos de Dados (DCBD – KDD) pode ser aplicado. O resultado final do DCBD produz os chamados padrões de análise. No escopo deste trabalho os padrões de análise constituem os sub-esquemas reutilizáveis da modelagem conceitual de um banco de dados. O processo de DCBD possui várias etapas, desde a seleção e preparação de dados até a mineração e pós-processamento (análise dos resultados). Na preparação dos dados, um dos principais problemas a serem enfrentados é a possível heterogeneidade de dados. Neste trabalho, visto que os dados de entrada são os esquemas conceituais de BDG, e devido à inexistência de um padrão de modelagem de BDG largamente aceito, as heterogeneidades tendem a aumentar. A preparação dos dados deve integrar diferentes esquemas conceituais, baseados em diferentes modelos de dados e projetados por diferentes grupos, trabalhando autonomamente como uma comunidade distribuída. Para solucionar os conflitos entre esquemas conceituais foi desenvolvida uma metodologia, suportada por uma arquitetura de software, a qual divide a fase de préprocessamento em duas etapas, uma sintática e uma semântica. A fase sintática visa converter os esquemas em um formato canônico, a Geographic Markup Language (GML). Um número razoável de modelos de dados deve ser considerado, em conseqüência da inexistência de um modelo de dados largamente aceito como padrão para o projeto de BDG. Para cada um dos diferentes modelos de dados um conjunto de regras foi desenvolvido e um wrapper implementado. Para suportar a etapa semântica da integração uma ontologia é utilizada para integrar semanticamente os esquemas conceituais dos diferentes projetos. O algoritmo para consulta e atualização da base de conhecimento consiste em métodos matemáticos de medida de similaridade entre os conceitos. Uma vez os padrões de análise tendo sido identificados eles são armazenados em uma base de conhecimento que deve ser de fácil consulta e atualização. Novamente a ontologia pode ser utilizada como a base de conhecimento, armazenando os padrões de análise e possibilitando que projetistas a consultem durante a modelagem de suas aplicações. Os resultados da consulta ajudam a comparar o esquema conceitual em construção com soluções passadas, aceitas como corretas.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Sistemas de informações geográficas (SIG) permitem a manipulação de dados espaço-temporais, sendo bastante utilizados como ferramentas de apoio à tomada de decisão. Um SIG é formado por vários módulos, dentre os quais o banco de dados geográficos (BDG), o qual é responsável pelo armazenamento dos dados. Apesar de representar, comprovadamente, uma fase importante no projeto do SIG, a modelagem conceitual do BDG não tem recebido a devida atenção. Esse cenário deve-se principalmente ao fato de que os profissionais responsáveis pelo projeto e implementação do SIG, em geral, não possuem experiência no uso de metodologias de desenvolvimento de sistemas de informação. O alto custo de aquisição dos dados geográficos também contribui para que menor atenção seja dispensada à etapa de modelagem conceitual do BDG. A utilização de padrões de análise tem sido proposta tanto para auxiliar no projeto conceitual de BDG quanto para permitir que profissionais com pouca experiência nessa atividade construam seus próprios esquemas. Padrões de análise são utilizados para documentar as fases de análise de requisitos e modelagem conceitual do banco de dados, representando qualquer parte de uma especificação de requisitos que tem sua origem em um projeto e pode ser reutilizada em outro(s). Todavia, a popularização e o uso de padrões de análise para BDG têm sido prejudicados principalmente devido à dificuldade de disponibilizar tais construções aos projetistas em geral. O processo de identificação de padrões (mineração de padrões) não é uma tarefa simples e tem sido realizada exclusivamente com base na experiência de especialistas humanos, tornando o processo lento e subjetivo. A subjetividade prejudica a popularização e a aplicação de padrões, pois possibilita que tais construções sejam questionadas por especialistas com diferentes experiências de projeto. Dessa forma, a identificação ou o desenvolvimento de técnicas capazes de capturar a experiência de especialistas de forma menos subjetiva é um passo importante para o uso de padrões. Com esse objetivo, este trabalho propõe a aplicação do processo de descoberta de conhecimento em banco de dados (DCBD) para inferir candidatos a padrão de análise para o projeto de BDG. Para tanto, esquemas conceituais de BDG são usados como base de conhecimento. DCBD é o processo não trivial de descoberta de conhecimento útil a partir de uma grande quantidade de dados. Durante o desenvolvimento da pesquisa ficou claro que a aplicação do processo de DCBD pode melhorar o processo de mineração de padrões, pois possibilita a análise de um maior número de esquemas em relação ao que é realizado atualmente. Essa característica viabiliza que sejam considerados esquemas construídos por diferentes especialistas, diminuindo a subjetividade dos padrões identificados. O processo de DCBD é composto de várias fases. Tais fases, assim como atividades específicas do problema de identificar padrões de análise, são discutidas neste trabalho.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The number of research papers available today is growing at a staggering rate, generating a huge amount of information that people cannot keep up with. According to a tendency indicated by the United States’ National Science Foundation, more than 10 million new papers will be published in the next 20 years. Because most of these papers will be available on the Web, this research focus on exploring issues on recommending research papers to users, in order to directly lead users to papers of their interest. Recommender systems are used to recommend items to users among a huge stream of available items, according to users’ interests. This research focuses on the two most prevalent techniques to date, namely Content-Based Filtering and Collaborative Filtering. The first explores the text of the paper itself, recommending items similar in content to the ones the user has rated in the past. The second explores the citation web existing among papers. As these two techniques have complementary advantages, we explored hybrid approaches to recommending research papers. We created standalone and hybrid versions of algorithms and evaluated them through both offline experiments on a database of 102,295 papers, and an online experiment with 110 users. Our results show that the two techniques can be successfully combined to recommend papers. The coverage is also increased at the level of 100% in the hybrid algorithms. In addition, we found that different algorithms are more suitable for recommending different kinds of papers. Finally, we verified that users’ research experience influences the way users perceive recommendations. In parallel, we found that there are no significant differences in recommending papers for users from different countries. However, our results showed that users’ interacting with a research paper Recommender Systems are much happier when the interface is presented in the user’s native language, regardless the language that the papers are written. Therefore, an interface should be tailored to the user’s mother language.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Muitas abordagens para recuperação de informação (RI) assumem duas hipóteses: (i) cada termo de um documento é estatisticamente independente de todos os outros termos no texto, e (ii) métodos lingüísticos são de difícil aplicação nesta área. Contudo, há regularidades lingüísticas, produzidas pelas dependências entre termos, que precisam ser consideradas quando um texto é representado, e a representação de textos é crucial para aplicações que utilizam processamento da linguagem natural, como a RI. Um texto é mais do que uma simples seqüência de caracteres ou palavras. As palavras apresentam características morfológicas e relações de coesão que não podem ser esquecidas na descrição dos conceitos presentes no texto. Nesse sentido, um novo modelo com dependência de termos para a RI, denominado TR+, é proposto. Ele inclui: (i) nominalização, como processo de normalização lexical, e identificação de relações lexicais binárias (RLBs) e (ii) novas fórmulas para cálculo do peso das unidades de indexação (descritores). Essas fórmulas se baseiam no conceito de evidência, que leva em conta, além da freqüência de ocorrência, os mecanismos de coesão do texto. O modelo também inclui operadores Booleanos na consulta, para complementar a especificação da dependência de termos. Avaliações experimentais foram realizadas para demonstrar que (i) a nominalização apresenta melhores resultados em relação aos processos de normalização lexical usuais, (ii) a aquisição de informação lingüística, através de RLBs, e o uso de consultas Booleanas contribuem para a especificação de dependência de termos, e (iii) o cálculo da representatividade dos descritores baseado em evidência apresenta vantagens em relação ao cálculo baseado em freqüência de ocorrência. Os experimentos relatados indicam que esses recursos melhoram os resultados de sistemas de RI.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Na sociedade atual, o conhecimento é um novo fator de produção que se agrega aos já tradicionais fatores de terra, mão de obra e capital financeiro. Porém, o conhecimento não pode ser herdado ou concedido. Diferente dos outros fatores, quanto mais o conhecimento é compartilhado, mais ele aumenta; quanto mais utilizado maior é o seu valor. Torna-se fundamental para as organizações, dependentes desse fator, capturar os ativos de conhecimento utilizados por seus colaboradores. Seu objetivo é transformar esse conhecimento em capital intelectual. Os meios para atingir esses objetivos são encontrados na Gestão do Conhecimento. A Gestão de Conhecimento corresponde ao conjunto de ações de uma organização para criar, adquirir, compartilhar e utilizar ativos de conhecimento, a fim de auxiliar na geração de idéias, solução de problemas e tomada de decisões. Essas ações são alcançadas através de metodologias, processos, técnicas, tecnologias e ferramentas. Este trabalho apresenta uma visão geral sobre as dimensões que influenciam a Gestão do Conhecimento – cultura e estrutura organizacional, estratégia, recursos humanos, aprendizado com o ambiente, avaliação permanente e tecnologia da informação. Embora todas as dimensões sejam consideradas, este trabalho enfatiza a tecnologia da informação Se o conhecimento e a Gestão do Conhecimento são tão importantes para as empresas em geral, ocupam um papel duplamente relevante nas empresas de tecnologia da informação, pois essas são, ao mesmo tempo, usuárias e fornecedoras. Foram ainda estudadas as diversas abordagens para tratar a Gestão de Conhecimento: a transferência do conhecimento entre trabalhadores, os ciclos do conhecimento segundo diferentes autores; e as principais ações e ferramentas que incentivam e implementam Gestão de Conhecimento em uma organização. O objetivo deste trabalho é propor um ambiente tecnológico capaz de oferecer suporte à Gestão do Conhecimento para o caso especial de uma empresa de tecnologia da informação: A SICREDI Serviços. A proposta apresentada considera o portal do conhecimento como o ambiente de sustentação e convergência para outras ferramentas tecnológicas, quais sejam: ferramentas de colaboração, infra-estrutura de ambiente da aplicação e aplicações do conhecimento. Considera-se que o projeto apresentado contempla as necessidades de todas as Dimensões da Gestão do Conhecimento, respeitando-se aspectos fundamentais como uso adequado da tecnologia e suporte às ações de Gestão do Conhecimento.