905 resultados para Extração semântica


Relevância:

100.00% 100.00%

Publicador:

Resumo:

Existe uma necessidade latente de pesquisar, filtrar e manipular informações disponíveis em diversos formatos irregulares, entre elas as informações distribuídas na WWW (World Wide Web). Esses tipos de dados são semi-estruturados, pois não possuem uma estrutura explícita e regular, o que dificulta sua manipulação. Este trabalho apresenta como proposta o projeto de uma ferramenta para realizar a extração semântica e semi-automática de dados semi-estruturados. O usuário especifica, através de uma interface visual, um exemplo da estrutura hierárquica do documento e de seu relacionamento com os conceitos da ontologia, gerando uma gramática descritiva da estrutura implícita do mesmo. A partir dessa gramática, a ferramenta realiza a extração dos próximos documentos de forma automática, reestruturando o resultado em um formato regular de dados, neste caso, XML (eXtensible Markup Language). Além da conceituação do método de extração, são apresentados os experimentos realizados com o protótipo da ferramenta, bem como, os resultados obtidos nestes experimentos. Para a construção desta ferramenta, são analisadas características de outros métodos que constituem o estado da arte em extração de dados semi-estruturados.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Extração de dados é o processo utilizado para obter e estruturar informações disponibilizaadas em documentos semi-estruturados (ex.: páginas da Web). A importâmncia da extrtação de dados vem do fato que, uma vez extraídos, os dados podem ser armazenados e manipulados em uma forma estruturada. Dentre as abordagens existentes para extração de dados, existe a abordagem de extração baseada em ontologias. Nesta abordagem, ontologias são preciamente criadas para descrever um domínio de interesse, gerando um modelo conceitual enriquecido com informações necessárias para extração de dados das fontes semi-estruturadas. A ontologia é utilizada como guia ara um programa (¨parser¨) que executa a extração de dados dos documentos ou páginas fornecidos como enetrada. Oprocesso de criação da ontologia não é uma tarefa trtivial e requer um cuidado trabalho ee análise dos documentos ou páginas fontes dos dados. Este trabalho é feito manualmente por usuários especialistas no domínio de interesse da ontologia. Entretanto, em algumas situações os dados que se desejam extrair estão modelados em bancos de dados relacionais. Neste caso, o modelo realcional do banco de dados por ser utilizado para constrtução do modelo conceitual na ontologia. As instâncias dos dados armazenados neste mesmo banco podem ajudar a gerar as informações sobre conteúdo e formato dos dados a serem extraídos. Estas informações sobre conteúdo e formato de dados, na ontologia, são representadas por expressões regulares e estão inseridas nos chamados "data frames". O objetivo deste trabalho é apresentar um método para criação semi-automática de ontologias de extração a partir das informações em um banco de dados já existente. O processo é baseado na engenharia reversa do modelo relacional para o modelo conceitual da ontologia combinada com a análise das instâncias dos dados para geração das expressões regulares nos "data frames".

Relevância:

30.00% 30.00%

Publicador:

Resumo:

O fenômeno da factividade, no âmbito da linguística, em sentido amplo, está relacionado à propriedade que certos itens lexicais ou determinados predicadores gramaticais possuem de introduzir um pressuposto, que pode estar implícito ou explícito. No domínio verbal, Kiparsky e Kiparsky (1971) remetem a um conjunto de verbos, os quais admitem uma sentença como complemento e cujo uso pressupõe a veracidade da proposição aí expressa. Em termos aquisicionais, não há consenso acerca da idade em que factividade estaria dominada. Hopmann e Maratsos (1977), por exemplo, propuseram que seu domínio se daria a partir dos 6 anos. Para Abbeduto e Rosenberg (1985), no entanto, isso ocorreria mais cedo, por volta dos 4 anos de idade. Já Schulz (2002; 2003), defende uma aquisição gradual, que se daria por estágios e se estenderia até os 7;0 anos de idade. Léger (2007), por sua vez, afirma que o domínio da factividade, especificamente dos semifactivos, só se daria após os 11 anos. Scoville e Gordon (1979), por fim, propõem que só por volta dos 14 anos a criança seria capaz de dominar a factividade em todos os seus aspectos. Essa falta de consenso corrobora a ideia de uma aquisição gradual, uma vez que esse fenômeno envolve vários aspectos: identificação de uma subclasse de verbos, uma interpretação semântica específica, uma subcategorização sintática variável entre as línguas e um comportamento característico no que diz respeito ao movimento-QU. Esta dissertação tem como objetivo geral contribuir para os estudos sobre aquisição da factividade, particularmente no que diz respeito ao português, debruçando-se mais especificamente sobre dois aspectos pouco explorados na literatura da área: uma questão de variação translinguística, que diz respeito à possibilidade de se admitirem complementos não-finitos factivos em português, e a questão da interpretação de interrogativas-QU em contextos factivos, com propriedades características de ilha fraca. O quadro obtido é discutido frente às análises linguísticas propostas para os verbos/ predicados factivos, que têm considerado uma distinção sintática (KIPARSKY E KIPARSKY, 1971; MELVOLD, 1991; SCHULZ, 2003; AUGUSTO, 2003; LIMA, 2007), com repercussões de ordem lógico/ semântica (LEROUX E SCHULZ, 1999; SCHULZ, 2002; 2003)

Relevância:

30.00% 30.00%

Publicador:

Resumo:

A extração de regras de associação (ARM - Association Rule Mining) de dados quantitativos tem sido pesquisa de grande interesse na área de mineração de dados. Com o crescente aumento das bases de dados, há um grande investimento na área de pesquisa na criação de algoritmos para melhorar o desempenho relacionado a quantidade de regras, sua relevância e a performance computacional. O algoritmo APRIORI, tradicionalmente usado na extração de regras de associação, foi criado originalmente para trabalhar com atributos categóricos. Geralmente, para usá-lo com atributos contínuos, ou quantitativos, é necessário transformar os atributos contínuos, discretizando-os e, portanto, criando categorias a partir dos intervalos discretos. Os métodos mais tradicionais de discretização produzem intervalos com fronteiras sharp, que podem subestimar ou superestimar elementos próximos dos limites das partições, e portanto levar a uma representação imprecisa de semântica. Uma maneira de tratar este problema é criar partições soft, com limites suavizados. Neste trabalho é utilizada uma partição fuzzy das variáveis contínuas, que baseia-se na teoria dos conjuntos fuzzy e transforma os atributos quantitativos em partições de termos linguísticos. Os algoritmos de mineração de regras de associação fuzzy (FARM - Fuzzy Association Rule Mining) trabalham com este princípio e, neste trabalho, o algoritmo FUZZYAPRIORI, que pertence a esta categoria, é utilizado. As regras extraídas são expressas em termos linguísticos, o que é mais natural e interpretável pelo raciocício humano. Os algoritmos APRIORI tradicional e FUZZYAPRIORI são comparado, através de classificadores associativos, baseados em regras extraídas por estes algoritmos. Estes classificadores foram aplicados em uma base de dados relativa a registros de conexões TCP/IP que destina-se à criação de um Sistema de Detecção de Intrusos.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

With the rapid growth of databases of various types (text, multimedia, etc..), There exist a need to propose methods for ordering, access and retrieve data in a simple and fast way. The images databases, in addition to these needs, require a representation of the images so that the semantic content characteristics are considered. Accordingly, several proposals such as the textual annotations based retrieval has been made. In the annotations approach, the recovery is based on the comparison between the textual description that a user can make of images and descriptions of the images stored in database. Among its drawbacks, it is noted that the textual description is very dependent on the observer, in addition to the computational effort required to describe all the images in database. Another approach is the content based image retrieval - CBIR, where each image is represented by low-level features such as: color, shape, texture, etc. In this sense, the results in the area of CBIR has been very promising. However, the representation of the images semantic by low-level features is an open problem. New algorithms for the extraction of features as well as new methods of indexing have been proposed in the literature. However, these algorithms become increasingly complex. So, doing an analysis, it is natural to ask whether there is a relationship between semantics and low-level features extracted in an image? and if there is a relationship, which descriptors better represent the semantic? which leads us to a new question: how to use descriptors to represent the content of the images?. The work presented in this thesis, proposes a method to analyze the relationship between low-level descriptors and semantics in an attempt to answer the questions before. Still, it was observed that there are three possibilities of indexing images: Using composed characteristic vectors, using parallel and independent index structures (for each descriptor or set of them) and using characteristic vectors sorted in sequential order. Thus, the first two forms have been widely studied and applied in literature, but there were no records of the third way has even been explored. So this thesis also proposes to index using a sequential structure of descriptors and also the order of these descriptors should be based on the relationship that exists between each descriptor and semantics of the users. Finally, the proposed index in this thesis revealed better than the traditional approachs and yet, was showed experimentally that the order in this sequence is important and there is a direct relationship between this order and the relationship of low-level descriptors with the semantics of the users

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Pós-graduação em Ciência da Computação - IBILCE

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Este trabalho propõe dois métodos para teste de sistemas de software: o primeiro extrai ideias de teste de um modelo desenvolvido em rede de Petri hierárquica e o segundo valida os resultados após a realização dos testes utilizando um modelo em OWL-S. Estes processos aumentam a qualidade do sistema desenvolvido ao reduzir o risco de uma cobertura insuficiente ou teste incompleto de uma funcionalidade. A primeira técnica apresentada consiste de cinco etapas: i) avaliação do sistema e identificação dos módulos e entidades separáveis, ii) levantamento dos estados e transições, iii) modelagem do sistema (bottom-up), iv) validação do modelo criado avaliando o fluxo de cada funcionalidade e v) extração dos casos de teste usando uma das três coberturas de teste apresentada. O segundo método deve ser aplicado após a realização dos testes e possui cinco passos: i) primeiro constrói-se um modelo em OWL (Web Ontology Language) do sistema contendo todas as informações significativas sobre as regras de negócio da aplicação, identificando as classes, propriedades e axiomas que o regem; ii) em seguida o status inicial antes da execução é representado no modelo através da inserção das instâncias (indivíduos) presentes; iii) após a execução dos casos de testes, a situação do modelo deve ser atualizada inserindo (sem apagar as instâncias já existentes) as instâncias que representam a nova situação da aplicação; iv) próximo passo consiste em utilizar um reasoner para fazer as inferências do modelo OWL verificando se o modelo mantém a consistência, ou seja, se não existem erros na aplicação; v) finalmente, as instâncias do status inicial são comparadas com as instâncias do status final, verificando se os elementos foram alterados, criados ou apagados corretamente. O processo proposto é indicado principalmente para testes funcionais de caixa-preta, mas pode ser facilmente adaptado para testes em caixa branca. Obtiveram-se casos de testes semelhantes aos que seriam obtidos em uma análise manual mantendo a mesma cobertura do sistema. A validação provou-se condizente com os resultados esperados, bem como o modelo ontológico mostrouse bem fácil e intuitivo para aplicar manutenções.

Relevância:

30.00% 30.00%

Publicador:

Resumo:

Ao tentar interpretar um texto, todo leitor vai certamente se deparar com muitos desafios. Há, sem dúvida, várias maneiras de ele tentar transpor as barreiras impostas nesse tipo de tarefa. Uma delas é, p.ex., perceber que certas palavras parecem ser mais importantes semanticamente do que outras, apesar de todas serem, no conjunto, imprescindíveis. Desenvolver uma análise lingüística tomando como base a identificação dessas palavras, aqui referidas como palavras-chaves, à luz de princípios semântico-lexicais, é o principal objetivo da pesquisa que vimos desenvolvendo já há algum tempo. Padrões Lexicais, tais como colocação, coligação e prosódia semântica, são itens com os quais trabalhamos. Partindo de um corpus no domínio da gastroenterologia e da palavra ‘causa’, muito freqüente em textos dessa natureza, tentaremos mostrar (i) a influência que essa palavra exerce sobre as outras com as quais se relaciona; (ii) a influência que ela própria sofre dessas outras palavras e, sobretudo, (iii) como toda essa articulação acaba afetando sobremaneira a interpretação de textos então considerados.

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Prepositioner är välkända för sin polysemi eller betydelsemångfald, och utgångspunkten för den här uppsatsen har varit ett intresse av att undersöka om det är möjligt att för en av de mest mångtydiga spanska prepositionerna, DE, finna en sammanhängande semantisk struktur, eller om det är nödvändigt att se de olika betydelserna som inbördes orelaterade. För att utreda den här frågan och ge den ett diakroniskt perspektiv undersöker jag i den här uppsatsen användningen av den spanska prepositionen DE i två romaner ur den spanska litteraturhistorien, Libro del caballero Zifar och El ingenioso hidalgo don Quijote de la Mancha, del I. Uppsatsen består av tre delar. I kapitel två ger jag en teoretisk översikt över spanskans prepositionssystem och prepositionerna beskrivs både ur syntaktisk och semantisk synvinkel. Dessutom presenteras den kognitiva grammatiken och dess synsätt på prepositioner. Huvuddelen av arbetet koncentrerar sig på att presentera prepositionen DE på två sätt och enligt två skilda metoder. I kapitel tre presenteras de olika kontextuella användningarna av DE enligt den traditionella, historisk-komparativa metoden. Med utgångspunkt i dessa kontextuella användningar ställer jag i kapitel fyra med stöd av den kognitiva grammatikens begreppssystem upp en semantisk nätverksmodell av de olika betydelser som jag fastställt för DE i den funktionella analysen. För den semantiska beskrivningen har jag använt mig av den kognitiva grammatiken, eftersom denna grammatikuppfattning i motsats till den traditionella grammatiken ser polysemin som regel och utgångspunkt i den semantiska strukturen. Analysdelen av uppsatsen inleds med den funktionella presentationen av användningarna av DE av två grundläggande skäl: För det första anser jag det ändamålsenligt att för den semantiska beskrivningen ha en solid bas av exempel där användningen av DE analyserats med hänsyn till kontexten. Kapitel tre är därför indelat i fyra huvuddelar, enligt vilken ordklass DEs huvudord tillhör, t.ex.: substantiv, adjektiv, verb. I exemplen i den fjärde gruppen fungerar prepositionsfrasen som inleds av DE som en mer fristående bestämning på frasnivå, där huvudordets ordklasstillhörighet inte är av avgörande betydelse. För det andra utgår jag från att en viss utveckling av DE har skett under de 300 år som tidsmässigt skiljer de båda romanerna åt, både vad gäller dess användning och dess semantik. För att komma underfund med och beskriva utsträckningen hos denna utveckling är det nödvändigt att den komparativa delen presenteras innan den semantiska beskrivningen kan inledas. Resultaten av den komparativa analysen är att ett antal smärre skillnader i användningen förekommer, men detta till trots har ingen betydande semantisk utveckling kunnat iakttas. Detta innebär att den semantiska beskrivningen av DE kan göras utifrån ett relativt enhetligt material. Jag har följaktligen också kunnat ställa upp en enhetlig semantisk nätverksmodell av tolv olika, relaterade betydelser hos DE. Utgående från mitt material är det sålunda möjligt att se DEs polysemi som ett sammanhängande nätverk, trots att vissa av betydelserna kan verka sinsemellan motstridiga och att 300 år skiljer åt de två böckerna. Nyckelord: prepositioner, DE: semantik och användning, polysemi, kognitiv grammatik, diakroni

Relevância:

20.00% 20.00%

Publicador:

Resumo:

El presente estudio supone un intento de describir y analizar el uso de la preposición "de" sobre la base de un corpus diacrónico, con énfasis en las diferentes relaciones semánticas que establece. Partiendo de un total de más de 16.000 casos de "de" hemos establecido 48 categorías de uso, que corresponden a cuatro tipos de construcción sintáctica, a saber, el uso de "de" como complemento de nombres (CN), verbos (CV), adjetivos (CA) y, finalmente, su uso como núcleo de expresiones adverbiales independientes (CI). El estudio consta de tres partes fundamentales. En la parte I, se introduce la Lingüística Cognitiva, que constituye la base teórica esencial del trabajo. Más exactamente, se introducen conceptos como la teoría del prototipo, la teoría de las metáforas conceptuales y la gramática cognitiva, especialmente las ideas de "punto de referencia" y "relación intrínseca" (Langacker 1995, 1999). La parte II incluye el análisis de las 48 categorías. En esta parte se presentan y comentan casi 2.000 ejemplos del uso contextual de "de" extraídos del corpus diacrónico. Los resultados más importantes del análisis pueden resumirse en los siguientes puntos: El uso de "de" sigue siendo esencialmente el mismo en la actualidad que hace 800 años, en el sentido de que todas las 48 categorías se identifican en todas las épocas del corpus. El uso de "de" como complemento nominal va aumentando, al contrario de lo que ocurre con su uso como complemento verbal. En el contexto nominal son especialmente las relaciones posesivas más abstractas las que se hacen más frecuentes, mientras que en el contexto verbal las relaciones que se hacen menos frecuentes son las de separación/alejamiento, causa, agente y partitivo indefinido. Destaca la importancia del siglo XVIII como época de transición entre un primer estado de las cosas y otro posterior, en especial en relación con el carácter cada vez más abstracto de las relaciones posesivas así como con la disminución de las categorías adverbales de causa, agente y partitivo. Pese a la variación en el contexto inmediato de uso, el núcleo semántico de "de" se mantiene inalterado. La parte III toma como punto de partida los resultados del análisis de la parte II, tratando de deslindar el aporte semántico de la preposición "de" a su contexto de uso del valor de la relación en conjunto. Así, recurriendo a la metodología para determinar el significado básico y la metodología para determinar lo que constituyen significados distintos de una preposición (Tyler , Evans 2003a, 2003b), se llega a la hipótesis de que "de" posee cuatro significados básicos, a saber, 'punto de partida', 'tema/asunto', 'parte/todo' y 'posesión'. Esta hipótesis, basada en las metodologías de Tyler y Evans y en los resultados del análisis de corpus, se intenta verificar empíricamente mediante el uso de dos cuestionarios destinados a averiguar hasta qué punto las distinciones semánticas a las que se llega por vía teórica son reconocidas por los hablantes nativos de la lengua (cf. Raukko 2003). El resultado conjunto de los dos acercamientos tanto refuerza como especifica la hipótesis. Los datos que arroja el análisis de los cuestionarios parecen reforzar la idea de que el núcleo semántico de "de" es complejo, constando de los cuatro valores mencionados. Sin embargo, cada uno de estos valores básicos constituye un prototipo local, en torno al cual se construye un complejo de matices semánticos derivados del prototipo. La idea final es que los hablantes son conscientes de los cuatro postulados valores básicos, pero que también distinguen matices más detallados, como son las ideas de 'causa', 'agente', 'instrumento', 'finalidad', 'cualidad', etc. Es decir, "de" constituye un elemento polisémico complejo cuya estructura semántica puede describirse como una semejanza de familia centrada en cuatro valores básicos en torno a los cuales se encuentra una serie de matices más específicos, que también constituyen valores propios de la preposición. Creemos, además, que esta caracterización semántica es válida para todas las épocas de la historia del español, con unas pequeñas modificaciones en el peso relativo de los distintos matices, lo cual está relacionado con la observada variación diacrónica en el uso de "de".

Relevância:

20.00% 20.00%

Publicador:

Resumo:

Resumen: La memoria semántica permite almacenar información acerca del significado de los objetos, las palabras y del mundo en general. Este conocimiento se altera en pacientes con Demencia Semántica, Enfermedad de Alzheimer y encefalitis por virus herpes, entre otros. El compromiso de la información semántica debe ser evaluado con herramientas que contemplen los diferentes aspectos que sustentan su organización. El objetivo del presente trabajo es hacer una revisión exhaustiva de las diferentes tareas que permiten indagar el procesamiento semántico e indicar aquellas que han sido diseñadas o adaptadas para ser usadas en la población rioplatense.