999 resultados para Processamento automático


Relevância:

100.00% 100.00%

Publicador:

Resumo:

OBJETIVO: Desenvolver um programa computacional para avaliar e controlar as características das curvas sensitométricas. MATERIAIS E MÉTODOS: Para o desenvolvimento do programa, foi elaborado um método de obtenção dos valores das características sensitométricas, de filmes de baixo e alto contraste, sem a necessidade da fixação de degraus de referência. RESULTADOS: O programa, denominado Sensito, foi implementado e testado utilizando dados sensitométricos de curvas características dos departamentos de radiologia convencional, hemodinâmica e mamografia. Ficou comprovada a possibilidade da análise das curvas sensitométricas destas áreas sem a necessidade de ajustes, dependentes dos usuários, e sem incorrer em desvios nos parâmetros sensitométricos avaliados e na variação destes. CONCLUSÃO: O programa possibilita a criação de um banco de dados de curvas sensitométricas para diferentes processadoras de uma instituição, gerando com facilidade as curvas sensitométrica e gama, de um registro, e os gráficos de constância das características sensitométricas avaliadas, fornecendo importante ferramenta para manter o controle sensitométrico.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

In this paper, we provide a brief description of the multidisciplinary domain of research called Natural Language Processing (NLP), which aims at enabling the computer to deal with natural languages. In accordance with this description, NLP is conceived as "human language engineering or technology". Therefore, NLP requires consistent description of linguistic facts on every linguistic level: morphological, syntactic, semantic, and even the level of pragmatics and discourse. In addition to the linguistically-motivated conception of NLP, we emphasize the origin of such research field, the place occupied by NLP inside a multidisciplinary scenario, their objectives and challenges. Finally, we provide some remarks on the automatic processing of Brazilian Portuguese language.

Relevância:

100.00% 100.00%

Publicador:

Resumo:

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)

Relevância:

70.00% 70.00%

Publicador:

Resumo:

Realizou-se estudo de 191 trabalhadores de uma empresa federal de processamento de dados em Porto Alegre, RS, Brasil, em 1989, objetivando estudar déficits cognitivos. São analisadas as relações entre queixas de alteração de memória e os respectivos desempenhos em testes de avaliação cognitiva segundo três grupos de trabalhadores, o primeiro com atividades automatizadas e repetitivas (digitadores) e dois outros com funções diversificadas. Utilizou-se um teste de rastreamento psiquiátrico para controlar esta possível variável de confusão. Existe uma alta prevalência de queixas de perda de memória (65,4%), apesar de não haver evidências significativas de problemas cognitivos. Observou-se uma associação estatisticamente significativa entre a presença ou não de queixas de memória e o desempenho no teste psiquiátrico. Sugere-se que futuros estudos enfatizem o aspecto de saúde mental e sofrimento psíquico para compreensão destas queixas, tendo em vista as características do processo de trabalho na informática.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

A recuperação da produção científica por autoria é um desafio para diversos mantenedores de bases de dados, devido à ambiguidade causada por problemas derivados da falta de controle no momento da indexação. Este estudo apresenta um método automático para verificação de ocorrência de erros em dados de autorias da base de produção científica da Universidade de São Paulo (Dedalus) tomando como base o banco institucional de recursos humanos. Por meio de algoritmos de busca aproximada, compararam-se esses dados com os dados de autoria registrados no banco de produção científica de quatro unidades da USP (período de 2006-2010). Com base nesse estudo piloto foi possível estabelecer mecanismos de interoperabilidade entre o banco da produção e os bancos institucionais de recursos humanos, além de permitir mapear a porcentagem de erros, desenvolver mecanismos de interferência e estabelecer um cronograma para ampliar o estudo as demais unidades USP, bem como procedimentos de normalização.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

A recuperação da produção científica por autoria é um desafio para diversos mantenedores de bases de dados, devido à ambiguidade causada por problemas de homonímia e possíveis variações e alterações de nome de uma mesma pessoa. A abordagem deste problema de pesquisa vem sendo proposta conjuntamente por pesquisadores das áreas de Ciência da Computação e Ciência da Informação, fazendo uso de metodologias diversas. Este estudo apresenta um método automático para verificação de ocorrência de erros em dados de autorias da base de produção científica da Universidade de São Paulo (Dedalus) tomando como base o banco corporativo de funcionários ,tanto informações administrativas e acadêmicas do sistema Tycho, ambos da USP. O Tycho forneceu informações de contexto (lista de autoridades) permitindo, por meio de algoritmos de busca aproximada, a identificação e contagem automática das variações dos nomes, bem como potenciais problemas nos registros bibliográficos.

Relevância:

70.00% 70.00%

Publicador:

Resumo:

A evolução tecnológica tem provocado uma evolução na medicina, através de sistemas computacionais voltados para o armazenamento, captura e disponibilização de informações médicas. Os relatórios médicos são, na maior parte das vezes, guardados num texto livre não estruturado e escritos com vocabulário proprietário, podendo ocasionar falhas de interpretação. Através das linguagens da Web Semântica, é possível utilizar antologias como modo de estruturar e padronizar a informação dos relatórios médicos, adicionando¬ lhe anotações semânticas. A informação contida nos relatórios pode desta forma ser publicada na Web, permitindo às máquinas o processamento automático da informação. No entanto, o processo de criação de antologias é bastante complexo, pois existe o problema de criar uma ontologia que não cubra todo o domínio pretendido. Este trabalho incide na criação de uma ontologia e respectiva povoação, através de técnicas de PLN e Aprendizagem Automática que permitem extrair a informação dos relatórios médicos. Foi desenvolvida uma aplicação, que permite ao utilizador converter relatórios do formato digital para o formato OWL. ABSTRACT: Technological evolution has caused a medicine evolution through computer systems which allow storage, gathering and availability of medical information. Medical reports are, most of the times, stored in a non-structured free text and written in a personal way so that misunderstandings may occur. Through Semantic Web languages, it’s possible to use ontology as a way to structure and standardize medical reports information by adding semantic notes. The information in those reports can, by these means, be displayed on the web, allowing machines automatic information processing. However, the process of creating ontology is very complex, as there is a risk creating of an ontology that not covering the whole desired domain. This work is about creation of an ontology and its population through NLP and Machine Learning techniques to extract information from medical reports. An application was developed which allows the user to convert reports from digital for¬ mat to OWL format.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Objetivo. Estudar a mortalidade relacionada à paracoccidioidomicose informada em qualquer linha ou parte do atestado médico da declaração de óbito. Métodos. Os dados provieram dos bancos de causas múltiplas de morte da Fundação Sistema Estadual de Análise de Dados (SEADE) de São Paulo entre 1985 e 2005. Foram calculados os coeficientes padronizados de mortalidade relacionada à paracoccidioidomicose como causa básica, como causa associada e pelo total de suas menções. Resultados. No período de 21 anos ocorreram 1 950 óbitos, sendo a paracoccidioidomicose a causa básica de morte em 1 164 (59,7%) e uma causa associada de morte em 786 (40,3%). Entre 1985 e 2005 observou-se um declínio do coeficiente de mortalidade pela causa básica de 59,8% e pela causa associada, de 53,0%. O maior número de óbitos ocorreu entre os homens, nas idades mais avançadas, entre lavradores, com tendência de aumento nos meses de inverno. As principais causas associadas da paracoccidioidomicose como causa básica foram a fibrose pulmonar, as doenças crônicas das vias aéreas inferiores e as pneumonias. As neoplasias malignas e a AIDS foram as principais causas básicas estando a paracoccidioidomicose como causa associada. Verificou-se a necessidade de adequar as tabelas de decisão para o processamento automático de causas de morte nos atestados de óbito com a menção de paracoccidioidomicose. Conclusões. A metodologia das causas múltiplas de morte, conjugada com a metodologia tradicional da causa básica, abre novas perspectivas para a pesquisa que visa a ampliar o conhecimento sobre a história natural da paracoccidioidomicose.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Actualmente tem-se observado um aumento do volume de sinais de fala em diversas aplicações, que reforçam a necessidade de um processamento automático dos ficheiros. No campo do processamento automático destacam-se as aplicações de “diarização de orador”, que permitem catalogar os ficheiros de fala com a identidade de oradores e limites temporais de fala de cada um, através de um processo de segmentação e agrupamento. No contexto de agrupamento, este trabalho visa dar continuidade ao trabalho intitulado “Detecção do Orador”, com o desenvolvimento de um algoritmo de “agrupamento multi-orador” capaz de identificar e agrupar correctamente os oradores, sem conhecimento prévio do número ou da identidade dos oradores presentes no ficheiro de fala. O sistema utiliza os coeficientes “Mel Line Spectrum Frequencies” (MLSF) como característica acústica de fala, uma segmentação de fala baseada na energia e uma estrutura do tipo “Universal Background Model - Gaussian Mixture Model” (UBM-GMM) adaptado com o classificador “Support Vector Machine” (SVM). No trabalho foram analisadas três métricas de discriminação dos modelos SVM e a avaliação dos resultados foi feita através da taxa de erro “Speaker Error Rate” (SER), que quantifica percentualmente o número de segmentos “fala” mal classificados. O algoritmo implementado foi ajustado às características da língua portuguesa através de um corpus com 14 ficheiros de treino e 30 ficheiros de teste. Os ficheiros de treino dos modelos e classificação final, enquanto os ficheiros de foram utilizados para avaliar o desempenho do algoritmo. A interacção com o algoritmo foi dinamizada com a criação de uma interface gráfica que permite receber o ficheiro de teste, processá-lo, listar os resultados ou gerar um vídeo para o utilizador confrontar o sinal de fala com os resultados de classificação.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Trabalho Final de Mestrado elaborado no Laboratório de Engenharia Civil (LNEC) para obtenção do grau de Mestre em Engenharia Civil pelo Instituto Superior de Engenharia de Lisboa no âmbito do protocolo de cooperação entre o ISEL e o LNEC

Relevância:

60.00% 60.00%

Publicador:

Resumo:

WWW is a huge, open, heterogeneous system, however its contents data is mainly human oriented. The Semantic Web needs to assure that data is readable and “understandable” to intelligent software agents, though the use of explicit and formal semantics. Ontologies constitute a privileged artifact for capturing the semantic of the WWW data. Temporal and spatial dimensions are transversal to the generality of knowledge domains and therefore are fundamental for the reasoning process of software agents. Representing temporal/spatial evolution of concepts and their relations in OWL (W3C standard for ontologies) it is not straightforward. Although proposed several strategies to tackle this problem but there is still no formal and standard approach. This work main goal consists of development of methods/tools to support the engineering of temporal and spatial aspects in intelligent systems through the use of OWL ontologies. An existing method for ontology engineering, Fonte was used as framework for the development of this work. As main contributions of this work Fonte was re-engineered in order to: i) support the spatial dimension; ii) work with OWL Ontologies; iii) and support the application of Ontology Design Patterns. Finally, the capabilities of the proposed approach were demonstrated by engineering time and space in a demo ontology about football.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Nesta dissertação é apresentado um estudo dos sistemas de processamento automático de imagem em contexto de um problema relacionado com a individualização de neurónios em imagens da nematoda C. elegans durante estudos relacionados com a doença de Parkinson. Apresenta-se uma breve introdução à anatomia do verme, uma introdução à doença de Parkinson e uso do C. elegans em estudos relacionados e também é feita a análise de artigos em contexto de processamento de imagem para contextualizar a situação atual de soluções para o problema de extração de características e regiões específicas. Neste projeto é desenvolvida uma pipeline com o auxilio do software CellProfiler para procurar uma resposta para o problema em questão.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

O presente trabalho cujo Título é técnicas de Data e Text Mining para a anotação dum Arquivo Digital, tem como objectivo testar a viabilidade da utilização de técnicas de processamento automático de texto para a anotação das sessões dos debates parlamentares da Assembleia da República de Portugal. Ao longo do trabalho abordaram-se conceitos como tecnologias de descoberta do conhecimento (KDD), o processo da descoberta do conhecimento em texto, a caracterização das várias etapas do processamento de texto e a descrição de algumas ferramentas open souce para a mineração de texto. A metodologia utilizada baseou-se na experimentação de várias técnicas de processamento textual utilizando a open source R/tm. Apresentam-se, como resultados, a influência do pré-processamento, tamanho dos documentos e tamanhos dos corpora no resultado do processamento utilizando o algoritmo knnflex.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online.