999 resultados para Processamento automático de línguas naturais (PLN)
Resumo:
Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online.
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
Pós-graduação em Linguística e Língua Portuguesa - FCLAR
Resumo:
No presente trabalho, apresentamos uma proposta de tratamento semântico de formas ambíguas do português do Brasil, no caso, lexias homógrafas, com o escopo de oferecermos estratégias lingüísticas para a sua implementação computacional em Sistemas de Processamento das Línguas Naturais (SPLN). O Léxico Gerativo de Pustejovsky foi usado como modelo teórico. Nesse modelo, a Estrutura Qualia - EQ (e os papéis Formal, Télico, Agentivo e Constitutivo) foi selecionada como um dos expedientes lingüístico-semânticos para a realização da desambiguação das formas homônimas. Para que os dados analisados e tratados pudessem ser manipulados, elaboramos uma Base de Conhecimento Lexical (BCL) cujo repertório lingüístico possui seus itens lexicais correlacionados e interligados por diferentes tipos de relações semânticas presentes na EQ.
Resumo:
A recuperação da produção científica por autoria é um desafio para diversos mantenedores de bases de dados, devido à ambiguidade causada por problemas derivados da falta de controle no momento da indexação. Este estudo apresenta um método automático para verificação de ocorrência de erros em dados de autorias da base de produção científica da Universidade de São Paulo (Dedalus) tomando como base o banco institucional de recursos humanos. Por meio de algoritmos de busca aproximada, compararam-se esses dados com os dados de autoria registrados no banco de produção científica de quatro unidades da USP (período de 2006-2010). Com base nesse estudo piloto foi possível estabelecer mecanismos de interoperabilidade entre o banco da produção e os bancos institucionais de recursos humanos, além de permitir mapear a porcentagem de erros, desenvolver mecanismos de interferência e estabelecer um cronograma para ampliar o estudo as demais unidades USP, bem como procedimentos de normalização.
Resumo:
A recuperação da produção científica por autoria é um desafio para diversos mantenedores de bases de dados, devido à ambiguidade causada por problemas de homonímia e possíveis variações e alterações de nome de uma mesma pessoa. A abordagem deste problema de pesquisa vem sendo proposta conjuntamente por pesquisadores das áreas de Ciência da Computação e Ciência da Informação, fazendo uso de metodologias diversas. Este estudo apresenta um método automático para verificação de ocorrência de erros em dados de autorias da base de produção científica da Universidade de São Paulo (Dedalus) tomando como base o banco corporativo de funcionários ,tanto informações administrativas e acadêmicas do sistema Tycho, ambos da USP. O Tycho forneceu informações de contexto (lista de autoridades) permitindo, por meio de algoritmos de busca aproximada, a identificação e contagem automática das variações dos nomes, bem como potenciais problemas nos registros bibliográficos.
Resumo:
Objetivo. Estudar a mortalidade relacionada à paracoccidioidomicose informada em qualquer linha ou parte do atestado médico da declaração de óbito. Métodos. Os dados provieram dos bancos de causas múltiplas de morte da Fundação Sistema Estadual de Análise de Dados (SEADE) de São Paulo entre 1985 e 2005. Foram calculados os coeficientes padronizados de mortalidade relacionada à paracoccidioidomicose como causa básica, como causa associada e pelo total de suas menções. Resultados. No período de 21 anos ocorreram 1 950 óbitos, sendo a paracoccidioidomicose a causa básica de morte em 1 164 (59,7%) e uma causa associada de morte em 786 (40,3%). Entre 1985 e 2005 observou-se um declínio do coeficiente de mortalidade pela causa básica de 59,8% e pela causa associada, de 53,0%. O maior número de óbitos ocorreu entre os homens, nas idades mais avançadas, entre lavradores, com tendência de aumento nos meses de inverno. As principais causas associadas da paracoccidioidomicose como causa básica foram a fibrose pulmonar, as doenças crônicas das vias aéreas inferiores e as pneumonias. As neoplasias malignas e a AIDS foram as principais causas básicas estando a paracoccidioidomicose como causa associada. Verificou-se a necessidade de adequar as tabelas de decisão para o processamento automático de causas de morte nos atestados de óbito com a menção de paracoccidioidomicose. Conclusões. A metodologia das causas múltiplas de morte, conjugada com a metodologia tradicional da causa básica, abre novas perspectivas para a pesquisa que visa a ampliar o conhecimento sobre a história natural da paracoccidioidomicose.
Resumo:
Actualmente tem-se observado um aumento do volume de sinais de fala em diversas aplicações, que reforçam a necessidade de um processamento automático dos ficheiros. No campo do processamento automático destacam-se as aplicações de “diarização de orador”, que permitem catalogar os ficheiros de fala com a identidade de oradores e limites temporais de fala de cada um, através de um processo de segmentação e agrupamento. No contexto de agrupamento, este trabalho visa dar continuidade ao trabalho intitulado “Detecção do Orador”, com o desenvolvimento de um algoritmo de “agrupamento multi-orador” capaz de identificar e agrupar correctamente os oradores, sem conhecimento prévio do número ou da identidade dos oradores presentes no ficheiro de fala. O sistema utiliza os coeficientes “Mel Line Spectrum Frequencies” (MLSF) como característica acústica de fala, uma segmentação de fala baseada na energia e uma estrutura do tipo “Universal Background Model - Gaussian Mixture Model” (UBM-GMM) adaptado com o classificador “Support Vector Machine” (SVM). No trabalho foram analisadas três métricas de discriminação dos modelos SVM e a avaliação dos resultados foi feita através da taxa de erro “Speaker Error Rate” (SER), que quantifica percentualmente o número de segmentos “fala” mal classificados. O algoritmo implementado foi ajustado às características da língua portuguesa através de um corpus com 14 ficheiros de treino e 30 ficheiros de teste. Os ficheiros de treino dos modelos e classificação final, enquanto os ficheiros de foram utilizados para avaliar o desempenho do algoritmo. A interacção com o algoritmo foi dinamizada com a criação de uma interface gráfica que permite receber o ficheiro de teste, processá-lo, listar os resultados ou gerar um vídeo para o utilizador confrontar o sinal de fala com os resultados de classificação.
Resumo:
Polissema: Revista de Letras do ISCAP 2002/N.º 2 Linguagens
Resumo:
Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.
Resumo:
WWW is a huge, open, heterogeneous system, however its contents data is mainly human oriented. The Semantic Web needs to assure that data is readable and “understandable” to intelligent software agents, though the use of explicit and formal semantics. Ontologies constitute a privileged artifact for capturing the semantic of the WWW data. Temporal and spatial dimensions are transversal to the generality of knowledge domains and therefore are fundamental for the reasoning process of software agents. Representing temporal/spatial evolution of concepts and their relations in OWL (W3C standard for ontologies) it is not straightforward. Although proposed several strategies to tackle this problem but there is still no formal and standard approach. This work main goal consists of development of methods/tools to support the engineering of temporal and spatial aspects in intelligent systems through the use of OWL ontologies. An existing method for ontology engineering, Fonte was used as framework for the development of this work. As main contributions of this work Fonte was re-engineered in order to: i) support the spatial dimension; ii) work with OWL Ontologies; iii) and support the application of Ontology Design Patterns. Finally, the capabilities of the proposed approach were demonstrated by engineering time and space in a demo ontology about football.
Resumo:
Os estudos de lingüística, ao mesmo tempo que descrevem e analisam as formas disponíveis em cada sistema, assentam essa descrição em propostas metateóricas de forma a delimitar uma compreensão sobre o funcionamento das línguas naturais. Ao definir um conjunto de hipóteses, a lingüística constrói os mecanismos abstractos que regulam a produção e o reconhecimento de formas. No quadro teórico onde me situo (Teoria Formal Enunciativa, doravante TFE) entende-se a actividade da linguagem como uma actividade de produção e de reconhecimento de formas lingüísticas. A partir da sub-teoria dos níveis de representação metalinguística propõe- se um modelo de descrição dos factos da língua assumindo-se que o nível textual - ou lingüístico - é representante de um primeiro nível a que o lingüista não tem directamente acesso: o nível nocional. Será neste nível que às noções - feixes de propriedades físico-culturais - se associam as operações que se evidenciarão no nível textual como marcas gramaticais pertinentes.
Resumo:
A versão inicial, apelidada "standard" (cf. Ducrot 1990: 81), foi construída a partir da observação do funcionamento de alguns elementos linguísticos, como peu, un peu e mais. Na altura, dois tipos de preocupações caracterizavam o posicionamento teórico dos autores: Primeiro, demarcar-se da tendência para "alargar" a análise lógica ao estudo das línguas naturais, nomeadamente dos conectores. Segundo, opor-se às abordagens "descritivistas", com a sua redução do estudo do sentido ao nível informativo. Terá sido muito provavelmente este segundo objectivo que determinou em grande parte a escolha do nome pelo qual a teoria é conhecida. De facto, a expressão "argumentação na língua" alerta para a existência de uma argumentatividade a nível profundo, ou abstracto, a relacionar com a informatividade.
Resumo:
Nesta dissertação é apresentado um estudo dos sistemas de processamento automático de imagem em contexto de um problema relacionado com a individualização de neurónios em imagens da nematoda C. elegans durante estudos relacionados com a doença de Parkinson. Apresenta-se uma breve introdução à anatomia do verme, uma introdução à doença de Parkinson e uso do C. elegans em estudos relacionados e também é feita a análise de artigos em contexto de processamento de imagem para contextualizar a situação atual de soluções para o problema de extração de características e regiões específicas. Neste projeto é desenvolvida uma pipeline com o auxilio do software CellProfiler para procurar uma resposta para o problema em questão.
Resumo:
A criação de uniões, como a União Europeia e o Mercosul, o aumento do intercâmbio de mercadorias, de informações e conhecimentos, etc. estabelece novos trabalhos na área da Terminologia Científica e Técnica, tanto bilíngue como monolíngue, inclusive entre variantes de uma mesma língua, como o Português Brasileiro (PB) e o Português Europeu (PE), o que torna relevante o conhecimento das variantes fraseoterminológicas entre duas normas linguísticas para o especialista e para o tradutor. Sendo a Culinária uma área que proporciona vários tipos de intercâmbios, como linguístico, cultural, mercantil, etc. e, dessa forma, necessitando trocar conhecimentos, nosso estudo propõe, através de uma perspectiva interdisciplinar que engloba a Terminologia, numa ótica variacionista, a Fraseologia e a Linguística de Corpus, estabelecer critérios para identificar, emparelhar, contrastar e descrever as unidades fraseoterminológicas (UFT) da Culinária do PB e do PE, almejando, por conseguinte, estruturá-las numa ferramenta que seja útil aos especialistas, estudantes e tradutores dessa área. O desenvolvimento deste trabalho está organizado em sete capítulos. O primeiro, apresenta a Culinária, traçando um panorama histórico dessa área, e estabelece o mapa conceitual da Culinária que, além de servir para a organização das relações conceituais no dicionário, limita o universo da pesquisa. O segundo aborda a variação em Terminologia, bem como as principais tendências da Terminologia que aceitam a variação terminológica. O terceiro explana a Fraseologia, desde a língua corrente até à língua de especialidade, e estabelece os critérios para recolha dos candidatos a UFT da Culinária. O quarto apresenta brevemente a Linguística de Corpus e traça os caminhos seguidos para a constituição dos dois corpora textuais da Culinária, compostos de receitas culinárias e técnicas de preparo, os quais serviram para o levantamento da terminologia. O quinto trata da coleta e organização das unidades fraseoterminológicas da Culinária em PB bem como das respectivas variantes em PE e seu armazenamento em Base de Dados. O sexto, analisa a variação entre os pares de UFT selecionados para esse fim, descreve os contrastes detectados, e apresenta uma tipologia contrastiva dessas UFT variantes entre PB e PE. O sétimo apresenta o projeto do Dicionário Fraseológico Contrastivo de Culinária: Português Brasileiro - Português Europeu, descrevendo suas partes e o sistema de remissivas. Com base nas reflexões teóricas e na análise dos dados recolhidos, pudemos, além de identificar, emparelhar e descrever as diferentes formas assumidas do discurso da Culinária pelas UFT, chegar a um projeto de dicionário fraseoterminológico, cuja microestrutura possibilitará, mais que compreender o significado da UT, encontrar elementos para produzir um texto, visando, desse modo, as necessidades reais de tradutores e redatores, que carecem de recursos para o uso adequado das UFT presentes nas línguas de especialidade. Os resultados obtidos reafirmam que a variação terminológica é um fenômeno inerente aos domínios de especialidade, assim como às línguas naturais em que estão inseridas e, portanto, não deve ser ignorado na hora de elaborar dicionários terminológicos.