45 resultados para Etiquetagem morfossintática
Resumo:
A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.
Resumo:
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Resumo:
Pós-graduação em Estudos Linguísticos - IBILCE
Resumo:
The discussions about the energy rationalization are gaining more and more space on the everyday of engineers and other professionals in the field of energy. A greater focus is being tied to commercial buildings, because they are one of the biggest responsible for the high energetic expenditure according to the National Energetic Balance, especially by the use of air conditioners for the people’s thermal comfort. Such finding made INMETRO to develop a building labeling procedure through th National Program of Electric Energy Conservation in Buildings; by means of this systematic, the built areas are classified by levels that go from A(the best) to E(the worst), taking into account envelopment, illumination system and air conditioning. A bonus process based on water rationalization, use of renewable energy sources, cogeneration systems or technical innovations, allows the classification to be changed up to one level. A study made exactly on a commercial building, the building of Foundation for Technological and Scientific Development located inside of the College of Engineering of Guaratinguetá, sought to identify technical/economic alternatives for the building certification and appealed to the bonus based on water rationalization. The present study is based on analysis of deploying a cogeneration system formed by internal combustion engine and an absorption refrigeration system as bonus alternative, so that the costs are analyzed regarding energy consumption and use of the motor. With the calculations and results, the viability of the building to receive a bonus from INMETRO through its National Program for Energy Conservation in Buildings is studied and concluded from this study whether or not you can get a better level of energy efficiency for the building in question... (Complete abstract click electronic access below)
Resumo:
Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Resumo:
Neste trabalho, analiso aspectos da constituição e do uso do juntor que nem, em dados da modalidade de enunciação falada do português. A questão maior é mostrar que a inserção de que nem no paradigma dos juntores, por meio de processos de gramaticalização, resulta em quatro novos padrões funcionais, que refletem uma rede de parentesco semântico no domínio das relações modais. As construções com que nem são descritas a partir do pareamento entre forma e significado, com o propósito de defender que arquiteturas sintáticas diferenciadas contribuem para a interpretação da polifuncionalidade semântica de que nem; e que as fontes sincrônicas do português ajudam a desvendar etapas do processo de reanálise de que e nem, tendo em vista as tendências diacrônicas sobre mudança de juntores nas línguas (Kortmann, 1997).
Resumo:
A organização automática de mensagens de correio electrónico é um desafio actual na área da aprendizagem automática. O número excessivo de mensagens afecta cada vez mais utilizadores, especialmente os que usam o correio electrónico como ferramenta de comunicação e trabalho. Esta tese aborda o problema da organização automática de mensagens de correio electrónico propondo uma solução que tem como objectivo a etiquetagem automática de mensagens. A etiquetagem automática é feita com recurso às pastas de correio electrónico anteriormente criadas pelos utilizadores, tratando-as como etiquetas, e à sugestão de múltiplas etiquetas para cada mensagem (top-N). São estudadas várias técnicas de aprendizagem e os vários campos que compõe uma mensagem de correio electrónico são analisados de forma a determinar a sua adequação como elementos de classificação. O foco deste trabalho recai sobre os campos textuais (o assunto e o corpo das mensagens), estudando-se diferentes formas de representação, selecção de características e algoritmos de classificação. É ainda efectuada a avaliação dos campos de participantes através de algoritmos de classificação que os representam usando o modelo vectorial ou como um grafo. Os vários campos são combinados para classificação utilizando a técnica de combinação de classificadores Votação por Maioria. Os testes são efectuados com um subconjunto de mensagens de correio electrónico da Enron e um conjunto de dados privados disponibilizados pelo Institute for Systems and Technologies of Information, Control and Communication (INSTICC). Estes conjuntos são analisados de forma a perceber as características dos dados. A avaliação do sistema é realizada através da percentagem de acerto dos classificadores. Os resultados obtidos apresentam melhorias significativas em comparação com os trabalhos relacionados.
Resumo:
Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.
Resumo:
A Distribuição Individual Diária em Dose Unitária deve assegurar o maior rigor no Processo de Distribuição de Medicamentos, o que nem sempre se verificou no Hospital Pedro Hispano, dado que as Doses Unitárias devolvidas pelos Serviços de Internamento, nem sempre seguiam os Parâmetros de Qualidade. Assim, desenvolveu-se um estudo quasi-experimental, longitudinal, prospetivo e analítico, entre 1 de Março a 30 de Junho de 2012, no qual se analisaram as Doses Unitárias, devolvidas pelos Serviços de Internamento da Unidade Local de Saúde de Matosinhos a funcionam com Distribuição Individual Diária em Dose Unitária, tendo-se recolhido as não conformes relativamente aos Parâmetros de Qualidade instituídos. Na 1.ª fase do estudo (Recolha de amostras), foram contabilizadas 337 amostras, correspondentes a uma perda de 471 €. Na 2.ª fase do estudo (Implementação de acções correctivas às amostras previamente recolhidas), foram rejeitadas definitivamente 129 amostras, correspondentes a uma perda de 198 €. Na 4.ª fase do estudo (Segunda recolha de amostras), foram contabilizadas 228 amostras, correspondentes a uma perda de 199 €. A 3.ª fase do estudo incluiu a divulgação dos resultados às enfermeiras chefes dos serviços envolvidos no estudo e a 5.ª fase a comparação dos resultados obtidos na 1.ª, 2.ª e 4.ª fase do estudo. As amostras foram recolhidas em 16 serviços de internamento, sendo os valores monetários mais relevantes associados ao Espessante para alimentos líquidos e ao Imipeno + Cilastatina. A prática observada e sujeita a estudo aumenta os riscos associados ao consumo do medicamento e os custos relativos ao Processo, sendo de eliminar. A sua monitorização deve constituir uma rotina, uma vez que houve mudança de comportamentos. A redução/eliminação desta prática não conforme conduz à integração de novas tarefas com valor acrescentado, com aumento da fiabilidade do Processo.
Resumo:
A pessoa idosa deverá ser responsável pela prevenção da saúde, vigilância e medicalização mas também pela adoção de comportamentos saudáveis, alimentar-se, prática de atividade física e participar em atividades de lazer, numa clara correlação entre o imediato e o futuro. O grupo de pessoas mais velhas, com 60 e mais anos, continuará a aumentar exponencialmente nos anos vindouros. Portugal - 19% população idosa (Censo de 2011). Três pilares de envelhecimento ativo: Saúde e qualidade de vida; Segurança; Participação. A participação, os idosos e a tecnologia raramente aparecem interligados. Teleassistência aos idosos: contactos audiovisuais e em tempo real entre pacientes e cuidadores; tecnologias integradas sob a forma de casas inteligentes; roupa e mobiliário inteligente; tecnologias de etiquetagem/alerta eletrónica; implantes e dispositivos para monitorização de doenças crónicas.
Resumo:
Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para obtenção do grau de Mestre em Engenharia Electrotécnica e Computadores
Resumo:
Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para obtenção do grau de Mestre em Engenharia Civil – Perfil de Construção
Resumo:
Tese de doutoramento em Linguística, especialidade de Lexicologia - Terminologia
Resumo:
O trabalho foi desenvolvido em Botucatu, SP, e teve por objetivo determinar o momento de ocorrência do máximo potencial de germinação durante a maturação das sementes de canafístula, relacionando-a com a secagem dos frutos. Cinco árvores, em final de floração, tiveram 15 inflorescências etiquetadas em 06/02/ 2002. As colheitas, realizadas semanalmente, foram iniciadas na quinta semana após a etiquetagem (35 DAE) e finalizaram quando ocorreu o início da dispersão dos frutos (98 DAE), totalizando 10 colheitas. Os frutos das cinco plantas foram colhidos e avaliados separadamente. Em cada colheita, os frutos foram divididos em duas porções: uma teve as sementes extraídas (sementes frescas), e a outra foi posta para secar em ambiente natural de laboratório para, então, se extraírem as sementes (sementes secas). Determinaram-se o teor de água e a massa seca de 100 sementes frescas e 100 secas. Os testes de germinação das sementes, frescas e secas, foram realizados com e sem escarificação. O delineamento experimental utilizado foi o de blocos casualizados, considerando-se a árvore e o bloco. A maior capacidade germinativa das sementes foi atingida após a ocorrência do máximo acúmulo de massa. O máximo potencial de germinação, detectado nas sementes escarificadas, foi observado no início da dispersão, quando predominavam sementes duras. A maturação, a germinação e a instalação da dormência em semente imatura foram antecipadas com a sua secagem no interior do fruto separado da planta-mãe.