274 resultados para Arquiteturas SMT
Resumo:
Statistical Machine Translation (SMT) is one of the potential applications in the field of Natural Language Processing. The translation process in SMT is carried out by acquiring translation rules automatically from the parallel corpora. However, for many language pairs (e.g. Malayalam- English), they are available only in very limited quantities. Therefore, for these language pairs a huge portion of phrases encountered at run-time will be unknown. This paper focuses on methods for handling such out-of-vocabulary (OOV) words in Malayalam that cannot be translated to English using conventional phrase-based statistical machine translation systems. The OOV words in the source sentence are pre-processed to obtain the root word and its suffix. Different inflected forms of the OOV root are generated and a match is looked up for the word variants in the phrase translation table of the translation model. A Vocabulary filter is used to choose the best among the translations of these word variants by finding the unigram count. A match for the OOV suffix is also looked up in the phrase entries and the target translations are filtered out. Structuring of the filtered phrases is done and SMT translation model is extended by adding OOV with its new phrase translations. By the results of the manual evaluation done it is observed that amount of OOV words in the input has been reduced considerably
Resumo:
In Statistical Machine Translation from English to Malayalam, an unseen English sentence is translated into its equivalent Malayalam sentence using statistical models. A parallel corpus of English-Malayalam is used in the training phase. Word to word alignments has to be set among the sentence pairs of the source and target language before subjecting them for training. This paper deals with certain techniques which can be adopted for improving the alignment model of SMT. Methods to incorporate the parts of speech information into the bilingual corpus has resulted in eliminating many of the insignificant alignments. Also identifying the name entities and cognates present in the sentence pairs has proved to be advantageous while setting up the alignments. Presence of Malayalam words with predictable translations has also contributed in reducing the insignificant alignments. Moreover, reduction of the unwanted alignments has brought in better training results. Experiments conducted on a sample corpus have generated reasonably good Malayalam translations and the results are verified with F measure, BLEU and WER evaluation metrics.
Resumo:
Suffix separation plays a vital role in improving the quality of training in the Statistical Machine Translation from English into Malayalam. The morphological richness and the agglutinative nature of Malayalam make it necessary to retrieve the root word from its inflected form in the training process. The suffix separation process accomplishes this task by scrutinizing the Malayalam words and by applying sandhi rules. In this paper, various handcrafted rules designed for the suffix separation process in the English Malayalam SMT are presented. A classification of these rules is done based on the Malayalam syllable preceding the suffix in the inflected form of the word (check_letter). The suffixes beginning with the vowel sounds like ആല, ഉെെ, ഇല etc are mainly considered in this process. By examining the check_letter in a word, the suffix separation rules can be directly applied to extract the root words. The quick look up table provided in this paper can be used as a guideline in implementing suffix separation in Malayalam language
Resumo:
In Statistical Machine Translation from English to Malayalam, an unseen English sentence is translated into its equivalent Malayalam translation using statistical models like translation model, language model and a decoder. A parallel corpus of English-Malayalam is used in the training phase. Word to word alignments has to be set up among the sentence pairs of the source and target language before subjecting them for training. This paper is deals with the techniques which can be adopted for improving the alignment model of SMT. Incorporating the parts of speech information into the bilingual corpus has eliminated many of the insignificant alignments. Also identifying the name entities and cognates present in the sentence pairs has proved to be advantageous while setting up the alignments. Moreover, reduction of the unwanted alignments has brought in better training results. Experiments conducted on a sample corpus have generated reasonably good Malayalam translations and the results are verified with F measure, BLEU and WER evaluation metrics
Resumo:
Lipid Droplets dienen zur Speicherung von Neutrallipiden wie z. B. Triglyceriden und Sterolestern. Im ersten Teil der vorliegenden Arbeit wurde die Bildung dieser zellulären Fettspeicher in D. discoideum untersucht. Es konnte herausgefunden werden, dass Lipid Droplets entstehen, wenn die Zellen entweder in einer Suspension von Bakterien oder in Gegenwart von Palmitinsäure kultiviert werden. Die Bildung der Lipidtröpfchen wird dabei von einem schnelleren Zellwachstum, einem Anstieg des Triglyceridgehalts, einer Reduktion der Phagozytoserate und einer Abnahme des Zellvolumens begleitet. Wurde die Lipid Droplet-Bildung durch Kultivierung der Zellen mit Palmitinsäure angeregt, entsteht neben Triglyceriden noch eine weitere Verbindung, bei der es sich entweder um Fettsäureethylester oder Wachsester handelt. Eine weitere Eigenschaft von Zellen, die in Gegenwart der Palmitinsäure inkubiert wurden, ist die Fähigkeit exogene Fettsäuren schneller aufzunehmen, als normal kultivierte Zellen. Aus der vorliegenden Arbeit wurde gefolgert, dass dies durch eine zusätzliche Aufnahme der Fettsäuren über die Plasmamembran hervorgerufen wird. In Zellen, die ohne Fettsäuren inkubiert wurden, findet hingegen der Fettsäureimport über die Endosomen statt. Ein Protein, das nicht direkt am Prozess der Fettsäureaufnahme beteiligt ist, aber importierte Fettsäuren mit CoA aktiviert, ist die LC-FACS1. Aus Versuchen mit der Knockout-Mutante ging hervor, dass die aktivierten Fettsäuren, in Zellen, die zuvor mit Palmitinsäure oder Bakterien inkubiert wurden, in Triglyceride eingebaut werden. Der reduzierte Triglyceridgehalt im Knockout rief eine Erhöhung der Phagozytoserate hervor. Im zweiten Teil dieser Arbeit wurden die Lipidtröpfchen mit einem Saccharosegradienten aufgereinigt. Mit Hilfe der Massenspektrometrie konnten 281 Proteine in der Lipid Droplet-Fraktion identifiziert werden. Ein Teil dieser Proteine könnte durch die Interaktion der Lipidtröpfchen mit anderen Organellen in die Lipid Droplet-Fraktion gelangt sein und ist ebenso wenig Teil des Lipid Droplet-Proteoms wie die zytoplasmatischen Proteine, die eine Verunreinigung darstellen. Vier der zehn Proteine aus der Lipid Droplet-Fraktion, die in der vorliegenden Arbeit untersucht wurden, konnten nach Kultivierung in palmitinsäurehaltigem Medium tatsächlich auf der Oberfläche der Lipidtröpfchen beobachtet werden. Eines dieser Proteine ist LSD1. Es stellt das einzige PAT-Protein in D. discoideum dar und gehört der Kategorie der CPATs an. Analog zu Perilipin/PLIN1 und Adipophilin/PLIN2 könnte LSD1 eine Schutzfunktion der Lipid Droplets vor zytoplasmatischen Lipasen haben. Neben DdLSD1 konnten auch die Proteine ADH und ALI auf den Lipidtröpfchen lokalisiert werden. Bei beiden handelt es sich um 17beta-Hydroxysteroid-Dehydrogenasen - Proteine, die eine Funktion im Lipid- oder Fettsäuremetabolismus besitzen können. Das Protein SMT katalysiert die C24-Methylierung des Sterolgerüsts in D. discoideum und war nach Inkubation der Zellen mit exogenen Fettsäuren ebenfalls auf den Lipid Droplets zu beobachten.
Resumo:
The overall operation and internal complexity of a particular production machinery can be depicted in terms of clusters of multidimensional points which describe the process states, the value in each point dimension representing a measured variable from the machinery. The paper describes a new cluster analysis technique for use with manufacturing processes, to illustrate how machine behaviour can be categorised and how regions of good and poor machine behaviour can be identified. The cluster algorithm presented is the novel mean-tracking algorithm, capable of locating N-dimensional clusters in a large data space in which a considerable amount of noise is present. Implementation of the algorithm on a real-world high-speed machinery application is described, with clusters being formed from machinery data to indicate machinery error regions and error-free regions. This analysis is seen to provide a promising step ahead in the field of multivariable control of manufacturing systems.
Resumo:
Taphonomic studies regularly employ animal analogues for human decomposition due to ethical restrictions relating to the use of human tissue. However, the validity of using animal analogues in soil decomposition studies is still questioned. This study compared the decomposition of skeletal muscle tissues (SMTs) from human (Homo sapiens), pork (Sus scrofa), beef (Bos taurus), and lamb (Ovis aries) interred in soil microcosms. Fixed interval samples were collected from the SMT for microbial activity and mass tissue loss determination; samples were also taken from the underlying soil for pH, electrical conductivity, and nutrient (potassium, phosphate, ammonium, and nitrate) analysis. The overall patterns of nutrient fluxes and chemical changes in nonhuman SMT and the underlying soil followed that of human SMT. Ovine tissue was the most similar to human tissue in many of the measured parameters. Although no single analogue was a precise predictor of human decomposition in soil, all models offered close approximations in decomposition dynamics.
Resumo:
Little is known about the effect of edaphic conditions on the decomposition of buried mammalian tissues. To address this, we set up a replicated incubation study with three fresh soils of contrasting pH: a Podsol (acidic), a Cambisol (neutral), and a Rendzina (alkaline), in which skeletal muscle tissue (SMT) of known mass was allowed to decompose. Our results clearly demonstrated that soil type had a considerable effect on the decomposition of SMT buried in soil. Differences in the rate of decomposition were up to three times greater in the Podsol compared with the Rendzina. The rate of microbial respiration was correlated to the rate of soft tissue loss, which suggests that the decomposition of SMT is dependent on the microbial community present in the soil. Decompositional by-products caused the pH of the immediate soil environment to change, becoming more alkaline at first, before acidifying. Our results demonstrate the need for greater consideration of soil type in future taphonomic studies.
Resumo:
O objetivo deste trabalho é a proposta de uma arquitetura especial para simulação lógica (AESL). As técnicas e modelos utilizados no processo de simulação lógica são brevemente revistos. É definida uma taxonomia para AESL sob a qual são analisadas diversas propostas de AESL relatadas na literatura. Uma taxonomia já existente é comparada com a proposta. A AESL definida é programável para diferentes algoritmos de simulação lógica. O detalhamento da AESL é, então, incrementado pela implementação de um algoritmo particular. Uma linguagem de simulação discreta é utilizada na construção de um modelo da arquitetura. Os resultados da simulação deste modelo permitem avaliar o desempenho da AESL e otimizar sua estrutura. Uma comparação com outras arquiteturas conclui a análise.
Resumo:
O interesse de pesquisa da comunidade de Inteligência Artificial em Sistemas Multiagentes tem gerado o crescimento da utilização de técnicas de agentes nas mais diversas áreas da ciência da computação. Isso ocorre, principalmente, devido à variedade de aplicações em que esses sistemas podem ser usados, como por exemplo: jogos de computadores, interfaces adaptativas, simulação e controle de processos industriais. The Robot World Cup Initiative (RoboCup) é uma tentativa de estimular a área de Inteligência Artificial e, principalmente de Sistemas Multiagentes, por promover um problema padrão, jogar futebol, onde uma ampla cadeia de tecnologias podem ser integradas, examinadas e comparadas. A utilização do ambiente da RoboCup para a simulação de uma partida de futebol (simulador Soccerserver) permite a avaliação de diferentes técnicas de Sistemas Multiagentes (planejamento de estratégias, conhecimento em tempo real, colaboração de agentes, princípios de agentes autônomos, entre outros) e estimula as pesquisas, investigações e testes que possibilitem a construção gradativa de agentes avançados. O presente trabalho tem por objetivo o desenvolvimento de um time de futebol para o simulador Soccerserver. A idéia principal é desenvolver agentes jogadores que demonstrem um nível considerável de competência para a realização de suas tarefas, como percepção, ação, cooperação, estratégias pré-definidas, decisão e previsão. Inicialmente, apresenta-se uma visão geral sobre Inteligência Artificial Distribuída e sobre o simulador Soccerserver, pré-requisitos para o restante do trabalho. A seguir, é realizado um estudo sobre algumas arquiteturas de agentes (clientes) do Soccerserver. A arquitetura proposta na dissertação, suas principais características e a sua materialização em um protótipo desenvolvido correspondem à parte principal do trabalho. Finalmente são apresentados os testes realizados e as conclusões do trabalho.
Resumo:
Este estudo tem como objetivo analisar as diferentes metodologias existentes para criação de Depósito de Dados (DD) e determinar uma metodologia que melhor atenda às necessidades de uma empresa de telecomunicações, iniciando um projeto de DD e identificando as causas mais comuns de insucesso, a serem evitadas em projetos desta natureza. E para comprovar esta metodologia foi construído um Data Mart utilizando dados da Cia. Rio-grandense de Telecomunicações, com objetivo de análise de qualidade dos bilhetes utilizados nos indicadores de desempenho de centrais bilhetadoras. Apresenta, também, as arquiteturas possíveis de um Depósito de Dados/Data Mart, suas características e diferenças. Esta Dissertação de Mestrado é uma contribuição à pesquisa e à análise de metodologias empregadas na criação e manutenção de Depósitos de Dados e a determinação de uma metodologia que atenda às necessidades de uma empresa de telecomunicações.
Resumo:
Este trabalho apresenta a proposta de um editor de diagramas hierárquico e colaborativo. Este editor tem por objetivo permitir a especificação colaborativa de circuitos através de representações gráficas. O Blade (Block And Diagram Editor), como foi chamado, permite especificações em nível lógico, usando esquemas lógicos simples, bem como esquemas hierárquicos. Ao final da montagem do circuito, a ferramenta gera uma descrição textual do sistema num formato netlist padrão. A fim de permitir especificações em diferentes níveis de abstração, o editor deve ser estendido a outras formas de diagramas, portanto seu modelo de dados deve ter flexibilidade a fim de facilitar futuras extensões. O Blade foi implementado em Java para ser inserido no Cave, um ambiente distribuído de apoio ao projeto de circuitos integrados, através do qual a ferramenta pode ser invocada e acessada remotamente. O Cave disponibiliza um serviço de colaboração que foi incorporado na ferramenta e através do qual o editor suporta o trabalho cooperativo, permitindo que os projetistas compartilhem dados de projeto, troquem mensagens de texto e, de forma colaborativa, construam uma representação gráfica do sistema. Objetivando fundamentar a proposta da nova ferramenta, é apresentado um estudo sobre ferramentas gráficas para especificação de sistemas, mais especificamente sobre editores de esquemáticos. A partir dessa revisão, do estudo do ambiente Cave e da metodologia de colaboração a ser suportada, fez-se a especificação do editor, a partir da qual implementou-se o protótipo do Blade. Além do editor, este trabalho contribuiu para a construção de uma API, um conjunto de classes Java que será disponibilizado no Cave e poderá ser utilizado no desenvolvimento de novas ferramentas. Foram realizados estudos sobre técnicas de projeto orientado a objeto, incluindo arquiteturas de software reutilizáveis e padrões de projeto de software, que foram utilizados na modelagem e na implementação da ferramenta, a fim de garantir a flexibilidade do editor e a reusabilidade de suas classes. Este trabalho também contribui com um estudo de modelagem de primitivas de projeto de sistemas. No modelo orientado a objetos utilizado no editor, podem ser encontradas construções muito utilizadas em diferentes ferramentas de projeto de sistemas, tais como hierarquia de projeto e instanciação de componentes e que, portanto, podem ser reutilizadas para a modelagem de novas ferramentas.
Resumo:
No projeto de arquiteturas computacionais, a partir da evolução do modelo cliente-servidor, surgiram os sistemas distribuídos com a finalidade de oferecer características tais como: disponibilidade, distribuição, compartilhamento de recursos e tolerância a falhas. Estas características, entretanto, não são obtidas de forma simples. As aplicações distribuídas e as aplicações centralizadas possuem requisitos funcionais distintos; aplicações distribuídas são mais difíceis quanto ao projeto e implementação. A complexidade de implementação é decorrente principalmente da dificuldade de tratamento e de gerência dos mecanismos de comunicação, exigindo equipe de programadores experientes. Assim, tem sido realizada muita pesquisa para obter mecanismos que facilitem a programação de aplicações distribuídas. Observa-se que, em aplicações distribuídas reais, mecanismos de tolerância a falhas constituem-se em uma necessidade. Neste contexto, a comunicação confiável constitui-se em um dos blocos básicos de construção. Paralelamente à evolução tanto dos sistemas distribuídos como da área de tolerância a falhas, foi possível observar também a evolução das linguagens de programação. O sucesso do paradigma de orientação a objetos deve-se, provavelmente, à habilidade em modelar o domínio da aplicação ao invés da arquitetura da máquina em questão (enfoque imperativo) ou mapear conceitos matemáticos (conforme o enfoque funcional). Pesquisadores demonstraram que a orientação a objetos apresenta-se como um modelo atraente ao desenvolvimento de aplicações distribuídas modulares e tolerantes a falhas. Diante do contexto exposto, duas constatações estimularam basicamente a definição desta dissertação: a necessidade latente de mecanismos que facilitem a programação de aplicações distribuídas tolerantes a falhas; e o fato de que a orientação a objetos tem-se mostrado um modelo promissor ao desenvolvimento deste tipo de aplicação. Desta forma, nesta dissertação definem-se classes para a comunicação do tipo unicast e multicast, nas modalidades de envio confiável e não-confiável. Além destes serviços de comunicação básicos, foram desenvolvidas classes que permitem referenciar os participantes da comunicação através de nomes. As classes estão organizadas na forma de um pacote, compondo um framework. Sua implementação foi desenvolvida usando Java. Embora não tivessem sido requisitos básicos, as opções de projeto visaram assegurar resultados aceitáveis de desempenho e possibilidade de reuso das classes. Foram implementados pequenos trechos de código utilizando e testando a funcionalidade de cada uma das classes de comunicação propostas.
Resumo:
A presente Dissertação propõe uma biblioteca de comunicação de alto desempenho, baseada em troca de mensagens, especificamente projetada para explorar eficientemente as potencialidades da tecnologia SCI (Scalable Coherent Interface). No âmago da referida biblioteca, a qual se denominou DECK/SCI, acham-se três protocolos de comunicação distintos: um protocolo de baixa latência e mínimo overhead, especializado na troca de mensagens pequenas; um protocolo de propósito geral; e um protocolo de comunicação que emprega uma técnica de zero-copy, também idealizada neste Trabalho, no intuito de elevar a máxima largura de banda alcançável durante a transmissão de mensagens grandes. As pesquisas desenvolvidas no decurso da Dissertação que se lhe apresenta têm por mister proporcionar um ambiente para o desenvolvimento de aplicações paralelas, que demandam alto desempenho computacional, em clusters que se utilizam da tecnologia SCI como rede de comunicação. A grande motivação para os esforços envidados reside na consolidação dos clusters como arquiteturas, a um só tempo, tecnologicamente comparáveis às máquinas paralelas dedicadas, e economicamente viáveis. A interface de programação exportada pelo DECK/SCI aos usuários abarca o mesmo conjunto de primitivas da biblioteca DECK (Distributed Execution Communication Kernel), concebida originalmente com vistas à consecução de alto desempenho sobre a tecnologia Myrinet. Os resultados auferidos com o uso do DECK/SCI revelam a eficiência dos mecanismos projetados, e a utilização profícua das características de alto desempenho intrínsecas da rede SCI, haja visto que se obteve uma performance muito próxima dos limites tecnológicos impostos pela arquitetura subjacente. Outrossim, a execução de uma clássica aplicação paralela, para fins de validação, testemunha que as primitivas e abstrações fornecidas pelo DECK/SCI mantêm estritamente a mesma semântica da interface de programação do original DECK.
Resumo:
O sucesso da Internet como plataforma de distribuição de sistemas de informação encoraja organizações a disponibilizar serviços presentes em seus sistemas legados nesse ambiente. Uma parte desses sistemas foi desenvolvida na fase inicial do desenvolvimento das aplicações cliente/servidor para banco de dados, usando ambientes visuais com interfaces gráficas tipo WIMP, implementadas sob o paradigma procedimental/estruturado, baseado em objetos e eventos. Como conseqüência, produziu-se sistemas legados difíceis de manter, evoluir e adaptar a novas tecnologias e arquiteturas, pois os projetos desenvolvidos não seguiam, na maioria das vezes, os bons preceitos e práticas modernas defendidas na Engenharia de Software. O objetivo deste trabalho é propor uma metodologia para migrar sistemas legados com as características citadas acima para a plataforma Web. O processo de migração proposto destaca duas estratégias: a elaboração de modelos de classes conceituais da aplicação e o tratamento dado à interface do usuário, para serem utilizados na reconstrução de uma nova aplicação. O processo é baseado em técnicas e métodos de engenharia reversa, que visa obter abstrações por meio de análise estática e dinâmica da aplicação. Na análise dinâmica, destaca-se o mecanismo para recuperar aspectos dos requisitos funcionais do sistema legado e representá-los na ferramenta denominada UC/Re (Use Case para Reengenharia). Todos os artefatos gerados durante o processo podem ser armazenados em um repositório, representando os metamodelos construídos na metodologia. Para delimitar e exemplificar o processo, escolheu-se como domínio de linguagem de programação do software legado, o ambiente Delphi (sob a linguagem Object Pascal). É proposto também um ambiente CASE, no qual é descrito o funcionamento de um protótipo que automatiza grande parte das funcionalidades discutidas nas etapas do processo. Algumas ferramentas desenvolvidas por terceiros são empregadas na redocumentação do sistema legado e na elaboração dos modelos UML do novo sistema. Um estudo de caso, apresentando uma funcionalidade específica de um sistema desenvolvido em Delphi, no paradigma procedimental, é usado para demonstrar o protótipo e serve de exemplo para a validação do processo. Como resultado do processo usando o protótipo, obtém-se o modelo de classes conceituais da nova aplicação no formato XMI (formato padrão para exportação de modelos UML), e gabaritos de páginas em HTML, representando os componentes visuais da interface original na plataforma Web.