174 resultados para Aprendizagem Automática
Resumo:
Sistemas de gestão documental e de recuperação de informação são hoje ferramentas essenciais para aceder aos grandes volumes de informação disponíveis. O exemplo mais popular deste cenário é o motor de pesquisa Google, que se estimava possuir cerca de 45 milhares de milhões de páginas Web, em Março de 2013 [14]. Uma vez que a maioria das pessoas, apenas consultam os primeiros dez resultados duma pesquisa, torna-se crucial conseguir uma boa ordenação das respostas, de forma a permitir que o utilizador veja os resultados contendo informação diversificada, de acordo com as suas preferências e indo ao encontro daquilo que escreveu na pesquisa. Além do objetivo de ordenação segundo a query escrita pelo utilizador, também foi tido como objetivo a remoção de documentos similares do topo dos resultados das pesquisas. Nesta tese, pretendemos investigar o uso de algoritmos de aprendizagem de ordenação de resultados, por forma a aumentar a qualidade dos resultados de topo das pesquisas e analisar algumas maneiras para aumentar a diversidade de informação no topo dos resultados das pesquisas. Uma aplicação foi desenvolvida no contexto desta tese e foi aplicada a um sistema de pesquisa que foi desenvolvido em contexto empresarial com a Quidgest S.A, sendo que posteriormente irá ser integrada numa plataforma de desenvolvimento rápido de aplicações.
Resumo:
Data Mining surge, hoje em dia, como uma ferramenta importante e crucial para o sucesso de um negócio. O considerável volume de dados que atualmente se encontra disponível, por si só, não traz valor acrescentado. No entanto, as ferramentas de Data Mining, capazes de transformar dados e mais dados em conhecimento, vêm colmatar esta lacuna, constituindo, assim, um trunfo que ninguém quer perder. O presente trabalho foca-se na utilização das técnicas de Data Mining no âmbito da atividade bancária, mais concretamente na sua atividade de telemarketing. Neste trabalho são aplicados catorze algoritmos a uma base de dados proveniente do call center de um banco português, resultante de uma campanha para a angariação de clientes para depósitos a prazo com taxas de juro favoráveis. Os catorze algoritmos aplicados no caso prático deste projeto podem ser agrupados em sete grupos: Árvores de Decisão, Redes Neuronais, Support Vector Machine, Voted Perceptron, métodos Ensemble, aprendizagem Bayesiana e Regressões. De forma a beneficiar, ainda mais, do que a área de Data Mining tem para oferecer, este trabalho incide ainda sobre o redimensionamento da base de dados em questão, através da aplicação de duas estratégias de seleção de atributos: Best First e Genetic Search. Um dos objetivos deste trabalho prende-se com a comparação dos resultados obtidos com os resultados presentes no estudo dos autores Sérgio Moro, Raul Laureano e Paulo Cortez (Sérgio Moro, Laureano, & Cortez, 2011). Adicionalmente, pretende-se identificar as variáveis mais relevantes aquando da identificação do potencial cliente deste produto financeiro. Como principais conclusões, depreende-se que os resultados obtidos são comparáveis com os resultados publicados pelos autores mencionados, sendo os mesmos de qualidade e consistentes. O algoritmo Bagging é o que apresenta melhores resultados e a variável referente à duração da chamada telefónica é a que mais influencia o sucesso de campanhas similares.
Resumo:
A estrutura temporal das taxas de juro, também conhecida por yield curve ou curva de rendimentos define a relação entre as taxas de juros e o prazo de vencimento (ou maturidades) dos investimentos feitos. Assim, o desenvolvimento de modelos que possibilitem a obtenção de previsões precisas sobre a estrutura temporal das taxas de juro e que permitam estudar a dinâmica da evolução das taxas de juro é de crucial importância em diversas áreas de financiamento. Neste estudo investigou-se a performance de diferentes métodos de previsão para obter a estrutura temporal das taxas de juro da Zona Euro, considerando o período entre 2009 e 2015. Em termos mais específicos, foi analisada a capacidade preditiva do modelo de Nelson-Siegel & Svensson assumindo que os parâmetros resultantes da estimação da especificação paramétrica podem ser modelizados através de métodos de séries temporais univariados (modelos ARIMA, Random walk) e multivariados (modelos VAR) e Redes Neuronais Artificiais (RNA) individuais e conjuntas. Os resultados deste estudo mostram que (i) as RNA com a previsão dos parâmetros em simultâneo exibem os valores de erro mais baixos para as maturidades de curto e médio prazo (3 meses a 5 anos); (ii) As RNAs individuais são melhores para prever as taxas de juro nas maturidades compreendidas entre os 7 e os 10 anos, e que (iii) para as maturidades de longo e muito longo prazo (15 e 30 anos respetivamente) deverá ser escolhido o modelo VAR(1). Estes resultados são robustos e consistentes para todos os horizontes de previsão analisados (1,2 e 3 meses). Contudo, no período analisado nenhum dos modelos testados apresenta valores de erro inferiores aos obtidos com o modelo Random Walk.
Resumo:
The principal topic of this work is the application of data mining techniques, in particular of machine learning, to the discovery of knowledge in a protein database. In the first chapter a general background is presented. Namely, in section 1.1 we overview the methodology of a Data Mining project and its main algorithms. In section 1.2 an introduction to the proteins and its supporting file formats is outlined. This chapter is concluded with section 1.3 which defines that main problem we pretend to address with this work: determine if an amino acid is exposed or buried in a protein, in a discrete way (i.e.: not continuous), for five exposition levels: 2%, 10%, 20%, 25% and 30%. In the second chapter, following closely the CRISP-DM methodology, whole the process of construction the database that supported this work is presented. Namely, it is described the process of loading data from the Protein Data Bank, DSSP and SCOP. Then an initial data exploration is performed and a simple prediction model (baseline) of the relative solvent accessibility of an amino acid is introduced. It is also introduced the Data Mining Table Creator, a program developed to produce the data mining tables required for this problem. In the third chapter the results obtained are analyzed with statistical significance tests. Initially the several used classifiers (Neural Networks, C5.0, CART and Chaid) are compared and it is concluded that C5.0 is the most suitable for the problem at stake. It is also compared the influence of parameters like the amino acid information level, the amino acid window size and the SCOP class type in the accuracy of the predictive models. The fourth chapter starts with a brief revision of the literature about amino acid relative solvent accessibility. Then, we overview the main results achieved and finally discuss about possible future work. The fifth and last chapter consists of appendices. Appendix A has the schema of the database that supported this thesis. Appendix B has a set of tables with additional information. Appendix C describes the software provided in the DVD accompanying this thesis that allows the reconstruction of the present work.
Resumo:
Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para a obtenção do grau de Mestre em Engenharia Electrotécnica e de Computadores
Resumo:
As cartas topográficas são representações planas, generalizadas e reduzidas à escala, de zonas da superfície terrestre, contendo símbolos e informação textual para a descrição dos objectos. A forma mais comum de as produzir é por intermédio de fotografias aéreas, principalmente pela afinidade entre o conteúdo destas e aquilo que se convencionou representar na carta. O Instituto Geográfico do Exército (IGeoE) é uma entidade produtora de cartografia que provê, com informação geográfica, as Forças Armadas e a comunidade civil. A caracterização do relevo é parte da informação existente na carta, concretizada através das curvas de nível: linhas curvas que representam uma cota pré-definida (convencionado de 10 em 10 m nas cartas à escala 1/25 000), constante em toda a sua extensão. Estas acompanham as formas do terreno e indicam a altitude do nível do solo, independentemente de se cruzarem com outros objectos à superfície terrestre (como edifícios ou arvoredo). A informação do relevo é bastante completa, abrangendo a área de toda a carta. As curvas de nível são, por norma, restituídas, manualmente, por um operador numa estação fotogramétrica, numa tarefa compreensivelmente morosa. Uma das alternativas para a representação do relevo é por intermédio da correlação automática de fotografias aéreas, daí resultando uma nuvem de pontos cotados numa grelha regular, cada um com uma coordenada tridimensional. Alguns desses pontos contêm “ruído”, visto representarem não a cota ao nível do solo, mas a cota de objectos sobre a superfície terrestre. O processo de eliminação desse “ruído”, que permite corrigir a cota do topo do objecto para o solo, designa-se por filtragem. Há diversos processos de filtragem de nuvens de pontos, embora nenhum consiga obter resultados totalmente satisfatórios, apresentando mais ou menos dificuldades em algumas zonas de terreno específicas (zonas urbanizadas ou vegetação baixa, por exemplo). Um dos caminhos apontados para auxiliar a filtragem é a utilização de outros recursos que forneçam mais informação, para além da simples coordenada tridimensional do ponto a corrigir, bem como uma mistura de algoritmos, tentando conciliar os pontos fortes de cada uma destas abordagens. O presente trabalho desenvolveu uma metodologia automática para representar o relevo a partir de uma nuvem de pontos cotados, para ser integrada na cadeia de produção do IGeoE. A partir de uma nuvem de pontos primária, e utilizando como dados de entrada ortofotos e informação vectorial dos objectos da edição anterior e da edição de trabalho da carta (excepto relevo) da mesma região, efectua quatro filtragens: filtragem de edifícios, filtragem de áreas de arvoredo superiores a 150 m x 150 m, filtragem de áreas de arvoredo inferiores a 150 m x 150 m e árvores isoladas (envolvendo a detecção de árvores em ortofotos, ao nível do pixel, por algoritmo de aprendizagem automática), e filtragem por declives.
Resumo:
A Internet conta hoje com mais de 3 mil milhões de utilizadores e esse valor não para de aumentar. Desta forma, proporcionar uma experiência online agradável aos seus utilizadores é cada vez mais importante para as empresas. De modo a tirar partido dos benefícios deste crescimento, as empresas devem ser capazes de identificar os seus clientes-alvo dentro do total de utilizadores; e, subsequentemente, personalizar a sua experiência online. Existem diversas formas de estudar o comportamento online dos utilizadores; no entanto, estas não são ideais e existe uma ampla margem para melhoria. A inovação nesta área pode comportar um grande potencial comercial e até ser disruptiva. Com isto em mente, proponho-me a estudar a possível criacão de um sistema de aprendizagem automática (machine learning) que permita prever informa ações demográficas dos utilizadores estritamente com base no seu comportamento online. Tal sistema poderia constituir uma alternativa às atuais opções, que são mais invasivas; mitigando assim preocupações ao nível da proteção de dados pessoais. No primeiro capítulo (Introdução) explico a motivação para o estudo do comportamento dos utilizadores online por parte de empresas, e descrevo as opções disponíveis atualmente. Apresento também a minha proposta e o contexto em que assenta. O capítulo termina com a identicação de limitações que possam existir a priori. O segundo capítulo (Machine Learning) fornece uma introdução sobre machine learning, com o estudo dos algoritmos que vão ser utilizados e explicando como analisar os resultados. O terceiro capítulo (Implementação) explica a implementação do sistema proposto e descreve o sistema que desenvolvi no decorrer deste estudo, e como integra-lo em sistemas já existentes. No quarto capítulo (Análise e manipulação dos dados), mostro os dados compilados e explico como os recolhi e manipulei para testar a hipótese. No quinto capítulo (Análise de dados e discussão) vemos como e que os dados recolhidos foram usados pelos vários algoritmos para descobrir como se correlacionam com dados dos utilizadores e analiso e discuto os resultados observados. Por fim, o sexto e último capítulo apresenta as conclusões. Dependendo dos resultados, mostro como a hipótese poderia ser melhor testada, ou então discuto os próximos passos para tornar o sistema realidade.
Resumo:
Nesta dissertação faz-se a apresentação dos trabalhos elaborados conducentes à realização de provas na Universidade Nova de Lisboa, Faculdade de Ciências e Tecnologia no ramo de Engenharia Electrotécnica, na especialidade de Sistemas de Informação Industriais, para obtenção do grau de Doutor. A tese defendida consiste na proposta de um enquadramento global de suporte ao processo de recolha e catalogação dos dados disponibilizados na Web por forma a permitir uma maior eficácia e melhor desempenho na sua exploração. O enquadramento global assenta nos seguintes pilares: i) uma metodologia geral; ii) uma arquitectura de referência; iii) uma metodologia específica de suporte à derivação de sistemas particulares e; iv) a operacionalização da arquitectura de referência. A metodologia geral está centrada no utilizador tendo por objectivo simplificar a recolha e catalogação dos dados electrónicos e viabilizando a personalização da Web pela construção de catálogos dinâmicos. A arquitectura de referência recorre à utilização de catálogos dinâmicos, sistemas de multiagentes inteligentes, ontologias e métodos de aprendizagem em texto, por contraste com os métodos habitualmente utilizados nos portais de recolha de dados. A metodologia específica de suporte à derivação de sistemas particulares possibilita uma aproximação sistemática à instalação da arquitectura, propondo um conjunto de passos que permitem capturar e configurar as necessidades do utilizador. Finalmente, a operacionalização da arquitectura de referência origina a construção de um protótipo composto por dois sistemas-base: o Sistema de Catalogação e o Sistema Interactivo de Apoio à Derivação de Sistemas Particulares. O Sistema de Catalogação é o sistema que permite o armazenamento e a consulta dos dados recolhidos através das pesquisas previamente efectuadas. O Sistema de Apoio à Derivação de Sistemas Particulares, permite a personalização do Sistema de Catalogação, pela definição de regras e SAD específicos, dedicados a cada caso concreto. Sumariamente, os obstáculos mais relevantes, abordados no decurso dos trabalhos, foram: • a coexistência de diversos formatos de dados na Web; • a capacidade de processamento dos dados, desde a filtragem de documentos tendo por base a sua relevância, passando pela identificação dos conceitos e sua posterior classificação; • a formalização do conhecimento com vista à adopção de uma terminologia comum; • a natureza do problema distribuído, complexo, descentralizado e com reduzida estruturação. Este documento está organizado em diversos capítulos e cada capítulo está dividido em várias secções. O primeiro capítulo apresenta a inovação e os objectivos genéricos do enquadramento global. O segundo capítulo descreve o estado da arte de um conjunto de assuntos essenciais para o desenrolar dos trabalhos. O terceiro capítulo apresenta, em detalhe, o enquadramento global e a arquitectura proposta. O quarto capítulo descreve a metodologia de derivação de sistemas particulares. O quinto capítulo apresenta o estudo de caso e os resultados obtidos que visam validar a tese defendida. Finalmente, o último capítulo apresenta as conclusões e trabalhos futuros.
Aprendizagem da geometria em ambientes computacionais dinâmicos: um estudo no 9º ano de escolaridade
Resumo:
Dissertação de mestrado em Ciências da Educação: área de Educação e Desenvolvimento
Resumo:
Dissertação de mestrado em Ciências da Educação: área de Educação e Desenvolvimento
Resumo:
Dissertação de mestrado em Ciências da Educação: área de Educação e Desenvolvimento
Resumo:
Dissertação de mestrado em Ciências da Educação: área de Educação e Desenvolvimento
Resumo:
Dissertação de mestrado em Ciências da Educação: área de Educação e Desenvolvimento
Resumo:
Este estudo procura compreender a relação entre trabalho experimental de investigação e O desenvolvimento de competências científicas nos alunos. Foram os seguintes objectivos que nortearam este trabalho de investigação: analisar/compreender as vantagens e dificuldades apresentadas pelos alunos ao realizarem trabalho experimental de investigação em laboratório. Compreender se o trabalho experimental de investigação em laboratório leva ao desenvolvimento de competências científicas. Propor novas abordagens na utilizaçáo do trabalho experimental no ensino da Biologia. Desenvolve-se na primeira parte deste estudo uma reflexão sobre o papel do trabalho experimental de investigação no ensino/aprendizagem da Ciência. Na segunda parte explicitamos o caminho heurístico por nós percorrido. Optamos por uma metodologia interpretativa/compreesiva recorrendo a uma abordagem multimetodológica.
Resumo:
Dissertação de mestrado em Ciências da Educação: área de Educação e Desenvolvimento