25 resultados para Categorical Benefit
em Repositório Científico do Instituto Politécnico de Lisboa - Portugal
Resumo:
Research on the problem of feature selection for clustering continues to develop. This is a challenging task, mainly due to the absence of class labels to guide the search for relevant features. Categorical feature selection for clustering has rarely been addressed in the literature, with most of the proposed approaches having focused on numerical data. In this work, we propose an approach to simultaneously cluster categorical data and select a subset of relevant features. Our approach is based on a modification of a finite mixture model (of multinomial distributions), where a set of latent variables indicate the relevance of each feature. To estimate the model parameters, we implement a variant of the expectation-maximization algorithm that simultaneously selects the subset of relevant features, using a minimum message length criterion. The proposed approach compares favourably with two baseline methods: a filter based on an entropy measure and a wrapper based on mutual information. The results obtained on synthetic data illustrate the ability of the proposed expectation-maximization method to recover ground truth. An application to real data, referred to official statistics, shows its usefulness.
Resumo:
Research on cluster analysis for categorical data continues to develop, new clustering algorithms being proposed. However, in this context, the determination of the number of clusters is rarely addressed. We propose a new approach in which clustering and the estimation of the number of clusters is done simultaneously for categorical data. We assume that the data originate from a finite mixture of multinomial distributions and use a minimum message length criterion (MML) to select the number of clusters (Wallace and Bolton, 1986). For this purpose, we implement an EM-type algorithm (Silvestre et al., 2008) based on the (Figueiredo and Jain, 2002) approach. The novelty of the approach rests on the integration of the model estimation and selection of the number of clusters in a single algorithm, rather than selecting this number based on a set of pre-estimated candidate models. The performance of our approach is compared with the use of Bayesian Information Criterion (BIC) (Schwarz, 1978) and Integrated Completed Likelihood (ICL) (Biernacki et al., 2000) using synthetic data. The obtained results illustrate the capacity of the proposed algorithm to attain the true number of cluster while outperforming BIC and ICL since it is faster, which is especially relevant when dealing with large data sets.
Resumo:
Cluster analysis for categorical data has been an active area of research. A well-known problem in this area is the determination of the number of clusters, which is unknown and must be inferred from the data. In order to estimate the number of clusters, one often resorts to information criteria, such as BIC (Bayesian information criterion), MML (minimum message length, proposed by Wallace and Boulton, 1968), and ICL (integrated classification likelihood). In this work, we adopt the approach developed by Figueiredo and Jain (2002) for clustering continuous data. They use an MML criterion to select the number of clusters and a variant of the EM algorithm to estimate the model parameters. This EM variant seamlessly integrates model estimation and selection in a single algorithm. For clustering categorical data, we assume a finite mixture of multinomial distributions and implement a new EM algorithm, following a previous version (Silvestre et al., 2008). Results obtained with synthetic datasets are encouraging. The main advantage of the proposed approach, when compared to the above referred criteria, is the speed of execution, which is especially relevant when dealing with large data sets.
Resumo:
In data clustering, the problem of selecting the subset of most relevant features from the data has been an active research topic. Feature selection for clustering is a challenging task due to the absence of class labels for guiding the search for relevant features. Most methods proposed for this goal are focused on numerical data. In this work, we propose an approach for clustering and selecting categorical features simultaneously. We assume that the data originate from a finite mixture of multinomial distributions and implement an integrated expectation-maximization (EM) algorithm that estimates all the parameters of the model and selects the subset of relevant features simultaneously. The results obtained on synthetic data illustrate the performance of the proposed approach. An application to real data, referred to official statistics, shows its usefulness.
Resumo:
In cluster analysis, it can be useful to interpret the partition built from the data in the light of external categorical variables which are not directly involved to cluster the data. An approach is proposed in the model-based clustering context to select a number of clusters which both fits the data well and takes advantage of the potential illustrative ability of the external variables. This approach makes use of the integrated joint likelihood of the data and the partitions at hand, namely the model-based partition and the partitions associated to the external variables. It is noteworthy that each mixture model is fitted by the maximum likelihood methodology to the data, excluding the external variables which are used to select a relevant mixture model only. Numerical experiments illustrate the promising behaviour of the derived criterion. © 2014 Springer-Verlag Berlin Heidelberg.
Resumo:
In cluster analysis, it can be useful to interpret the partition built from the data in the light of external categorical variables which are not directly involved to cluster the data. An approach is proposed in the model-based clustering context to select a number of clusters which both fits the data well and takes advantage of the potential illustrative ability of the external variables. This approach makes use of the integrated joint likelihood of the data and the partitions at hand, namely the model-based partition and the partitions associated to the external variables. It is noteworthy that each mixture model is fitted by the maximum likelihood methodology to the data, excluding the external variables which are used to select a relevant mixture model only. Numerical experiments illustrate the promising behaviour of the derived criterion.
Resumo:
Mestrado em Contabilidade e Gestão das Instituições Financeiras
Resumo:
This paper describes preliminary work done towards the development of new metallic heterogeneous catalysts to be used in the transesterification reaction of triglycerides, which is of considerable interest in the production of biodiesel. Biodiesel, is a mixture of mono-alkyl esters of fatty acids, and is currently manufactured by transesterification of triglycerides with methanol using NaOH or KOH as liquid base catalyst. Catalysts as such are corrosive to the equipment, and as these catalysts are in liquid phase must be neutralized after the completion of the reaction, typically using HCl, thus producing salt streams. Moreover, due to the presence of free fatty acids it reacts to form soaps as unwanted by-products, hence requiring more expensive separation processes. Therefore, there is a great need on the development of industrial processes for biodiesel production using solid acid catalysts. The key benefit of using solid acid catalysts is that no polluting by-products are formed and the catalysts do not have to be removed since they do not mix with the biodiesel product.
Resumo:
Na sequência das preocupações de ausência dos custos externos na análise de projectos rodoviários, foram realizados diversos estudos (EUNET/SASI, FISCUS, HEATCO, PETS, UNITE, GRACE, IMPACT) com vista a identificar e quantificar os impactes reais das actividades de transporte rodoviário. Nesses projectos foram apresentadas diversas metodologias para quantificação dos custos e também benefícios associados aos sistemas de transporte, nomeadamente das infra-estruturas rodoviárias. Para o efeito foram analisadas várias categorias de custo (custos da infra-estrutura, custos do congestionamento, custos da operação dos veículos, custos dos acidentes, custos do ruído, custos da poluição atmosférica, custos do aquecimento global). Nesta dissertação utilizou-se cinco modelos de determinação de custos de infra-estruturas rodoviárias que posteriormente foram calibrados ao caso português para aplicação em estudo de casos em Portugal de duas formas, avaliação de projectos de infra-estruturas rodoviárias e identificação e fixação de preços, nomeadamente associados às portagens. A avaliação de projectos de infra-estruturas rodoviárias foi realizada através da utilização de indicadores de custos totais e médios, utilizando para o efeito dois modelos: o HDM-4 – Highway Development and Management (PIARC, 2001) e o COBA – Cost Benefit Analysis (TRL, 2004) que utilizam custos totais e um modelo proposto pelo autor com base numa síntese e adaptação de submodelos desenvolvidos nos projectos europeus já referidos que utiliza custos médios. A análise associada à identificação dos custos marginais relevantes para a fixação de preços foi realizada através do modelo desenvolvido no projecto europeu, GRACE – Generalisation of Research on Accounts and Cost Estimation (ITS et al., 2008), e de um modelo proposto pelo autor. Após a adaptação e/ou construção dos modelos, estes foram aplicados ao estudo de três situações específicas em infra-estruturas rodoviárias nacionais. Referem-se intervenções na estrada nacional EN125 que liga Vila do Bispo a Vila Real de Santo António (no Algarve), na auto-estrada A7 que liga Póvoa de Varzim a Vila Pouca de Aguiar (Norte de Portugal) e na auto-estrada A9 que liga o Estádio Nacional em Oeiras a Alverca (região de Lisboa).
Resumo:
As crises energéticas surgidas no decorrer do último século, incluindo a crise do petróleo, obrigaram o Homem a procurar cada vez mais fontes de energia alternativas e preferencialmente inesgotáveis. Desta situação, resultou uma forte aposta na exploração das fontes de energias renováveis, que são uma das principais alternativas para responder a um aumento de procura, e também, face às exigências de consumos actuais, beneficiando de ao se apostar numa energia limpa e renovável existir uma forte redução nos impactes ambientais que outras fontes de energia não apresentam. O aproveitamento dos recursos provenientes de fontes de energia renováveis para a produção de energia já existe há vários anos, e, em alguns casos, atingiram já um estado de maturidade considerável, como é caso da energia eólica. Em comparação, o mesmo já não acontece com a energia das ondas. Embora o oceano apresente um recurso com enorme potencial para ser explorado, incluindo as ondas e correntes oceânicas, os dispositivos tecnológicos necessários para a exploração deste recurso encontram-se maioritariamente ainda em fase experimental, havendo casos pontuais que atingiram a fase pré-comercial. Assim, não existe até à data um dispositivo padrão para a exploração da energia das ondas em grande escala, contrariamente ao que acontece com a energia eólica. Para esta situação, contribuiu o elevado número de dispositivos patenteados para a exploração da energia das ondas, nenhum deles com vantagens significativas relativamente a outros, e também, devido ao facto de a exploração deste tipo de energia não poder ser feito de igual modo na costa ou a muitos quilómetros dela. Na presente dissertação são apresentados alguns dos principais dispositivos existentes para a extracção de energia proveniente das ondas oceânicas, com especial atenção para os dispositivos de coluna de água oscilante.
Resumo:
Um dos objetivos da presente dissertação consiste em estimar o recurso eólico num determinado local com base em dados de velocidade e direção de vento de outro local. Para esta estimativa, é utilizado um método que faz a extrapolação dos dados de vento do local onde as medições de velocidade e direção de vento foram realizadas para o local onde se quer estimar o recurso eólico, permitindo assim fazer uma avaliação da potência disponível que se pode obter para uma dada configuração de turbinas eólicas e tendo em consideração fatores topográficos tais como a rugosidade, orografia da superfície e também obstáculos em redor. Este método foi aplicado usando a ferramenta computacional, Wind Atlas Analysis and Aplication Program (WAsP), de modo a avaliar a potência média de um parque eólico na região de Osório, Brasil. O outro objetivo desta dissertação consiste no estudo e definição da melhor ligação do referido parque eólico à rede elétrica local. Para o efeito e após modelização da rede elétrica foram identificados os reforços de rede necessários na zona que irá receber a nova potência do parque eólico. No estudo em causa foram avaliadas quatro alternativas de ligação do parque eólico à rede. A escolha da melhor alternativa de ligação foi efetuada tendo por base uma análise de relação entre benefício de perdas da rede e custos de reforço da rede local.
Resumo:
O objectivo deste trabalho consiste em avaliar os benefícios das Self Organizing Networks (SON), no que concerne ao planeamento e optimização de redes Long Term Evolution (LTE), não só através do seu estudo, como também através do desenvolvimento e teste de algoritmos, que permitem avaliar o funcionamento de algumas das suas principais funções. O estudo efectuado sobre as SON permitiu identificar um conjunto de funções, tais como a atribuição automática de Physical Cell Id (PCI), o Automatic Neighbour Relation (ANR) e a optimização automática de parâmetros de handover, que permitem facilitar ou mesmo substituir algumas das tarefas mais comuns em planeamento e optimização de redes móveis celulares, em particular, redes LTE. Recorrendo a um simulador LTE destinado à investigação académica, em código aberto e desenvolvido em Matlab®, foi desenvolvido um conjunto de algoritmos que permitiram a implementação das funções em questão. Para além das funções implementadas, foram também introduzidas alterações que conferem a este simulador a capacidade de representar e simular redes reais, permitindo uma análise mais coerente dos algoritmos desenvolvidos. Os resultados obtidos, para além de evidenciarem claramente o benefício dos algoritmos desenvolvidos, foram ainda comparados com os obtidos pela ferramenta profissional de planeamento e optimização Atoll®, tendo-se verificado a franca proximidade de desempenho em algumas das funções. Finalmente, foi desenvolvida uma interface gráfica que permite o desenho, configuração e simulação de cenários, bem como a análise de resultados.
Resumo:
O estudo desenvolvido no presente documento teve como alvo um edifício antigo construído entre 1930 e 1940 no concelho de Coruche, com construção característica da sua época. Numa fase inicial analisou-se de que forma se comporta o edifício em termos térmicos e energéticos, com base nas metodologias de cálculo apresentadas pelo regulamento térmico em vigor (RCCTE, 2006), e de seguida foram analisadas várias soluções existentes para a reabilitação térmica e energética do edifício que poderá ser concretizada, essencialmente devido às soluções para isolamento térmico das paredes, pavimentos e cobertura, assim como devido às soluções para vidros e caixilharia dos vãos envidraçados. Numa fase posterior, foi estudada a aplicação isolada das várias soluções de reabilitação consideradas, tendo sido simulada a aplicação de várias espessuras de isolante para as soluções da envolvente opaca e vários tipos de vidro duplo e caixilharia para as soluções da envolvente envidraçada, de forma a perceber-se a implicação que cada uma tem quanto à variação das necessidades energéticas do edifício. Por fim, foram calculados os custos de aplicação das várias soluções estudadas, com auxílio de um software de orçamentação, de forma que estas possam ser comparadas em termos da relação custo/benefício, em que, o benefício de cada solução será a variação provocada nas necessidades energéticas do edifício com aplicação da mesma. Assim, procurará encontrar-se para o edifício em estudo não só as soluções mais vantajosas em termos energéticos mas também as mais rentáveis, e procurará perceber-se se um investimento numa intervenção de reabilitação deste género conduzirá a um período de retorno do investimento reduzido, que possa ser considerado aceitável.
Resumo:
As teachers, we are challenged everyday to solve pedagogical problems and we have to fight for our students’ attention in a media rich world. I will talk about how we use ICT in Initial Teacher Training and give you some insight on what we are doing. The most important benefit of using ICT in education is that it makes us reflect on our practice. There is no doubt that our classrooms need to be updated, but we need to be critical about every peace of hardware, software or service that we bring into them. It is not only because our budgets are short, but also because e‐learning is primarily about learning, not technology. Therefore, we need to have the knowledge and skills required to act in different situations, and choose the best tool for the job. Not all subjects are suitable for e‐learning, nor do all students have the skills to organize themselves their own study times. Also not all teachers want to spend time programming or learning about instructional design and metadata. The promised land of easy use of authoring tools (e.g. eXe and Reload) that will lead to all teachers become Learning Objects authors and share these LO in Repositories, all this failed, like previously HyperCard, Toolbook and others. We need to know a little bit of many different technologies so we can mobilize this knowledge when a situation requires it: integrate e‐learning technologies in the classroom, not a flipped classroom, just simple tools. Lecture capture, mobile phones and smartphones, pocket size camcorders, VoIP, VLE, live video broadcast, screen sharing, free services for collaborative work, save, share and sync your files. Do not feel stressed to use everything, every time. Just because we have a whiteboard does not mean we have to make it the centre of the classroom. Start from where you are, with your preferred subject and the tools you master. Them go slowly and try some new tool in a non‐formal situation and with just one or two students. And you don’t need to be alone: subscribe a mailing list and share your thoughts with other teachers in a dedicated forum, even better if both are part of a community of practice, and share resources. We did that for music teachers and it was a success, in two years arriving at 1.000 members. Just do it.
Resumo:
Mestrado em Intervenção Sócio-Organizacional na Saúde - Área de especialização: Políticas de Administração e Gestão de Serviços de Saúde.