915 resultados para message acceptance


Relevância:

10.00% 10.00%

Publicador:

Resumo:

As sociedades estão sendo moldados por estereótipos invasivos, baseados num factor puramente economico ou consumista, deixando de lado aspectos tradicionais, tais como a família, educação, cultura e até mesmo a política. Mediante a publicidade é possível difundir costumes e tradições que se manifestam dentro da sociedade, mas não é possível determinar até que ponto essas manifestações são características próprias da sociedade ou são conductas alheias, próprias de uma sociedade globalizada. Nesta situação surge a questão de saber se a publicidade emitida em contexto nacional reflecte os valores culturais da sociedade portuguesa. Como objectivo geral, procurou-se encontrar características similares nos anúncios publicitários televisivos, emitidos no horário nobre nos canais de maior audiência em Portugal, como são a TVI e a SIC. Estes anúncios foram analizados á luz das dimensões culturais de Hofstede (1997), com base das descrições dadas por de Mooij (2005). Para a análise do corpus (224 anúncios) utilizou-se um método do tipo qualitativo tendo sido considerados três aspectos fundamentais tais como: a mensagem central, o áudio e a imagem. Os resultados revelaram que as dimensões culturais mais usadas são a Masculinidade, o Individualismo e a Orientação a Curto Prazo. Estas descobertas permitiram concluir que a mensagem dos anúncios está mais direccionada à uma individualização do sujeito, em deterimento do grupo social.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

No decorrer do projeto SELEAG foi desenvolvido um jogo de aventura gráfica educativo com o propósito de ensinar história, cultura e relações sociais aos alunos. Este jogo foi avaliado em contexto de sala de aula em diversos países, obtendo resultados positivos. No entanto, por motivos técnicos, alguns dos objetivos propostos pelo projeto não puderam ser devidamente explorados, como permitir que o jogo fosse extensível por outros educadores ou suportar a colaboração online entre os jogadores. Nomeadamente, as ferramentas utilizadas para desenvolver o jogo eram demasiado complicadas para serem utilizadas fora da equipa de desenvolvimento, o que limitou a extensibilidade do projeto, e tornou impossível que educadores sem conhecimentos de programação fossem também capazes de traduzir os seus conteúdos educativos para este formato. Além disso, apesar do jogo possuir algumas funcionalidades de colaboração online, toda a interação era efetuada externamente ao jogo, através de um fórum de mensagens, o que demonstrou ser pouco motivante para os jogadores, pois muitos deles nem se aperceberam que havia uma componente de colaboração no jogo. O objetivo desta tese incide sobre estes dois problemas, e consistiu em desenvolver um editor e motor de jogo com uma interface simples de utilizar, que não necessita de conhecimentos prévios de programação, e que permite criar jogos de aventura gráfica com uma componente de colaboração online verdadeiramente embebida na jogabilidade. A aplicação desenvolvida foi testada por um conjunto de utilizadores de diversas áreas, tendo-se obtido resultados que demonstram a acessibilidade e simplicidade da mesma, independentemente do nível de experiência prévio de programação do utilizador. A componente de colaboração online foi também muito bem recebida pelos utilizadores, os quais demonstraram bastante interesse em ver jogos de aventura gráfica com componente de colaboração online serem desenvolvidos no futuro.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

É considerado um dos problemas na educação o facto de a aprendizagem poder ser muito baseada no uso da teoria. Sendo as experiências do ser humano uma grande parte da forma como vemos e vivemos o mundo, torna-se imprescindível o hábito da prática na formação do nosso conhecimento. Embora a teoria seja sempre necessária na construção de conceitos, deve ser complementada com a experiência de forma a consolidar a aprendizagem para melhor noção da realidade. Esta dissertação descreve uma didáctica para a integração de dispositivos hápticos aplicados à educação, concebendo assim um novo e inovador método de ensino aliado à prática. Dependendo da aceitação por parte dos alunos, este método de uso de tecnologia na educação para fins práticos pode revelar-se revolucionário. Experiências que seriam difíceis de realizar tornam-se possíveis de simular de uma forma real com a ajuda dos sistemas hápticos, em que a variedade de matérias que as aplicações podem simular é vasta. Especificamente, este trabalho fundamenta-se no estudo da aerodinâmica no voo com recurso a uma aplicação desenvolvida para o efeito e à potencialidade do aparelho háptico Novint Falcon, um interface sensorial táctil entre uma pessoa e um computador, de custo relativamente baixo em relação à generalidade dos preços deste tipo de dispositivos. Os testes que estudantes realizaram à aplicação revelaram grande interesse e curiosidade pela novidade da tecnologia háptica e apreciação no conceito do seu uso prático na educação. De forma geral, todos os alunos que participaram no ensaio do programa transmitiram feedback positivo, expressando maior ganho de motivação e desejo em ver este sistema aplicado a outras disciplinas.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

As redes sociais são estruturas compostas por indivíduos ou grupos que estão relacionados por gostos e preferências, culturas ou origens e valores ou ideais. Há alguns anos para cá, o conceito de rede social expandiu-se para a internet, e de um modo geral as redes sociais online têm como objectivo a criação de um perfil e a partilha do mesmo com amigos. Hoje em dia, há redes sociais que cumprem vários objectivos diferentes, seja apenas para partilhar o perfil de uma identidade (pessoa, grupo ou organização), seja para atingir um serviço específico, por exemplo partilhar o Curriculum Vitae. Embora haja muitos cépticos, as redes sociais ganham novos adeptos todos os dias, como tal, as redes sociais disponibilizam aplicações para dispositivos móveis para assim os seus utilizadores poderem obter a informação mais rápido, em qualquer altura, em qualquer lugar, no seu smartphone ou tablet. É imperativo que as aplicações para dispositivos móveis estão continuamente fornecer funcionalidades mais ricas, e mesmo apesar da actual aceitação das pessoas em relação aos dispositivos móveis, a tendência é para continuarem neste ritmo, ou até mesmo aumentar, pois os utilizadores estarão sempre a pedir mais, além disso, a concorrência entre os vendedores irá manter viva a evolução natural da tecnologia. Para construir uma empresa por trás de uma rede social exige um perfil empreendedor, e a vocação para o empreendedorismo não é baseada em Dna, cultura, origem ou religião, em breves palavras, não se nasce empreendedor. É algo que se desenvolve no tempo, e que se melhora com os erros cometidos, não só com os nossos mas como os erros de outros empreendedores. O espírito empreendedor é algo que cresce após a primeira ideia, e até mesmo antes, de forma inconsciente, através do desenvolvimento de competências específicas. A MyListBox é uma rede social que fornece um serviço específico, de criação de listas de presentes e partilha das mesmas com amigos e familiares, que disponibiliza aplicações para dispositivos móveis com iOS e Android, e futuramente aplicação para Windows Phone 7, que permitem os utilizadores acederem às suas listas, e às listas dos seus amigos a qualquer hora, em qualquer lugar mesmo não estando ligado à internet. No contexto do projecto MyListBox, o trabalho resultante desta tese teve como principais objectivos: - Apresentar as experiências no mundo do empreendedorismo - Resultados dos concursos de empreendedorismo - Estado da arte no universo das aplicações móveis - Avaliação dos mecanismos de segurança para aplicações móveis - Critérios da decisão na implementação dos métodos de consistência e replicação de dados.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Este relatório apresenta o trabalho realizado no âmbito da unidade curricular de Tese/Dissertação do Mestrado em Engenharia Electrotécnica e de Computadores - área de especialização de Telecomunicações. Pretende-se desenvolver um sistema distribuído de seguimento, no exterior, de plataformas móveis equipadas com receptores de baixo custo. O sistema deve, em tempo útil, realizar a aquisição, descodificação e tratamento dos dados emiti- dos pelo Global Navigation Satellite System (GNSS), das observações efectuadas pelo receptor e da informação proveniente do European Geostationary Navigation Overlay System (EGNOS). O objectivo é determinar, a partir deste conjunto de informação e para cada plataforma ligada, a posição em modo absoluto, as correcções diferenciais e, finalmente, a posição em modo diferencial. Optou-se por receber as correcções diferenciais de área alargada do EGNOS através da Internet, permitindo, assim, que receptores sem capacidade de receber directamente informação do EGNOS possam também usufruir desta fonte de informação complementar. As correcções diferenciais a aplicar às observações de cada receptor são geradas através do conceito de estacão de referência virtual - Virtual Reference Station (VRS) - a partir da posição aproximada do receptor e das correcções de área alargada provenientes do EGNOS. A determinação da posição em modo diferencial das plataformas móveis é efectuada segundo o conceito de Inverted Di®erential Global Navigation Satellite System (IDGNSS) e utilizando uma arquitectura do tipo Cliente-Servidor. Por último, os resultados, que são armazenados numa base de dados, são disponibilizados ao utilizador através de uma aplicação Web. O utilizador pode, assim, efectuar o seguimento de qualquer plataforma móvel ligada ao sistema a partir de qualquer dispositivo com navegador e acesso à Internet.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

O betão é o material de construção feito pelo Homem mais utilizado no mundo. A sua composição é um processo complexo que exige um conhecimento teórico sólido e muita experiência prática, pelo que poucas pessoas estão habilitadas para o fazer e são muito requisitadas. No entanto não existe muita oferta actual de software que contemple alguns dos aspectos importantes da composição do betão, nomeadamente para o contexto europeu. Nesse sentido, foi desenvolvido um sistema de apoio à decisão chamado Betacomp, baseado num sistema pericial, para realizar estudos de composição de betão. Este contempla as normas legais portuguesas e europeias, e a partir da especificação do betão apresenta toda a informação necessária para se produzir um ensaio de betão. A aquisição do conhecimento necessário ao sistema contou com a colaboração de um especialista com longa e comprovada experiência na área da formulação e produção do betão, tendo sido construída uma base de conhecimento baseada em regras de produção no formato drl (Drools Rule Language). O desenvolvimento foi realizado na plataforma Drools.net, em C# e VB.net. O Betacomp suporta os tipos de betão mais comuns, assim como adições e adjuvantes, sendo aplicável numa grande parte dos cenários de obra. Tem a funcionalidade de fornecer explicações sobre as suas decisões ao utilizador, auxiliando a perceber as conclusões atingidas e simultaneamente pode funcionar como uma ferramenta pedagógica. A sua abordagem é bastante pragmática e de certo modo inovadora, tendo em conta parâmetros novos, que habitualmente não são considerados neste tipo de software. Um deles é o nível do controlo de qualidade do produtor de betão, sendo feito um ajuste de compensação à resistência do betão a cumprir, proporcional à qualidade do produtor. No caso dos produtores de betão, permite que indiquem os constituintes que já possuem para os poderem aproveitar (caso não haja impedimentos técnicos) , uma prática muito comum e que permitirá eventualmente uma aceitação maior da aplicação, dado que reflecte a forma habitual de agir nos produtores.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Tecnologias da Web Semântica como RDF, OWL e SPARQL sofreram nos últimos anos um forte crescimento e aceitação. Projectos como a DBPedia e Open Street Map começam a evidenciar o verdadeiro potencial da Linked Open Data. No entanto os motores de pesquisa semânticos ainda estão atrasados neste crescendo de tecnologias semânticas. As soluções disponíveis baseiam-se mais em recursos de processamento de linguagem natural. Ferramentas poderosas da Web Semântica como ontologias, motores de inferência e linguagens de pesquisa semântica não são ainda comuns. Adicionalmente a esta realidade, existem certas dificuldades na implementação de um Motor de Pesquisa Semântico. Conforme demonstrado nesta dissertação, é necessária uma arquitectura federada de forma a aproveitar todo o potencial da Linked Open Data. No entanto um sistema federado nesse ambiente apresenta problemas de performance que devem ser resolvidos através de cooperação entre fontes de dados. O standard actual de linguagem de pesquisa na Web Semântica, o SPARQL, não oferece um mecanismo para cooperação entre fontes de dados. Esta dissertação propõe uma arquitectura federada que contém mecanismos que permitem cooperação entre fontes de dados. Aborda o problema da performance propondo um índice gerido de forma centralizada assim como mapeamentos entre os modelos de dados de cada fonte de dados. A arquitectura proposta é modular, permitindo um crescimento de repositórios e funcionalidades simples e de forma descentralizada, à semelhança da Linked Open Data e da própria World Wide Web. Esta arquitectura trabalha com pesquisas por termos em linguagem natural e também com inquéritos formais em linguagem SPARQL. No entanto os repositórios considerados contêm apenas dados em formato RDF. Esta dissertação baseia-se em múltiplas ontologias partilhadas e interligadas.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A Organização Mundial da Saúde define a literacia em saúde como o conjunto de competências cognitivas e sociais e a capacidade dos indivíduos para compreenderem e usarem informação para a promoção e manutenção da saúde. A transmissão de informação sobre saúde é mais eficaz quando os seus conteúdos são especificamente desenhados para uma pessoa ou para um grupo populacional e quando a mensagem é bem delimitada, realçando os benefícios (ganhos) e os custos (perdas) associados aos comportamentos e às tomadas de decisão. Analisa-se, neste estudo, o conceito de literacia em saúde e a associação da baixa literacia em saúde aos comportamentos em saúde e aos gastos em saúde. Apresenta-se uma análise da literatura científica publicada sobre a baixa literacia em saúde e a sua implicação nos custos na saúde usando, para este objectivo, uma base de dados das ciências da saúde (MEDLINE/PubMed) e quatro plataformas científicas (DOAJ, SCOPUS, SciELO e Web of Science). A literatura científica analisada evidencia que pessoas com baixa literacia em saúde apresentam uma menor capacidade de compreensão dos conteúdos de material informativo sobre alimentos, doenças crónicas ou sobre o uso de medicamentos, por exemplo, bem como maior dificuldade em pesquisar, seleccionar, ler e assimilar a informação em saúde disponível na Internet. A baixa literacia em saúde relaciona-se, então. com a dificuldade na prevenção e na gestão de problemas de saúde, bem como com comportamentos ineficazes de saúde, i.e., com o uso inadequado de medicamentos, com o recurso excessivo aos serviços de saúde (em especial, os de urgências) ou com a ineficácia em lidar com situações de emergência. A baixa literacia está também associada a taxas de hospitalização mais altas, mas também mais longas no tempo (o que implica mais custos associados a internamento prolongado, mais exames de diagnóstico e fraca adesão à terapêutica medicamentosa), a uma diminuição da utilização de medidas preventivas e a uma fraca adesão à prescrição terapêutica. A baixa literacia acaba por afectar igualmente a comunicação (e a relação) médico-doente. Apresentam-se, como complemento, sugestões de melhoria da literacia em saúde e da comunicação médico-doente para efeitos da promoção da saúde.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

A evolução tecnológica, associada às mudanças sociais a que temos assistido, nomeadamente nas últimas décadas, originou mudanças significativas na forma como os utentes interagem com as instituições, passando a privilegiar a utilização de meios electrónicos, tais como as mensagens de correio electrónico, em detrimento de formas mais tradicionais, como a carta e o telefone. Neste contexto, sendo o ISEP uma instituição de ensino superior que alberga milhares de alunos e recebe centenas de novos alunos todos os anos, necessita de ter condições para que possa responder de forma atempada às inúmeras mensagens de correio electrónico que recebe. Esta necessidade fez com que surgisse um projecto, de nome SiRAC, que servisse para auxiliar na resposta a essas mensagens. O SiRAC tem como objectivo responder a mensagens de correio electrónico de forma automática. De salientar que se admite não ser possível responder a todas as mensagens, privilegiando-se aquelas que são recorrentemente colocadas à Divisão Académica. Assim será possível encurtar o tempo de comunicação entre os diversos intervenientes, criando uma relação mais próxima entre o ISEP e o público que o contacta. O SiRAC analisa as mensagens e procura responder de forma automática sempre que o seu conteúdo possa ser classificado como fazendo parte de um conjunto de questões previamente identificadas pelos recursos humanos da Divisão Académica como recorrentes e para as quais já exista uma resposta tipo. As questões constantes da mensagem são identificadas através de palavras e expressões normalmente associadas aos diferentes tipos de questão. O envio da resposta pressupõe a identificação correcta dos tipos associados e de acordo com requisitos mínimos definidos, de forma a evitar enviar uma resposta errada a uma mensagem. A implementação do SiRAC permite a libertação de recursos humanos da Divisão Académica que anteriormente estavam afectas à resposta de mensagens para o desempenho de outras funções.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Introdução – A ressonância magnética funcional (RMf) é hoje uma ferramenta fundamental na investigação funcional do cérebro humano, quer em indivíduos saudáveis quer em doentes com patologias diversas. É uma técnica complexa que necessita de uma aplicação cuidada e rigorosa e uma compreensão dos mecanismos biofísicos, de modo a serem obtidos resultados fiáveis e com melhor aceitação clínica. O efeito BOLD (Blood Oxygenation Level Dependent), que se baseia nas propriedades magnéticas da hemoglobina, é o método mais utilizado para medir a atividade cerebral por RMf. Objetivos – Otimizar um protocolo de RMf por efeito BOLD em voluntários saudáveis para mapeamento do córtex motor, de modo a que possa ser aplicado no futuro em doentes com patologias diversas. Metodologia – Foram estudados 34 voluntários saudáveis divididos em 2 grupos de estudo: BOLD 1 e BOLD 2. Com vista à otimização, foram testados no subgrupo BOLD 1 diferentes paradigmas e no subgrupo BOLD 2 foi estudada a influência do tempo de eco (TE). Para as várias condições foram comparados os volumes da região ativada e os níveis de ativação obtidos. Resultados/Discussão – O córtex motor foi identificado em todos os voluntários estudados. Não foram detetadas diferenças estatisticamente significativas quando comparados os resultados obtidos com os diferentes parâmetros de aquisição. Conclusão – O protocolo foi otimizado tendo em conta o nível de conforto reportado pelos voluntários. Uma vez que se pretende aplicar este mesmo protocolo no estudo de doentes, este fator torna-se particularmente relevante.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

The knowledge-based society we live in has stressed the importance of human capital and brought talent to the top of most wanted skills, especially to companies who want to succeed in turbulent environments worldwide. In fact, streams, sequences of decisions and resource commitments characterize the day-to-day of multinational companies (MNCs). Such decision-making activities encompass major strategic moves like internationalization and new market entries or diversification and acquisitions. In most companies, these strategic decisions are extensively discussed and debated and are generally framed, formulated, and articulated in specialized language often developed by the best minds in the company. Yet the language used in such deliberations, in detailing and enacting the implementation strategy is usually taken for granted and receives little if any explicit attention (Brannen & Doz, 2012) an can still be a “forgotten factor” (Marschan et al. 1997). Literature on language management and international business refers to lack of awareness of business managers of the impact that language can have not only in communication effectiveness but especially in knowledge transfer and knowledge management in business environments. In the context of MNCs, management is, for many different reasons, more complex and demanding than that of a national company, mainly because of diversity factors inherent to internationalization, namely geographical and cultural spaces, i.e, varied mindsets. Moreover, the way of functioning, and managing language, of the MNC depends on its vision, its values and its internationalization model, i.e on in the way the MNE adapts to and controls the new markets, which can vary essentially from a more ethnocentric to a more pluricentric focus. Regardless of the internationalization model followed by the MNC, communication between different business units is essential to achieve unity in diversity and business sustainability. For the business flow and prosperity, inter-subsidiary, intra-company and company-client (customers, suppliers, governments, municipalities, etc..) communication must work in various directions and levels of the organization. If not well managed, this diversity can be a barrier to global coordination and create turbulent environments, even if a good technological support is available (Feely et al., 2002: 4). According to Marchan-Piekkari (1999) the tongue can be both (i) a barrier, (ii) a facilitator and (iii) a source of power. Moreover, the lack of preparation for the barriers of linguistic diversity can lead to various costs, including negotiations’ failure and failure on internationalization.. On the other hand, communication and language fluency is not just a message transfer procedure, but above all a knowledge transfer process, which requires extra-linguistic skills (persuasion, assertiveness …) in order to promote credibility of both parties. For this reason, MNCs need a common code to communicate and trade information inside and outside the company, which will require one or more strategies, in order to overcome possible barriers and organization distortions.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Research on the problem of feature selection for clustering continues to develop. This is a challenging task, mainly due to the absence of class labels to guide the search for relevant features. Categorical feature selection for clustering has rarely been addressed in the literature, with most of the proposed approaches having focused on numerical data. In this work, we propose an approach to simultaneously cluster categorical data and select a subset of relevant features. Our approach is based on a modification of a finite mixture model (of multinomial distributions), where a set of latent variables indicate the relevance of each feature. To estimate the model parameters, we implement a variant of the expectation-maximization algorithm that simultaneously selects the subset of relevant features, using a minimum message length criterion. The proposed approach compares favourably with two baseline methods: a filter based on an entropy measure and a wrapper based on mutual information. The results obtained on synthetic data illustrate the ability of the proposed expectation-maximization method to recover ground truth. An application to real data, referred to official statistics, shows its usefulness.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Cluster analysis for categorical data has been an active area of research. A well-known problem in this area is the determination of the number of clusters, which is unknown and must be inferred from the data. In order to estimate the number of clusters, one often resorts to information criteria, such as BIC (Bayesian information criterion), MML (minimum message length, proposed by Wallace and Boulton, 1968), and ICL (integrated classification likelihood). In this work, we adopt the approach developed by Figueiredo and Jain (2002) for clustering continuous data. They use an MML criterion to select the number of clusters and a variant of the EM algorithm to estimate the model parameters. This EM variant seamlessly integrates model estimation and selection in a single algorithm. For clustering categorical data, we assume a finite mixture of multinomial distributions and implement a new EM algorithm, following a previous version (Silvestre et al., 2008). Results obtained with synthetic datasets are encouraging. The main advantage of the proposed approach, when compared to the above referred criteria, is the speed of execution, which is especially relevant when dealing with large data sets.

Relevância:

10.00% 10.00%

Publicador:

Resumo:

Projeto de Intervenção apresentado à Escola Superior de Educação de Lisboa para obtenção de grau de mestre em Educação Especial