Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias, disjuntas, que reflectem as preferências do utilizador. A principal finalidade deste processo é produzir uma organização onde as mensagens sejam classificadas em classes apropriadas requerendo o mínimo número esforço possível por parte do utilizador. Para alcançar os objectivos estipulados, este projecto recorre a técnicas de mineração de texto, em especial categorização automática de texto, e aprendizagem activa. Para reduzir a necessidade de inquirir o utilizador – para etiquetar exemplos de acordo com as categorias desejadas – foi utilizado o algoritmo d-confidence. Processo de organização automática de emails O processo de organizar automaticamente emails é desenvolvido em três fases distintas: indexação, classificação e avaliação. Na primeira fase, fase de indexação, os emails passam por um processo transformativo de limpeza que visa essencialmente gerar uma representação dos emails adequada ao processamento automático. A segunda fase é a fase de classificação. Esta fase recorre ao conjunto de dados resultantes da fase anterior para produzir um modelo de classificação, aplicando-o posteriormente a novos emails. Partindo de uma matriz onde são representados emails, termos e os seus respectivos pesos, e um conjunto de exemplos classificados manualmente, um classificador é gerado a partir de um processo de aprendizagem. O classificador obtido é então aplicado ao conjunto de emails e a classificação de todos os emails é alcançada. O processo de classificação é feito com base num classificador de máquinas de vectores de suporte recorrendo ao algoritmo de aprendizagem activa d-confidence. O algoritmo d-confidence tem como objectivo propor ao utilizador os exemplos mais significativos para etiquetagem. Ao identificar os emails com informação mais relevante para o processo de aprendizagem, diminui-se o número de iterações e consequentemente o esforço exigido por parte dos utilizadores. A terceira e última fase é a fase de avaliação. Nesta fase a performance do processo de classificação e a eficiência do algoritmo d-confidence são avaliadas. O método de avaliação adoptado é o método de validação cruzada denominado 10-fold cross validation. Conclusões O processo de organização automática de emails foi desenvolvido com sucesso, a performance do classificador gerado e do algoritmo d-confidence foi relativamente boa. Em média as categorias apresentam taxas de erro relativamente baixas, a não ser as classes mais genéricas. O esforço exigido pelo utilizador foi reduzido, já que com a utilização do algoritmo d-confidence obteve-se uma taxa de erro próxima do valor final, mesmo com um número de casos etiquetados abaixo daquele que é requerido por um método supervisionado. É importante salientar, que além do processo automático de organização de emails, este projecto foi uma excelente oportunidade para adquirir conhecimento consistente sobre mineração de texto e sobre os processos de classificação automática e recuperação de informação. O estudo de áreas tão interessantes despertou novos interesses que consistem em verdadeiros desafios futuros.


During development, children become capable of categorically associating stimuli and of using these relationships for memory recall. Brain damage in childhood can interfere with this development. This study investigated categorical association of stimuli and recall in four children with brain damages. The etiology, topography and timing of the lesions were diverse. Tasks included naming and immediate recall of 30 perceptually and semantically related figures, free sorting, delayed recall, and cued recall of the same material. Traditional neuropsychological tests were also employed. Two children with brain damage sustained in middle childhood relied on perceptual rather than on categorical associations in making associations between figures and showed deficits in delayed or cued recall, in contrast to those with perinatal lesions. One child exhibited normal performance in recall despite categorical association deficits. The present results suggest that brain damaged children show deficits in categorization and recall that are not usually identified in traditional neuropsychological tests.


This study aimed to describe the benefits of memory training for older adults with low education. Twenty-nine healthy older adults with zero to two years of formal education participated. Sixteen participants received training based on categorization (categorization group = CATG) and 13 received training based on mental images (imagery group = IMG). One group served as control for the other because they trained with different strategies. Training was offered in eight sessions of 90 minutes. The participants were evaluated pre- and posttraining. IMG improved performance in episodic memory tests and had reduced depressive symptoms. CATG increased the use of categorization but did not increase performance in episodic memory tests. Results suggest that the strategy based on the creation of mental images was more effective for older adults with low formal education.


Although aspects of social identity theory are familiar to organizational psychologists, its elaboration, through self-categorization theory, of how social categorization and prototype-based depersonalization actually produce social identity effects is less well known. We describe these processes, relate self-categorization theory to social identity theory, describe new theoretical developments in detail, and show how these developments can address a: range of organizational phenomena. We discuss cohesion and deviance, leadership, subgroup and sociodemographic structure, and mergers and acquisitions.


It has been hypothesized that the brain categorizes stressors and utilizes neural response pathways that vary in accordance with the assigned category. If this is true, stressors should elicit patterns of neuronal activation within the brain that are category-specific. Data from previous Immediate-early gene expression mapping studies have hinted that this is the case, but interstudy differences in methodology render conclusions tenuous. In the present study, immunolabelling for the expression of c-fos was used as a marker of neuronal activity elicited in the rat brain by haemorrhage, immune challenge, noise, restraint and forced swim. All stressors elicited c-fos expression in 25-30% of hypothalamic paraventricular nucleus corticotrophin-releasing-factor cells, suggesting that these stimuli were of comparable strength, at least with regard to their ability to activate the hypothalamic-pituitary-ad renal axis. In the amygdala, haemorrhage and immune challenge both elicited c-fos expression in a large number of neurons in the central nucleus of the amygdala, whereas noise, restraint and forced swim primarily elicited recruitment of cells within the medial nucleus of the amygdala. In the medulla, all stressors recruited similar numbers of noradrenergic (A1 and A2) and adrenergic (C1 and C2) cells. However, haemorrhage and immune challenge elicited c-fos expression In subpopulations of A1 and A2 noradrenergic cells that were significantly more rostral than those recruited by noise, restraint or forced swim. The present data support the suggestion that the brain recognizes at least two major categories of stressor, which we have referred to as 'physical' and 'psychological'. Moreover, the present data suggest that the neural activation footprint that is left in the brain by stressors can be used to determine the category to which they have been assigned by the brain.


By spliced alignment of human DNA and transcript sequence data we constructed a data set of transcript-confirmed exons and introns from 2793 genes, 796 of which (28%) were seen to have multiple isoforms. We find that over one-third of human exons can translate in more than one frame, and that this is highly correlated with G+C content. Introns containing adenosine at donor site position +3 (A3), rather than guanosine (G3), are more common in low G+C regions, while the converse is true in high G+C regions. These two classes of introns are shown to have distinct lengths, consensus sequences and correlations among splice signals, leading to the hypothesis that A3 donor sites are associated with exon definition, and G3 donor sites with intron definition. Minor classes of introns, including GC-AG, U12-type GT-AG, weak, and putative AG-dependant introns are identified and characterized. Cassette exons are more prevalent in low G+C regions, while exon isoforms are more prevalent in high G+C regions. Cassette exon events outnumber other alternative events, while exon isoform events involve truncation twice as often as extension, and occur at acceptor sites twice as often as at donor sites. Alternative splicing is usually associated with weak splice signals, and in a majority of cases, preserves the coding frame. The reported characteristics of constitutive and alternative splice signals, and the hypotheses offered regarding alternative splicing and genome organization, have important implications for experimental research into RNA processing. The 'AltExtron' data sets are available at http://www.bit.uq.edu.au/altExtron/ and http://www.ebi.ac.uk/similar tothanaraj/altExtron/.


Dissertation presented at the Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa to obtain the Master degree in Electrical and Computer Engineering.


In this technical report, we approach one of the practical aspects when it comes to represent users' interests from their tagging activity, namely the categorization of tags into high-level categories of interest. The reason is that the representation of user profiles on the basis of the myriad of tags available on the Web is certainly unfeasible from various practical perspectives; mainly concerningthe unavailability of data to reliably, accurately measure interests across such fine-grained categorization, and, should the data be available, its overwhelming computational intractability. Motivated by this, our study presents the results of a categorization process whereby a collection of tags posted at BibSonomy #http://www.bibsonomy.org# are classified into 5 categories of interest. The methodology used to conduct such categorization is in line with other works in the field.