139 resultados para Armazenamento de dados
Resumo:
Este trabalho apresenta um estudo de caso de mineração de dados no varejo. O negócio em questão é a comercialização de móveis e materiais de construção. A mineração foi realizada sobre informações geradas das transações de vendas por um período de 8 meses. Informações cadastrais de clientes também foram usadas e cruzadas com informações de venda, visando obter resultados que possam ser convertidos em ações que, por conseqüência, gerem lucro para a empresa. Toda a modelagem, preparação e transformação dos dados, foi feita visando facilitar a aplicação das técnicas de mineração que as ferramentas de mineração de dados proporcionam para a descoberta de conhecimento. O processo foi detalhado para uma melhor compreensão dos resultados obtidos. A metodologia CRISP usada no trabalho também é discutida, levando-se em conta as dificuldades e facilidades que se apresentaram durante as fases do processo de obtenção dos resultados. Também são analisados os pontos positivos e negativos das ferramentas de mineração utilizadas, o IBM Intelligent Miner e o WEKA - Waikato Environment for Knowledge Analysis, bem como de todos os outros softwares necessários para a realização do trabalho. Ao final, os resultados obtidos são apresentados e discutidos, sendo também apresentada a opinião dos proprietários da empresa sobre tais resultados e qual valor cada um deles poderá agregar ao negócio.
Resumo:
Guias para exploração mineral são normalmente baseados em modelos conceituais de depósitos. Esses guias são, normalmente, baseados na experiência dos geólogos, em dados descritivos e em dados genéticos. Modelamentos numéricos, probabilísticos e não probabilísticos, para estimar a ocorrência de depósitos minerais é um novo procedimento que vem a cada dia aumentando sua utilização e aceitação pela comunidade geológica. Essa tese utiliza recentes metodologias para a geração de mapas de favorablidade mineral. A denominada Ilha Cristalina de Rivera, uma janela erosional da Bacia do Paraná, situada na porção norte do Uruguai, foi escolhida como estudo de caso para a aplicação das metodologias. A construção dos mapas de favorabilidade mineral foi feita com base nos seguintes tipos de dados, informações e resultados de prospecção: 1) imagens orbitais; 2) prospecção geoquimica; 3) prospecção aerogeofísica; 4) mapeamento geo-estrutural e 5) altimetria. Essas informacões foram selecionadas e processadas com base em um modelo de depósito mineral (modelo conceitual), desenvolvido com base na Mina de Ouro San Gregorio. O modelo conceitual (modelo San Gregorio), incluiu características descritivas e genéticas da Mina San Gregorio, a qual abrange os elementos característicos significativos das demais ocorrências minerais conhecidas na Ilha Cristalina de Rivera. A geração dos mapas de favorabilidade mineral envolveu a construção de um banco de dados, o processamento dos dados, e a integração dos dados. As etapas de construção e processamento dos dados, compreenderam a coleta, a seleção e o tratamento dos dados de maneira a constituírem os denominados Planos de Informação. Esses Planos de Informação foram gerados e processados organizadamente em agrupamentos, de modo a constituírem os Fatores de Integração para o mapeamento de favorabilidade mineral na Ilha Cristalina de Rivera. Os dados foram integrados por meio da utilização de duas diferentes metodologias: 1) Pesos de Evidência (dirigida pelos dados) e 2) Lógica Difusa (dirigida pelo conhecimento). Os mapas de favorabilidade mineral resultantes da implementação das duas metodologias de integração foram primeiramente analisados e interpretados de maneira individual. Após foi feita uma análise comparativa entre os resultados. As duas metodologias xxiv obtiveram sucesso em identificar, como áreas de alta favorabilidade, as áreas mineralizadas conhecidas, além de outras áreas ainda não trabalhadas. Os mapas de favorabilidade mineral resultantes das duas metodologias mostraram-se coincidentes em relação as áreas de mais alta favorabilidade. A metodologia Pesos de Evidência apresentou o mapa de favorabilidade mineral mais conservador em termos de extensão areal, porém mais otimista em termos de valores de favorabilidade em comparação aos mapas de favorabilidade mineral resultantes da implementação da metodologia Lógica Difusa. Novos alvos para exploração mineral foram identificados e deverão ser objeto de investigação em detalhe.
Resumo:
Este trabalho aplica a Teoria de Autômatos na proposição de uma nova alternativa para prover animações 2D na World Wide Web, verificando as contribuições alcançadas para as questões relacionadas ao espaço de armazenamento, reutilização e manutenção do conteúdo e suporte à recuperação de informação. Para este objetivo, é proposto o modelo AGA (Animação Gráfica baseada em Autômatos Finitos), o qual especifica a animação a partir de uma estrutura baseada em autômatos finitos com saída. Esse modelo é definido de tal forma que os mesmos autômatos utilizados na especificação, ao serem simulados, realizam o controle da animação durante a apresentação. O modelo AGA apresenta características que favorecem a redução do espaço de armazenamento da animação, provêem suporte à recuperação de informação, colaboram com a reutilização e manutenção do conteúdo das animações. Uma implementação multiplataforma foi desenvolvida para apresentar animações especificadas nesse modelo na Web. Essa implementação proporciona a elaboração de consultas ao conteúdo da animação, além dos recursos tradicionais de reprodução. A partir dessa implementação, o AGA foi submetido a um estudo de caso prático, onde os resultados obtidos são comparados com o produzidos pelo GIF (Graphic Interchange Format). Esse comparativo demonstra que o AGA possui várias vantagens em relação à estrutura adotada pelo GIF. O modelo AGA é estendido utilizando autômatos temporizados para prover restrições temporais às especificações e também ampliar as funcionalidades de interação com o observador da animação. Essa extensão, chamada de modelo AGA-S (Animação Gráfica baseada em Autômatos Temporizados Sincronizados), é definida a partir do autômato temporizado proposto por Alur e Dill. Para esse modelo, é definida uma operação formal para sincronização dos componentes da animação e adicionada uma estrutura baseada em autômatos finitos para controlar a interação do observador com a animação.
Resumo:
Com o aperfeiçoamento de técnicas de aquisição de imagens médicas, como, por exemplo, a tomografia computadorizada e ressonância magnética, a capacidade e a fidelidade do diagnóstico por imagens foram ampliadas. Atualmente, existe a tendência de utilizarem-se imagens através de diversas modalidades para um único diagnóstico, principalmente no caso de doenças graves. Entretanto, o registro e a fusão dessas imagens, chamadas mutimodais, em uma única representação 3D do paciente é uma arefa extremamente dif[icil, que consome tempo e que está sujeita a erros. Sendo assim, a integração de imagens de diferentes modalidades tem sido objeto de pesquisa sob a denominação de Visualização de Volumes de Dados Multimodais. Sistemas desenvolvidos com este objetivo são usados, principalmente, para combinar informações metabólicas e funcionais com dados de anatomia, aumentando a precisão do diagnóstico, uma vez que possibilitam extrrair uma superfície ou região da imagem que apresenta a anatomia, e, então, observar a atividade funcional na outra modalidade. Durante a análise de tais imagens, os médicos estão interessados e quantificar diferentes estruturas. Seusobjetivos envolvem, por exemplo, a visualização de artérias e órgãos do corpo humano para análise de patologias, tais como tumores, má-formações artério-venosas, ou lesões em relação às estuturas que as circundam. Assim, um dos principais obetivos de um algoritmo de visualização volumétrica é permitir a identificação e exploração de estruturas internas no volume. Como o volume é normalmente um "bloco de dados", não se pode visualizar o seu interior, a menos que se assuma que é possível ver através de voxels transparentes, ou que é possivel remover voxels que estão na frente na qual o usuário está interessado, o que foi feito através de técnicas de segmentação ou de corte. Este trabalho presenta uma abordagem para a visualização de estruturas internas em volumes de dados multimodais. A abordagem está fundamentada na utilização de ferramentas de corte, tanto geométricas quanto baseadas em conteúdo, evitando, assim, o uso de técnicas de segmentação; e na integração dos dados multimodais na etapa de acumulação de pipeline de visualização volumétrica. Considerando que as aplicações que suportam este tipo de visualização envolvem a integração de várias ferramentas, tais como registro, corte e visualização, também é apresentado o projeto de um framework que permite esta integração e um alto grau de interação com usuário. Para teste e validação das técnicas de visualização de estruturas internas propostas e do algoritmo desenvolvido, que consiste numa extensão do algoritmo de ray casting tradicional, foram implementadas algumas classes desse framework. Uma revisão baseada na análise e na classificação das ferramentas de corte e funções de transferências, que correspondem a técnicas que permitem visualizar estruturas internas, também é apresentada.
Resumo:
Existe uma certa gama de aplicações que não pode ser implementada através do modelo convencional de transações, são aplicações que tem um tempo de duração mais longo do que aquelas convencionalmente modeladas. Em uma transação Atômica, ou todo o trabalho é realizado por completo ou nada é feito, mas, quando se trata de atividades de longa duração, isto pode significar a perda de trabalho executado durante horas ou, até mesmo, dias. Pelo mesmo motivo, transações longas não devem executar isoladamente, porque isto impede que outras transações tenham acesso aos dados sendo manipulados. No âmbito do projeto TRANSCOOP, vêm sendo realizados vários estudos sobre modelos de transações não convencionais. Dentre eles, encontra-se o Modelo de Contratos, que prevê um mecanismo de controle seguro para gerenciar aplicações distribuídas que apresentam atividades de longa duração. Para experimentar e avaliar as idéias inseridas neste modelo está sendo desenvolvido um protótipo. Este sistema é provido de uma interface gráfica interativa, baseada em Manipulação Direta, e suporta a definição de transações longas de banco de dados de acordo com o Modelo de Contratos. O objetivo deste trabalho é descrever a arquitetura de um protótipo para o Modelo de Contratos, definindo a função de cada um de seus módulos, mais especificamente o módulo Interface, e a comunicação entre eles. Para a definição de uma interface adequada foram considerados aspectos de outras áreas da ciência, pois a área de interfaces homemmáquina é multidisciplinar.
Resumo:
O final da Glaciação Neopaleozóica está representado hoje no registro sedimentar da Bacia do Paraná pelas rochas do Grupo Itararé. No Estado do Rio Grande do Sul e no sudeste do Estado de Santa Catarina seus depósitos possuem idade eopermiana, datados desde o Asseliano até o Artinskiano. A partir de dados de testemunhos e de perfis de raios gama de dois poços, um em Santa Catarina (7-RL-04- SC) e outro no Rio Grande do Sul (IB-93-RS), perfurados para pesquisa de carvão pela CPRM (Companhia de Pesquisa de Recursos Minerais), foram feitas análises cicloestratigráficas com o intuito de determinar a existência e a natureza da possível ciclicidade induzida por fenômenos astronômicos presente nesses sedimentos glaciais (basicamente folhelhos e ritmitos). A distância entre as locações originais dos poços (cerca de 380 km) possibilitou testar a influência da indução astronômica em localidades distintas da bacia. Dois métodos de amostragem foram utilizados no estudo, de acordo com a escala dos dados e com a possível indução: os perfis de raios gama (191 m para o 7-RL-04-SC e 71 m para o IB-93-RS) foram digitalizados e amostrados em intervalos de 1 cm, com o intuito de testar a presença de indução pelos ciclos orbitais na escala de 20 mil a 400 mil anos, ou outros fenômenos indutores na escala de 3 mil a 10 mil anos, e os testemunhos foram escaneados nos intervalos com ritmitos, (1,2 m para o 7-RL-04-SC e 38 cm para o IB-93-RS) e transformados em dados em escala de cinza equiespaçados (0,2538 mm), objetivando a busca por ciclos anuais a milenares A análise harmônica pela transformada rápida de Fourier demonstrou a presença de ciclicidade em ambas as escalas: ciclos orbitais, com períodos de cerca de 17 mil a 100 mil anos, foram caracterizados em perfil e ciclos solares, com períodos de cerca de 22 a 1000 anos, foram evidenciados nos testemunhos. Os tempos de acumulação calculados para o poço 7-RL-04-SC nas duas escalas mostraram um alto grau de correlação (cerca de 9400 anos para o intervalo escaneado e aproximadamente 12600 para o mesmo intervalo nos dados do perfil), comprovando a eficiência dos métodos de obtenção dos dados e a utilidade da cicloestratigrafia como ferramenta de análise e refinamento cronoestratigráfico. Quanto às espessas seções de ritmitos, características do Grupo Itararé e presentes nos testemunhos, estas têm sido freqüentemente denominadas de varvitos ou referenciadas como semelhantes a varvitos na literatura. Porém os resultados mostraram que cada par de ritmitos foi depositado em períodos de vinte e dois anos, relacionados aos ciclos solares de Hale. A análise permitiu ainda o estudo das relações existentes entre várias variáveis, como a taxa e o tempo de acumulação, e a definição, na seção do poço 7-RL-04-SC, de seqüências deposicionais de terceira e de quarta ordem. Essas últimas são associadas à indução pelos ciclos orbitais de excentricidade e comparáveis aos períodos glaciais do Pleistoceno, sendo que as taxas de acumulação calculadas para os dados do poço, variando entre 5,2 a 9,3 cm/ka, são muito similares às taxas de acumulação do Pleistoceno. A análise também mostrou que a seção completa do Grupo Itararé no poço IB-93-RS corresponde apenas à cerca de meio ciclo de precessão (12342 anos). Como os dois fenômenos de indução astronômica detectados, os ciclos solares e os orbitais, afetam o clima de maneira global, certamente influenciaram a sedimentação em outros pontos da bacia.
Resumo:
A World Wide Web em poucos anos de existência se tornou uma importante e essencial fonte de informação e a localização e recuperação de informações na Internet passou a ser um grande problema a ser resolvido. Isto porque a falta de padronização e estrutura adequada para representação dos dados, que é resultado da liberdade de criação e manipulação dos documentos, compromete a eficácia dos modelos de recuperação de informação tradicionais. Muitos modelos foram então desenvolvidos para melhorar o desempenho dos sistemas de recuperação de informação. Com o passar dos anos surge assim uma nova área de pesquisa a extração de dados da web que, ao contrário dos sistemas de recuperação, extrai informações dos documentos relevantes e não documentos relevantes de conjunto de documentos. Tais estudos viabilizaram a integração de informações de documentos distribuídos e heterogêneos, que foram baseados nos mesmos modelos aplicados a banco de dados distribuídos. Neste trabalho é apresentado um estudo que tem como objetivo materializar informações contidas em documentos HTML de modo que se possa melhorar o desempenho das consultas em relação ao tempo de execução quanto à qualidade dos resultados obtidos. Para isso são estudados o ambiente web e as características dos dados contidos neste ambiente, como por exemplo, a distribuição e a heterogeneidade, aspectos relacionados à maneira pela qual as informações estão disponibilizadas e como estas podem ser recuperadas e extraídas através de regras sintáticas. Finalizando o estudo são apresentados vários tipos de classificação para os modelos de integração de dados e é monstrado em detalhes um estudo de caso, que tem como objetivo demonstrar a aplicação das técnicas apresentadas ao longo desta pesquisa.
Resumo:
Atualmente, o desenho urbano tem sido realizado dentro de um âmbito restrito do conhecimento. Este não tem considerado aspectos de drenagem da água que trazem grandes transtornos e custos para a sociedade e o ambiente. O desenvolvimento urbano brasileiro tem produzido um aumento significativo na freqüência de inundações, na produção de sedimentos e na deterioração da qualidade da água. Tal situação é decorrente, na maioria dos casos, da ocupação intensiva do solo urbano. Assim, essa abordagem demonstra, inicialmente, uma visão sobre o desenho urbano e suas interfaces; particularmente as relacionadas com a geografia, o ambiente natural e o construído. Na seqüência, pretendendo atingir o enfoque interdisciplinar, aponta vínculos entre o desenho urbano e a hidrologia através de uma análise ambiental de bairros dos municípios de Porto Alegre e Lindolfo Collor, de modo a identificar relações com a utilização de uma variável - a superfície impermeável, procurando descrever o comportamento ambiental de bacias hidrográficas urbanizadas bem como mostrar a necessidade da reserva de área para armazenar água no início do crescimento urbano. Finalizando, apresenta os principais parâmetros ou características de desenho que deverão garantir a sustentabilidade urbana e hidrológica. Apesar de prematuro, pode-se afirmar que existem indícios para que a dissertação venha suprir algumas deficiências existentes no planejamento urbano-ambientalatualmente adotado.
Resumo:
Esta dissertação propõe e discute um mecanismo de realimentação de relevâncias (i. e. “Relevance Feedback”). A técnica de realimentação de relevâncias foi introduzida inicialmente em meados dos anos 60, como uma estratégia para refinamento de consultas para a recuperação de informações. Como uma técnica de refinamento de consultas, foi aplicada inicialmente em sistemas de recuperação de informações textuais. Neste caso, os termos ou expressões consideradas importantes, são utilizados na formulação de uma nova consulta. Ao surgirem os sistemas de recuperação de informação visual baseada em conteúdo (CBVIR), houve a necessidade de serem introduzidos novos elementos associados a esse processo de reformulação de consultas, de tal forma que fossem utilizados não apenas as informações de alto nível, como os termos e expressões. Esses novos elementos passaram a considerar também a subjetividade de percepção humana em relação ao conteúdo visual. Neste trabalho, apresenta-se um processo de extração e representação desse conteúdo, através da utilização de feições (conteúdo) de cor e textura, extraídos de imagens JPEG, uma vez que no processo de compressão de imagens nesse formato, utiliza-se coeficientes da Transformada Discreta do Cosseno (DCT), sendo, portanto esses coeficientes utilizados como elementos que possuem as informações associadas a cor e textura na imagem. Além da DCTé utilizada a Transformação Mandala [YSH 83] no processo de agrupamento de somente 10 coeficientes, com o objetivo de produzir 10 imagens com resoluça menor que a imagem original, mas que representam cada uma, o conteúdo de uma frequência particular da imagem original. A escolha por uma representação como essa,é a garantia de uma redução significativa na quantidade de dados a serem processados. Entretanto, a representação obtida nesse formato para as imagens,é com base em conteúdo global de cor e textura, o que pode produzir resultados insatisfatórios. A introdução de um mecanismo de realimentação de relevâncias, associado à representação utilizada, permite contornar a dificuldade apontada acima, através da obtenção de consultas subsequentes, selecionando os objetos mais relevantes, assim como menos objetos não relevantes, utilizando o conhecimento do usuário de forma interativa no refinamento de consultas para recuperação de informações visuais.
Resumo:
O abscesso de pulmão continua sendo hoje, em plena era dos antibióticos, um importante problema médico. O presente trabalho se propõe mostrar aspectos diagnósticos e terapêuticos da doença em uma série de pacientes coletada nos últimos 34 anos em um hospital universitário especializado em doenças pulmonares. No período de 1968 a 2002 foram reunidos e estudados 241 casos de abscesso pulmonar de aspiração - 199 em homens e 42 em mulheres, com média de idade de 41,3 anos. Em 69,0% dos pacientes esteve presente a ingestão de álcool e em 64,0% o hábito tabágico. Tosse, expectoração, febre e comprometimento do estado geral foram os achados clínicos mais freqüentes, encontrados na quase totalidade dos casos; 62,5% tinham dor torácica e 30,0% hipocratismo digital. Verificaram-se dentes em mau estado de conservação em 81,7 % dos pacientes, episódio de perda de consciência em 78,0% e presença de odor fétido em 66,0%. Em 85,5% das vezes as lesões localizaram-se em segmento posterior de lobo superior ou segmento superior de lobo inferior, 97,1% delas unilaterais, ocorrendo com igual freqüência tanto no pulmão direito como no esquerdo. A maioria das lesões (66,0%) mediram entre 4,0 e 8,0 cm de diâmetro. Em 25 pacientes (10,4%) houve a associação de empiema pleural. Flora mista, indicativa da presença de germes anaeróbios, foi identificada em secreções broncopulmonares ou pleurais em 172 pacientes (71,4 %). Estreptococos e Gram negativos aeróbios foram também algumas vezes encontrados. Todos os pacientes foram inicialmente tratados com antibióticos (penicilina em 78,0% das vezes) e submetidos a sessões de drenagem postural. Em 51 (21,2%) acabou sendo necessário algum procedimento cirúrgico (24 drenagens de empiema, 21 ressecções pulmonares e 6 pneumostomias). Cura foi obtida em 231 pacientes (95,8%) e 10 (4,2%) foram ao óbito, estes em geral com grandes abscessos, três dos quais também com empiema.
Resumo:
Um conceito recente, relacionado à tecnologia educacional, baseia-se na idéia de objetos de aprendizagem (OAs), entendidos como pequenos componentes que podem ser usados, reusados ou referenciados durante a aprendizagem suportada pela tecnologia. Paralelo a isto, várias organizações estão envolvidas num trabalho de desenvolvimento de padrões de metadados para estes objetos, a fim de facilitar a catalogação e recuperação dos mesmos. Desta forma, os OAs podem ser localizados mais facilmente e utilizados em diferentes contextos e plataformas e por diferentes pessoas. O que se propõe para atingir esta facilidade de uso dos OAs é que os objetos sejam armazenados em bases de dados que são também conhecidas como repositórios, que fornecem ao usuário vários benefícios em termos de recuperação de informações. Neste contexto, este trabalho apresenta o GROA - Gerenciador de Repositórios de Objetos de Aprendizagem, que disponibiliza recursos de criação de repositórios capazes de armazenamento, gerenciamento, indexação e estruturação de objetos de aprendizagem, e capazes de operar como serviços deWeb, na internet. Este sistema foi implementado no Zope, que utiliza um banco de dados orientado a objetos, integrado a um servidor web. O texto analisa o conceito de OA e o contextualiza em relação a questões como a educação a distância, ambientes de apoio ao ensino e reusabilidade de conteúdos. Também, detalha os padrões de metadados que permitem a inserção dos OAs como componentes da Web Semântica. Em particular, apresenta-se o mecanismo de mapas de tópicos utilizado para estruturar os repositórios de OAs gerenciados pelo GROA. Finalmente, o texto discorre sobre os detalhes da implementação do GROA.
Resumo:
Este trabalho é um estudo sobre agentes inteligentes e suas aplicações na Internet. São apresentados e comparados alguns exemplos de software com funcionalidades para extrair, selecionar e auxiliar no consumo de informações da Internet, com base no perfil de interesse de cada usuário. O objetivo principal deste trabalho é a proposição de um modelo geral e amplo de agente para a obtenção e manutenção de um repositório de links para documentos que satisfaçam o interesse de um ou mais usuários. O modelo proposto baseia-se na obtenção do perfil do usuário a partir de documentos indicados como modelos positivos ou negativos. O ponto forte do modelo são os módulos responsáveis pela extração de informações da Internet, seleção quanto a importância e armazenamento em banco de dados das URLs obtidas, classificadas quanto a usuário, categoria de assunto e assunto. Além disso, o modelo prevê a realização de freqüentes verificações de integridade e pertinência dos links armazenados no repositório. Com base no modelo proposto foi implementado um protótipo parcial. Tal protótipo contempla os módulos responsáveis pela obtenção de informações, seleção das informações pertinentes e classificação e armazenamento dos links de acordo com o assunto. Finalmente, o protótipo implementado permaneceu em execução por um determinado período, gerando alguns resultados preliminares que viabilizaram uma avaliação do modelo.
Resumo:
Dois experimentos e um levantamento por amostragem foram analisados no contexto de dados espaciais. Os experimentos foram delineados em blocos completos casualizados sendo que no experimento um (EXP 1) foram avaliados oito cultivares de trevo branco, sendo estudadas as variáveis Matéria Seca Total (MST) e Matéria Seca de Gramíneas (MSGRAM) e no experimento dois (EXP 2) 20 cultivares de espécies forrageiras, onde foi estudada a variável Percentagem de Implantação (%IMPL). As variáveis foram analisadas no contexto de modelos mistos, sendo modelada a variabilidade espacial através de semivariogramas exponencias, esféricos e gaussianos. Verificou-se uma diminuição em média de 19% e 14% do Coeficiente de Variação (CV) das medias dos cultivares, e uma diminuição em média de 24,6% e 33,3% nos erros padrões dos contrastes ortogonais propostos em MST e MSGRAM. No levantamento por amostragem, estudou-se a associação espacial em Aristida laevis (Nees) Kunth , Paspalum notatum Fl e Demodium incanum DC, amostrados em uma transecção fixa de quadros contiguos, a quatro tamanhos de unidades amostrais (0,1x0,1m; 0,1x0,3m; 0,1x0,5m; e 0,1x1,0m). Nas espécies Aristida laevis (Nees) Kunth e Paspalum notatum Fl, existiu um bom ajuste dos semivariogramas a tamanhos menores das unidades amostrais, diminuíndo quando a unidade amostral foi maior. Desmodium incanum DC apresentou comportamento contrario, ajustando melhor os semivariogramas a tamanhos maiores das unidades amostrais.
Resumo:
A descoberta e a análise de conglomerados textuais são processos muito importantes para a estruturação, organização e a recuperação de informações, assim como para a descoberta de conhecimento. Isto porque o ser humano coleta e armazena uma quantidade muito grande de dados textuais, que necessitam ser vasculhados, estudados, conhecidos e organizados de forma a fornecerem informações que lhe dêem o conhecimento para a execução de uma tarefa que exija a tomada de uma decisão. É justamente nesse ponto que os processos de descoberta e de análise de conglomerados (clustering) se insere, pois eles auxiliam na exploração e análise dos dados, permitindo conhecer melhor seu conteúdo e inter-relações. No entanto, esse processo, por ser aplicado em textos, está sujeito a sofrer interferências decorrentes de problemas da própria linguagem e do vocabulário utilizado nos mesmos, tais como erros ortográficos, sinonímia, homonímia, variações morfológicas e similares. Esta Tese apresenta uma solução para minimizar esses problemas, que consiste na utilização de “conceitos” (estruturas capazes de representar objetos e idéias presentes nos textos) na modelagem do conteúdo dos documentos. Para tanto, são apresentados os conceitos e as áreas relacionadas com o tema, os trabalhos correlatos (revisão bibliográfica), a metodologia proposta e alguns experimentos que permitem desenvolver determinados argumentos e comprovar algumas hipóteses sobre a proposta. As conclusões principais desta Tese indicam que a técnica de conceitos possui diversas vantagens, dentre elas a utilização de uma quantidade muito menor, porém mais representativa, de descritores para os documentos, o que torna o tempo e a complexidade do seu processamento muito menor, permitindo que uma quantidade muito maior deles seja analisada. Outra vantagem está no fato de o poder de expressão de conceitos permitir que os usuários analisem os aglomerados resultantes muito mais facilmente e compreendam melhor seu conteúdo e forma. Além do método e da metodologia proposta, esta Tese possui diversas contribuições, entre elas vários trabalhos e artigos desenvolvidos em parceria com outros pesquisadores e colegas.