945 resultados para text mining clusterizzazione clustering auto-organizzazione conoscenza MoK
Resumo:
Recommender systems attempt to predict items in which a user might be interested, given some information about the user's and items' profiles. Most existing recommender systems use content-based or collaborative filtering methods or hybrid methods that combine both techniques (see the sidebar for more details). We created Informed Recommender to address the problem of using consumer opinion about products, expressed online in free-form text, to generate product recommendations. Informed recommender uses prioritized consumer product reviews to make recommendations. Using text-mining techniques, it maps each piece of each review comment automatically into an ontology
Resumo:
Abstract A frequent assumption in Social Media is that its open nature leads to a representative view of the world. In this talk we want to consider bias occurring in the Social Web. We will consider a case study of liquid feedback, a direct democracy platform of the German pirate party as well as models of (non-)discriminating systems. As a conclusion of this talk we stipulate the need of Social Media systems to bias their working according to social norms and to publish the bias they introduce. Speaker Biography: Prof Steffen Staab Steffen studied in Erlangen (Germany), Philadelphia (USA) and Freiburg (Germany) computer science and computational linguistics. Afterwards he worked as researcher at Uni. Stuttgart/Fraunhofer and Univ. Karlsruhe, before he became professor in Koblenz (Germany). Since March 2015 he also holds a chair for Web and Computer Science at Univ. of Southampton sharing his time between here and Koblenz. In his research career he has managed to avoid almost all good advice that he now gives to his team members. Such advise includes focusing on research (vs. company) or concentrating on only one or two research areas (vs. considering ontologies, semantic web, social web, data engineering, text mining, peer-to-peer, multimedia, HCI, services, software modelling and programming and some more). Though, actually, improving how we understand and use text and data is a good common denominator for a lot of Steffen's professional activities.
Resumo:
There is genetic evidence of similarities and differences among autoimmune diseases (AIDs) that warrants looking at a general panorama of what has been published. Thus, our aim was to determine the main shared genes and to what extent they contribute to building clusters of AIDs. We combined a text-mining approach to build clusters of genetic concept profiles (GCPs) from the literature in MedLine with knowledge of protein-protein interactions to confirm if genes in GCP encode proteins that truly interact. We found three clusters in which the genes with the highest contribution encoded proteins that showed strong and specific interactions. After projecting the AIDs on a plane, two clusters could be discerned: Sjögren’s syndrome—systemic lupus erythematosus, and autoimmune thyroid disease—type1 diabetes—rheumatoid arthritis. Our results support the common origin of AIDs and the role of genes involved in apoptosis such as CTLA4, FASLG, and IL10.
Resumo:
El treball desenvolupat en aquesta tesi presenta un profund estudi i proveïx solucions innovadores en el camp dels sistemes recomanadors. Els mètodes que usen aquests sistemes per a realitzar les recomanacions, mètodes com el Filtrat Basat en Continguts (FBC), el Filtrat Col·laboratiu (FC) i el Filtrat Basat en Coneixement (FBC), requereixen informació dels usuaris per a predir les preferències per certs productes. Aquesta informació pot ser demogràfica (Gènere, edat, adreça, etc), o avaluacions donades sobre algun producte que van comprar en el passat o informació sobre els seus interessos. Existeixen dues formes d'obtenir aquesta informació: els usuaris ofereixen explícitament aquesta informació o el sistema pot adquirir la informació implícita disponible en les transaccions o historial de recerca dels usuaris. Per exemple, el sistema recomanador de pel·lícules MovieLens (http://movielens.umn.edu/login) demana als usuaris que avaluïn almenys 15 pel·lícules dintre d'una escala de * a * * * * * (horrible, ...., ha de ser vista). El sistema genera recomanacions sobre la base d'aquestes avaluacions. Quan els usuaris no estan registrat en el sistema i aquest no té informació d'ells, alguns sistemes realitzen les recomanacions tenint en compte l'historial de navegació. Amazon.com (http://www.amazon.com) realitza les recomanacions tenint en compte les recerques que un usuari a fet o recomana el producte més venut. No obstant això, aquests sistemes pateixen de certa falta d'informació. Aquest problema és generalment resolt amb l'adquisició d'informació addicional, se li pregunta als usuaris sobre els seus interessos o es cerca aquesta informació en fonts addicionals. La solució proposada en aquesta tesi és buscar aquesta informació en diverses fonts, específicament aquelles que contenen informació implícita sobre les preferències dels usuaris. Aquestes fonts poden ser estructurades com les bases de dades amb informació de compres o poden ser no estructurades com les pàgines web on els usuaris deixen la seva opinió sobre algun producte que van comprar o posseïxen. Nosaltres trobem tres problemes fonamentals per a aconseguir aquest objectiu: 1 . La identificació de fonts amb informació idònia per als sistemes recomanadors. 2 . La definició de criteris que permetin la comparança i selecció de les fonts més idònies. 3 . La recuperació d'informació de fonts no estructurades. En aquest sentit, en la tesi proposada s'ha desenvolupat: 1 . Una metodologia que permet la identificació i selecció de les fonts més idònies. Criteris basats en les característiques de les fonts i una mesura de confiança han estat utilitzats per a resoldre el problema de la identificació i selecció de les fonts. 2 . Un mecanisme per a recuperar la informació no estructurada dels usuaris disponible en la web. Tècniques de Text Mining i ontologies s'han utilitzat per a extreure informació i estructurar-la apropiadament perquè la utilitzin els recomanadors. Les contribucions del treball desenvolupat en aquesta tesi doctoral són: 1. Definició d'un conjunt de característiques per a classificar fonts rellevants per als sistemes recomanadors 2. Desenvolupament d'una mesura de rellevància de les fonts calculada sobre la base de les característiques definides 3. Aplicació d'una mesura de confiança per a obtenir les fonts més fiables. La confiança es definida des de la perspectiva de millora de la recomanació, una font fiable és aquella que permet millorar les recomanacions. 4. Desenvolupament d'un algorisme per a seleccionar, des d'un conjunt de fonts possibles, les més rellevants i fiable utilitzant les mitjanes esmentades en els punts previs. 5. Definició d'una ontologia per a estructurar la informació sobre les preferències dels usuaris que estan disponibles en Internet. 6. Creació d'un procés de mapatge que extreu automàticament informació de les preferències dels usuaris disponibles en la web i posa aquesta informació dintre de l'ontologia. Aquestes contribucions permeten aconseguir dos objectius importants: 1 . Millorament de les recomanacions usant fonts d'informació alternatives que sigui rellevants i fiables. 2 . Obtenir informació implícita dels usuaris disponible en Internet.
Resumo:
The amount of textual information digitally stored is growing every day. However, our capability of processing and analyzing that information is not growing at the same pace. To overcome this limitation, it is important to develop semiautomatic processes to extract relevant knowledge from textual information, such as the text mining process. One of the main and most expensive stages of the text mining process is the text pre-processing stage, where the unstructured text should be transformed to structured format such as an attribute-value table. The stemming process, i.e. linguistics normalization, is usually used to find the attributes of this table. However, the stemming process is strongly dependent on the language in which the original textual information is given. Furthermore, for most languages, the stemming algorithms proposed in the literature are computationally expensive. In this work, several improvements of the well know Porter stemming algorithm for the Portuguese language, which explore the characteristics of this language, are proposed. Experimental results show that the proposed algorithm executes in far less time without affecting the quality of the generated stems.
Resumo:
"Se tornar viral" é visto pelos comerciantes como o novo Graal para alcançar grandes comunidades online. Neste contexto viral, vídeos têm um papel especial dada a forte capacidade deles de se espalhar exponencialmente pela internet através do compartilhamento social. Cada ano se vê a quebra de novos recordes através deste tipo de viralidade. Em março de 2012, o vídeo "Kony 2012" envolvendo a ação unida contra o líder de milícia Africano epônimo, atingiu mais de 34 milhões de visualizações em seu primeiro dia de lançamento. Em dezembro de 2012, o vídeo-clipe da música "Gangnam Style" tornou-se o primeiro vídeo do YouTube a alcançar mais de um bilhão de visualizações, totalizando mais de 1,4 bilhões de visualizações em março de 2013. Tais ilustrações mostram claramente a nova escala que a internet deu ao fenômeno do boca-a-boca. Os comerciantes entenderam o potencial fantástico dos vídeos virais e tentaram aproveitar o fenômeno de modo a reproduzi-lo para fins comerciais. Esta pesquisa oferece para os acadêmicos e os profissionais de marketing uma análise dos determinantes do compartilhamento de vídeos comerciais online. Mais especificamente, o foco da dissertação foi definido sobre o papel das emoções no compartilhamento, para identificar quais delas levam e como levam à partilha de vídeos comerciais online. A pesquisa foi realizada a partir de dois métodos científicos: uma pesquisa e uma análise de texto sobre a atribuição de emoções para comentários dos vídeos mais compartilhados do YouTube. A pesquisa confirma, com novos métodos, hipóteses previamente testadas e validadas por acadêmicos. Ela mostra que a positividade e a força das emoções são determinantes de compartilhamento maiores do que a negatividade e a fraqueza (Lindgreen and Vanhamme, 2005; Dobele et al., 2007). A dissertação também argumenta que o conteúdo do vídeo, bem como o contexto são determinantes significativos de compartilhamento de vídeo (Laskey et al., 1989; Taylor, 1999). Além de validar teorias existentes, a pesquisa trouxe novos conceitos para a discussão, especialmente o papel da dimensão força / fraqueza de emoções para analisar o fenômeno viral, e a importância de uma clara "chamada à ação" incluída no vídeo para aumentar a sua partilha. Estes novos conceitos enriquecem a literatura do tema – que evolui muito rapidamente – e preparam o caminho para futuras pesquisas.
Resumo:
A implantação dos sistemas de notas fiscais eletrônicas proporcionou uma grande quantidade de dados para as administrações tributárias. Analisar esses dados e extrair informações importantes é um desafio. Esse trabalho buscou, por meio de técnicas de análise de dados e mineração de textos, identificar, a partir da descrição dos serviços prestados, notas emitidas incorretamente a fim de respaldar um melhor planejamento de fiscalizações.
Resumo:
O objetivo deste relatório é dar a conhecer um possível percurso de carreira para um aluno que, à entrada no mundo profissional, se interessou por sistemas de suporte à decisão e mais tarde enveredou por uma carreira de docente. Descrevi a minha experiência profissional desde a entrada no curso de Engenharia Informática e as opções que fui tomando durante e depois do curso, demonstrativas do interesse e tendências para a área de suporte à decisão dentro das TI, help desk, assim como pela área do ensino. Assim, o facto de ter trabalhado em diversas áreas e em diversas entidades, colaborei destacadamente na CENTRIA, Portugal Telecom (System Care) e Escola Secundária de Francisco Franco. Nestas entidades fiz desenvolvimento aplicacional em Text Mining, na definição de requisitos, na qualidade e integração de dados e na transmissão de ensinamentos. Esta multiplicidade de contextos permitiu a minha evolução profissional e humana. O curso na FCT-UNL capacitou-me para ser tolerante à frustração, devido aos inúmeros obstáculos com que me fui deparando ao longo do curso, transmitindo-me, assim, uma capacidade de adaptação ao nível das mais diversas tecnologias e metodologias. Ao longo da minha carreira, e graças a todos os ensinamentos assimilados, tenho conseguido ultrapassar sempre as tarefas difíceis a nível técnico, funcional e de gestão que me foram surgindo. Espero transmitir claramente como funcionam os meus projetos, as suas componentes, dificuldades e particularidades.
Resumo:
In this paper artificial neural network (ANN) based on supervised and unsupervised algorithms were investigated for use in the study of rheological parameters of solid pharmaceutical excipients, in order to develop computational tools for manufacturing solid dosage forms. Among four supervised neural networks investigated, the best learning performance was achieved by a feedfoward multilayer perceptron whose architectures was composed by eight neurons in the input layer, sixteen neurons in the hidden layer and one neuron in the output layer. Learning and predictive performance relative to repose angle was poor while to Carr index and Hausner ratio (CI and HR, respectively) showed very good fitting capacity and learning, therefore HR and CI were considered suitable descriptors for the next stage of development of supervised ANNs. Clustering capacity was evaluated for five unsupervised strategies. Network based on purely unsupervised competitive strategies, classic "Winner-Take-All", "Frequency-Sensitive Competitive Learning" and "Rival-Penalize Competitive Learning" (WTA, FSCL and RPCL, respectively) were able to perform clustering from database, however this classification was very poor, showing severe classification errors by grouping data with conflicting properties into the same cluster or even the same neuron. On the other hand it could not be established what was the criteria adopted by the neural network for those clustering. Self-Organizing Maps (SOM) and Neural Gas (NG) networks showed better clustering capacity. Both have recognized the two major groupings of data corresponding to lactose (LAC) and cellulose (CEL). However, SOM showed some errors in classify data from minority excipients, magnesium stearate (EMG) , talc (TLC) and attapulgite (ATP). NG network in turn performed a very consistent classification of data and solve the misclassification of SOM, being the most appropriate network for classifying data of the study. The use of NG network in pharmaceutical technology was still unpublished. NG therefore has great potential for use in the development of software for use in automated classification systems of pharmaceutical powders and as a new tool for mining and clustering data in drug development
Resumo:
Gli organismi biologici mostrano ricorrenti dinamiche di auto-organizzazione nei processi morfogenetici che sono alla base di come la materia acquisisce gerarchia e organizzazione.L’omeostasi è la condizione con la quale un corpo raggiunge il proprio equilibrio (termico, pressione, ecc.); un processo attraverso il quale questi sistemi stabilzzano le reazioni fisiologiche. Una delle caratteristiche fondamentali esibite da tali organismi è la capacità della materia di instaurare processi di auto-organizzazione, responsabile dei processi di ottimizzazione che guidano all’uso efficiente dell’energia nella lotta per la sopravvivenza. Questa ottimizzazione non mira al raggiungimento di un risultato globale deterministico e “chiuso” (precedentemente stabilito e poi perseguito ad ogni costo), quanto piuttosto al raggiungimento di un’efficienza di processi locali con obiettivi multipli e necessità divergenti; tali processi interagiscono organizzando sistemi nei quali proprietà peculiari uniche emergono dalle interazioni descritte. Le esigenze divergenti non sono negoziate sulla base di un principio di esclusività (una esigenza esclude o elimina le altre) ma da un principio di prevalenza, dove le necessità non prevalenti non cessano di esistere ma si modificano in funzione di quelle prevalenti (il proprio campo di espressione è vincolato dai percorsi tracciati in quello delle esigenze prevalenti). In questa tesi si descrive un’applicazione ad uno specifico caso di studio di progettazione architettonica: un parco con spazi polifunzionali nella città di Bologna. L’obiettivo principale del progetto Homeostatic Pattern è quello di dimostrare come questo tipo di processi possano essere osservati, compresi e traslati in architettura: come per gli organismi biologici, in questo progetto gli scambi di materia ed energia (stabilità, respirazione, porosità alla luce) sono regolati da sistemi integrati efficienti piuttosto che da raggruppamenti di elementi mono-ottimizzati. Una specifica pipeline di software è stata costituita allo scopo di collegare in modo bidirezionale e senza soluzione di continuità un software di progettazione parametrica generativa (Grasshopper®) con software di analisi strutturale ed ambientale (GSA Oasys®, Autodesk® Ecotect® analysis), riconducendo i dati nella stessa struttura attraverso cicli di feedback. Il sistema così ottenuto mostra caratteristiche sia a scala macroscopica, come la possibilità di utilizzo della superficie esterna che permette anche un’estensione dell’area verde (grazie alla continuità della membrana), sia alla scala del componente, come la propria capacità di negoziare, tra le altre, la radiazione solare e la modulazione della luce, così come la raccolta capillare delle acque meteoriche. Un sistema multiperformante che come tale non persegue l’ottimizzazione di una singola proprietà ma un miglioramento complessivo per una maggiore efficienza.
Resumo:
Il presente progetto di ricerca analizza quella particolare forma di affidamento diretto dei servizi pubblici denominata in house providing e si articola in tre sezioni. Nella prima sezione viene analizzata la disciplina dei servizi pubblici locali nell’ordinamento italiano mediante un excursus normativo dai primi del 900 ad oggi; la seconda sezione è dedicata alla disciplina dell’affidamento dei servizi pubblici locali di trasporto; la terza sezione, infine, descrive l’in house providing e l’elaborazione pretoria di tale istituto operata dalla giurisprudenza comunitaria. Come noto, la pubblica amministrazione può soddisfare le sue esigenze secondo due diverse modalità: ricorrendo al libero mercato come qualsiasi altro operatore economico oppure auto-producendo i beni e i servizi di cui necessita. Infatti, nonostante il diritto comunitario imponga il rispetto del principio di tutela della concorrenza, lascia impregiudicato il potere di auto-organizzazione in capo alle pubbliche amministrazioni negli Stati membri, le quali potranno scegliere di agire “in economia” o di ricorrere alle prestazioni di operatori terzi. Con la locuzione di derivazione comunitaria in house providing si definisce quel modello organizzativo mediante il quale le pubbliche amministrazioni realizzano le attività di loro competenza attraverso i propri organismi, cioè senza ricorrere al libero mercato per procurarsi i lavori, i servizi e le forniture ad esse occorrenti o per erogare alla collettività prestazioni di pubblico servizio, in deroga ai principi comunitari sulla tutela della concorrenza stabiliti nel Trattato istitutivo della Comunità Europea, che invece imporrebbero lo svolgimento di gare ad evidenza pubblica per l'affidamento di tali servizi. Tuttavia, come chiarito dalla giurisprudenza comunitaria e nazionale, affinché la procedura di gara non sia necessaria, occorre che tra l’amministrazione e il prestatore ci sia sostanziale identità, nonostante le distinte personalità giuridiche, in modo tale da configurare il contratto tra le stesse intercorso come un atto di organizzazione interna.
Resumo:
Except the article forming the main content most HTML documents on the WWW contain additional contents such as navigation menus, design elements or commercial banners. In the context of several applications it is necessary to draw the distinction between main and additional content automatically. Content extraction and template detection are the two approaches to solve this task. This thesis gives an extensive overview of existing algorithms from both areas. It contributes an objective way to measure and evaluate the performance of content extraction algorithms under different aspects. These evaluation measures allow to draw the first objective comparison of existing extraction solutions. The newly introduced content code blurring algorithm overcomes several drawbacks of previous approaches and proves to be the best content extraction algorithm at the moment. An analysis of methods to cluster web documents according to their underlying templates is the third major contribution of this thesis. In combination with a localised crawling process this clustering analysis can be used to automatically create sets of training documents for template detection algorithms. As the whole process can be automated it allows to perform template detection on a single document, thereby combining the advantages of single and multi document algorithms.
Resumo:
La gestione del traffico è una delle principali problematiche delle città moderne, e porta alla definizione di nuove sfide per quanto riguarda l’ottimizzazione del flusso veicolare. Il controllo semaforico è uno degli elementi fondamentali per ottimizzare la gestione del traffico. Attualmente la rilevazione del traffico viene effettuata tramite sensori, tra i quali vengono maggiormente utilizzate le spire magnetiche, la cui installazione e gestione implica costi elevati. In questo contesto, il progetto europeo COLOMBO si pone come obiettivo l’ideazione di nuovi sistemi di regolazione semaforica in grado di rilevare il traffico veicolare mediante sensori più economici da installare e mantenere, e capaci, sulla base di tali rilevazioni, di auto organizzarsi, traendo ispirazione dal campo dell’intelligenza artificiale noto come swarm intelligence. Alla base di questa auto organizzazione semaforica di COLOMBO vi sono due diversi livelli di politiche: macroscopico e microscopico. Nel primo caso le politiche macroscopiche, utilizzando il feromone come astrazione dell’attuale livello del traffico, scelgono la politica di gestione in base alla quantità di feromone presente nelle corsie di entrata e di uscita. Per quanto riguarda invece le politiche microscopiche, il loro compito è quello di deci- dere la durata dei periodi di rosso o verde modificando una sequenza di fasi, chiamata in COLOMBO catena. Le catene possono essere scelte dal sistema in base al valore corrente della soglia di desiderabilità e ad ogni catena corrisponde una soglia di desiderabilità. Lo scopo di questo elaborato è quello di suggerire metodi alternativi all’attuale conteggio di questa soglia di desiderabilità in scenari di bassa presenza di dispositivi per la rilevazione dei veicoli. Ogni algoritmo complesso ha bisogno di essere ottimizzato per migliorarne le performance. Anche in questo caso, gli algoritmi proposti hanno subito un processo di parameter tuning per ottimizzarne le prestazioni in scenari di bassa presenza di dispositivi per la rilevazione dei veicoli. Sulla base del lavoro di parameter tuning, infine, sono state eseguite delle simulazioni per valutare quale degli approcci suggeriti sia il migliore.