855 resultados para text mining clusterizzazione clustering auto-organizzazione conoscenza MoK
Resumo:
The amount of textual information digitally stored is growing every day. However, our capability of processing and analyzing that information is not growing at the same pace. To overcome this limitation, it is important to develop semiautomatic processes to extract relevant knowledge from textual information, such as the text mining process. One of the main and most expensive stages of the text mining process is the text pre-processing stage, where the unstructured text should be transformed to structured format such as an attribute-value table. The stemming process, i.e. linguistics normalization, is usually used to find the attributes of this table. However, the stemming process is strongly dependent on the language in which the original textual information is given. Furthermore, for most languages, the stemming algorithms proposed in the literature are computationally expensive. In this work, several improvements of the well know Porter stemming algorithm for the Portuguese language, which explore the characteristics of this language, are proposed. Experimental results show that the proposed algorithm executes in far less time without affecting the quality of the generated stems.
Resumo:
"Se tornar viral" é visto pelos comerciantes como o novo Graal para alcançar grandes comunidades online. Neste contexto viral, vídeos têm um papel especial dada a forte capacidade deles de se espalhar exponencialmente pela internet através do compartilhamento social. Cada ano se vê a quebra de novos recordes através deste tipo de viralidade. Em março de 2012, o vídeo "Kony 2012" envolvendo a ação unida contra o líder de milícia Africano epônimo, atingiu mais de 34 milhões de visualizações em seu primeiro dia de lançamento. Em dezembro de 2012, o vídeo-clipe da música "Gangnam Style" tornou-se o primeiro vídeo do YouTube a alcançar mais de um bilhão de visualizações, totalizando mais de 1,4 bilhões de visualizações em março de 2013. Tais ilustrações mostram claramente a nova escala que a internet deu ao fenômeno do boca-a-boca. Os comerciantes entenderam o potencial fantástico dos vídeos virais e tentaram aproveitar o fenômeno de modo a reproduzi-lo para fins comerciais. Esta pesquisa oferece para os acadêmicos e os profissionais de marketing uma análise dos determinantes do compartilhamento de vídeos comerciais online. Mais especificamente, o foco da dissertação foi definido sobre o papel das emoções no compartilhamento, para identificar quais delas levam e como levam à partilha de vídeos comerciais online. A pesquisa foi realizada a partir de dois métodos científicos: uma pesquisa e uma análise de texto sobre a atribuição de emoções para comentários dos vídeos mais compartilhados do YouTube. A pesquisa confirma, com novos métodos, hipóteses previamente testadas e validadas por acadêmicos. Ela mostra que a positividade e a força das emoções são determinantes de compartilhamento maiores do que a negatividade e a fraqueza (Lindgreen and Vanhamme, 2005; Dobele et al., 2007). A dissertação também argumenta que o conteúdo do vídeo, bem como o contexto são determinantes significativos de compartilhamento de vídeo (Laskey et al., 1989; Taylor, 1999). Além de validar teorias existentes, a pesquisa trouxe novos conceitos para a discussão, especialmente o papel da dimensão força / fraqueza de emoções para analisar o fenômeno viral, e a importância de uma clara "chamada à ação" incluída no vídeo para aumentar a sua partilha. Estes novos conceitos enriquecem a literatura do tema – que evolui muito rapidamente – e preparam o caminho para futuras pesquisas.
Resumo:
A implantação dos sistemas de notas fiscais eletrônicas proporcionou uma grande quantidade de dados para as administrações tributárias. Analisar esses dados e extrair informações importantes é um desafio. Esse trabalho buscou, por meio de técnicas de análise de dados e mineração de textos, identificar, a partir da descrição dos serviços prestados, notas emitidas incorretamente a fim de respaldar um melhor planejamento de fiscalizações.
Resumo:
O objetivo deste relatório é dar a conhecer um possível percurso de carreira para um aluno que, à entrada no mundo profissional, se interessou por sistemas de suporte à decisão e mais tarde enveredou por uma carreira de docente. Descrevi a minha experiência profissional desde a entrada no curso de Engenharia Informática e as opções que fui tomando durante e depois do curso, demonstrativas do interesse e tendências para a área de suporte à decisão dentro das TI, help desk, assim como pela área do ensino. Assim, o facto de ter trabalhado em diversas áreas e em diversas entidades, colaborei destacadamente na CENTRIA, Portugal Telecom (System Care) e Escola Secundária de Francisco Franco. Nestas entidades fiz desenvolvimento aplicacional em Text Mining, na definição de requisitos, na qualidade e integração de dados e na transmissão de ensinamentos. Esta multiplicidade de contextos permitiu a minha evolução profissional e humana. O curso na FCT-UNL capacitou-me para ser tolerante à frustração, devido aos inúmeros obstáculos com que me fui deparando ao longo do curso, transmitindo-me, assim, uma capacidade de adaptação ao nível das mais diversas tecnologias e metodologias. Ao longo da minha carreira, e graças a todos os ensinamentos assimilados, tenho conseguido ultrapassar sempre as tarefas difíceis a nível técnico, funcional e de gestão que me foram surgindo. Espero transmitir claramente como funcionam os meus projetos, as suas componentes, dificuldades e particularidades.
Resumo:
In this paper artificial neural network (ANN) based on supervised and unsupervised algorithms were investigated for use in the study of rheological parameters of solid pharmaceutical excipients, in order to develop computational tools for manufacturing solid dosage forms. Among four supervised neural networks investigated, the best learning performance was achieved by a feedfoward multilayer perceptron whose architectures was composed by eight neurons in the input layer, sixteen neurons in the hidden layer and one neuron in the output layer. Learning and predictive performance relative to repose angle was poor while to Carr index and Hausner ratio (CI and HR, respectively) showed very good fitting capacity and learning, therefore HR and CI were considered suitable descriptors for the next stage of development of supervised ANNs. Clustering capacity was evaluated for five unsupervised strategies. Network based on purely unsupervised competitive strategies, classic "Winner-Take-All", "Frequency-Sensitive Competitive Learning" and "Rival-Penalize Competitive Learning" (WTA, FSCL and RPCL, respectively) were able to perform clustering from database, however this classification was very poor, showing severe classification errors by grouping data with conflicting properties into the same cluster or even the same neuron. On the other hand it could not be established what was the criteria adopted by the neural network for those clustering. Self-Organizing Maps (SOM) and Neural Gas (NG) networks showed better clustering capacity. Both have recognized the two major groupings of data corresponding to lactose (LAC) and cellulose (CEL). However, SOM showed some errors in classify data from minority excipients, magnesium stearate (EMG) , talc (TLC) and attapulgite (ATP). NG network in turn performed a very consistent classification of data and solve the misclassification of SOM, being the most appropriate network for classifying data of the study. The use of NG network in pharmaceutical technology was still unpublished. NG therefore has great potential for use in the development of software for use in automated classification systems of pharmaceutical powders and as a new tool for mining and clustering data in drug development
Resumo:
Gli organismi biologici mostrano ricorrenti dinamiche di auto-organizzazione nei processi morfogenetici che sono alla base di come la materia acquisisce gerarchia e organizzazione.L’omeostasi è la condizione con la quale un corpo raggiunge il proprio equilibrio (termico, pressione, ecc.); un processo attraverso il quale questi sistemi stabilzzano le reazioni fisiologiche. Una delle caratteristiche fondamentali esibite da tali organismi è la capacità della materia di instaurare processi di auto-organizzazione, responsabile dei processi di ottimizzazione che guidano all’uso efficiente dell’energia nella lotta per la sopravvivenza. Questa ottimizzazione non mira al raggiungimento di un risultato globale deterministico e “chiuso” (precedentemente stabilito e poi perseguito ad ogni costo), quanto piuttosto al raggiungimento di un’efficienza di processi locali con obiettivi multipli e necessità divergenti; tali processi interagiscono organizzando sistemi nei quali proprietà peculiari uniche emergono dalle interazioni descritte. Le esigenze divergenti non sono negoziate sulla base di un principio di esclusività (una esigenza esclude o elimina le altre) ma da un principio di prevalenza, dove le necessità non prevalenti non cessano di esistere ma si modificano in funzione di quelle prevalenti (il proprio campo di espressione è vincolato dai percorsi tracciati in quello delle esigenze prevalenti). In questa tesi si descrive un’applicazione ad uno specifico caso di studio di progettazione architettonica: un parco con spazi polifunzionali nella città di Bologna. L’obiettivo principale del progetto Homeostatic Pattern è quello di dimostrare come questo tipo di processi possano essere osservati, compresi e traslati in architettura: come per gli organismi biologici, in questo progetto gli scambi di materia ed energia (stabilità, respirazione, porosità alla luce) sono regolati da sistemi integrati efficienti piuttosto che da raggruppamenti di elementi mono-ottimizzati. Una specifica pipeline di software è stata costituita allo scopo di collegare in modo bidirezionale e senza soluzione di continuità un software di progettazione parametrica generativa (Grasshopper®) con software di analisi strutturale ed ambientale (GSA Oasys®, Autodesk® Ecotect® analysis), riconducendo i dati nella stessa struttura attraverso cicli di feedback. Il sistema così ottenuto mostra caratteristiche sia a scala macroscopica, come la possibilità di utilizzo della superficie esterna che permette anche un’estensione dell’area verde (grazie alla continuità della membrana), sia alla scala del componente, come la propria capacità di negoziare, tra le altre, la radiazione solare e la modulazione della luce, così come la raccolta capillare delle acque meteoriche. Un sistema multiperformante che come tale non persegue l’ottimizzazione di una singola proprietà ma un miglioramento complessivo per una maggiore efficienza.
Resumo:
Il presente progetto di ricerca analizza quella particolare forma di affidamento diretto dei servizi pubblici denominata in house providing e si articola in tre sezioni. Nella prima sezione viene analizzata la disciplina dei servizi pubblici locali nell’ordinamento italiano mediante un excursus normativo dai primi del 900 ad oggi; la seconda sezione è dedicata alla disciplina dell’affidamento dei servizi pubblici locali di trasporto; la terza sezione, infine, descrive l’in house providing e l’elaborazione pretoria di tale istituto operata dalla giurisprudenza comunitaria. Come noto, la pubblica amministrazione può soddisfare le sue esigenze secondo due diverse modalità: ricorrendo al libero mercato come qualsiasi altro operatore economico oppure auto-producendo i beni e i servizi di cui necessita. Infatti, nonostante il diritto comunitario imponga il rispetto del principio di tutela della concorrenza, lascia impregiudicato il potere di auto-organizzazione in capo alle pubbliche amministrazioni negli Stati membri, le quali potranno scegliere di agire “in economia” o di ricorrere alle prestazioni di operatori terzi. Con la locuzione di derivazione comunitaria in house providing si definisce quel modello organizzativo mediante il quale le pubbliche amministrazioni realizzano le attività di loro competenza attraverso i propri organismi, cioè senza ricorrere al libero mercato per procurarsi i lavori, i servizi e le forniture ad esse occorrenti o per erogare alla collettività prestazioni di pubblico servizio, in deroga ai principi comunitari sulla tutela della concorrenza stabiliti nel Trattato istitutivo della Comunità Europea, che invece imporrebbero lo svolgimento di gare ad evidenza pubblica per l'affidamento di tali servizi. Tuttavia, come chiarito dalla giurisprudenza comunitaria e nazionale, affinché la procedura di gara non sia necessaria, occorre che tra l’amministrazione e il prestatore ci sia sostanziale identità, nonostante le distinte personalità giuridiche, in modo tale da configurare il contratto tra le stesse intercorso come un atto di organizzazione interna.
Resumo:
Except the article forming the main content most HTML documents on the WWW contain additional contents such as navigation menus, design elements or commercial banners. In the context of several applications it is necessary to draw the distinction between main and additional content automatically. Content extraction and template detection are the two approaches to solve this task. This thesis gives an extensive overview of existing algorithms from both areas. It contributes an objective way to measure and evaluate the performance of content extraction algorithms under different aspects. These evaluation measures allow to draw the first objective comparison of existing extraction solutions. The newly introduced content code blurring algorithm overcomes several drawbacks of previous approaches and proves to be the best content extraction algorithm at the moment. An analysis of methods to cluster web documents according to their underlying templates is the third major contribution of this thesis. In combination with a localised crawling process this clustering analysis can be used to automatically create sets of training documents for template detection algorithms. As the whole process can be automated it allows to perform template detection on a single document, thereby combining the advantages of single and multi document algorithms.
Resumo:
La gestione del traffico è una delle principali problematiche delle città moderne, e porta alla definizione di nuove sfide per quanto riguarda l’ottimizzazione del flusso veicolare. Il controllo semaforico è uno degli elementi fondamentali per ottimizzare la gestione del traffico. Attualmente la rilevazione del traffico viene effettuata tramite sensori, tra i quali vengono maggiormente utilizzate le spire magnetiche, la cui installazione e gestione implica costi elevati. In questo contesto, il progetto europeo COLOMBO si pone come obiettivo l’ideazione di nuovi sistemi di regolazione semaforica in grado di rilevare il traffico veicolare mediante sensori più economici da installare e mantenere, e capaci, sulla base di tali rilevazioni, di auto organizzarsi, traendo ispirazione dal campo dell’intelligenza artificiale noto come swarm intelligence. Alla base di questa auto organizzazione semaforica di COLOMBO vi sono due diversi livelli di politiche: macroscopico e microscopico. Nel primo caso le politiche macroscopiche, utilizzando il feromone come astrazione dell’attuale livello del traffico, scelgono la politica di gestione in base alla quantità di feromone presente nelle corsie di entrata e di uscita. Per quanto riguarda invece le politiche microscopiche, il loro compito è quello di deci- dere la durata dei periodi di rosso o verde modificando una sequenza di fasi, chiamata in COLOMBO catena. Le catene possono essere scelte dal sistema in base al valore corrente della soglia di desiderabilità e ad ogni catena corrisponde una soglia di desiderabilità. Lo scopo di questo elaborato è quello di suggerire metodi alternativi all’attuale conteggio di questa soglia di desiderabilità in scenari di bassa presenza di dispositivi per la rilevazione dei veicoli. Ogni algoritmo complesso ha bisogno di essere ottimizzato per migliorarne le performance. Anche in questo caso, gli algoritmi proposti hanno subito un processo di parameter tuning per ottimizzarne le prestazioni in scenari di bassa presenza di dispositivi per la rilevazione dei veicoli. Sulla base del lavoro di parameter tuning, infine, sono state eseguite delle simulazioni per valutare quale degli approcci suggeriti sia il migliore.
Resumo:
Nowadays communication is switching from a centralized scenario, where communication media like newspapers, radio, TV programs produce information and people are just consumers, to a completely different decentralized scenario, where everyone is potentially an information producer through the use of social networks, blogs, forums that allow a real-time worldwide information exchange. These new instruments, as a result of their widespread diffusion, have started playing an important socio-economic role. They are the most used communication media and, as a consequence, they constitute the main source of information enterprises, political parties and other organizations can rely on. Analyzing data stored in servers all over the world is feasible by means of Text Mining techniques like Sentiment Analysis, which aims to extract opinions from huge amount of unstructured texts. This could lead to determine, for instance, the user satisfaction degree about products, services, politicians and so on. In this context, this dissertation presents new Document Sentiment Classification methods based on the mathematical theory of Markov Chains. All these approaches bank on a Markov Chain based model, which is language independent and whose killing features are simplicity and generality, which make it interesting with respect to previous sophisticated techniques. Every discussed technique has been tested in both Single-Domain and Cross-Domain Sentiment Classification areas, comparing performance with those of other two previous works. The performed analysis shows that some of the examined algorithms produce results comparable with the best methods in literature, with reference to both single-domain and cross-domain tasks, in $2$-classes (i.e. positive and negative) Document Sentiment Classification. However, there is still room for improvement, because this work also shows the way to walk in order to enhance performance, that is, a good novel feature selection process would be enough to outperform the state of the art. Furthermore, since some of the proposed approaches show promising results in $2$-classes Single-Domain Sentiment Classification, another future work will regard validating these results also in tasks with more than $2$ classes.
Resumo:
L'informatica, assieme alle sue innovazioni tecnologiche, offre al mondo d'oggi uno scenario in continuo sviluppo evolutivo che permette di facilitare alcune necessità dell'essere umano. Con la nascita di internet e dei nuovi dispositivi cellulari, la comunicazione è stata resa più malleabile e immediata. Tuttavia, le nuove tecnologie utilizzano infrastrutture complesse che non sempre sono ampiamente sfruttate a causa delle loro esigenze quali scalabilità, risposte in tempo reale, o tolleranza. Per far fronte a queste caratteristiche, una nuova tendenza del software è quella di fornire autonomia e pro-attività alle entità nel sistema in modo da incrementare la loro interazione. Queste caratteristiche permettono di responsabilizzare i soggetti rendendo il sistema auto-organizzato, con una migliore scalabilità,robustezza, e quindi riducendo le esigenze di calcolo di ciascuna entità. Lo studio dei sistemi auto-organizzanti è stato ispirato alla natura, e in particolare, ai sistemi biologici. Questi sistemi mostrano le caratteristiche interessanti per gli scenari pervasivi, poichè sono robusti e resistenti, in grado di adattarsi al contesto ambientale e quindi reagiscono a determinate modifiche che si verificano nell'ambiente comportandosi di conseguenza. L'ingegneria dell'auto-organizzazione ha il compito di simulare e testare questi comportamenti presentando uno schema progettuale completo che permetta di presentare soluzioni ricorrenti a problemi noti. Tale schema è definito in termini informatici design pattern. Le entità, definite agenti, per interagire e comunicare tra di loro hanno bisogno di coordinarsi tramite un modello specifico. Nel nostro caso è stato scelto TuCSoN, poichè riesce a separare uno spazio dedicato allo scambio di informazioni da uno spazio dedicato alle specifiche che permette di descrivere delle politiche di comportamento per sistemi MAS implementati nell'opportuno linguaggio di programmazione ReSpecT.
Resumo:
In questa tesi si è studiato l’insorgere di eventi critici in un semplice modello neurale del tipo Integrate and Fire, basato su processi dinamici stocastici markoviani definiti su una rete. Il segnale neurale elettrico è stato modellato da un flusso di particelle. Si è concentrata l’attenzione sulla fase transiente del sistema, cercando di identificare fenomeni simili alla sincronizzazione neurale, la quale può essere considerata un evento critico. Sono state studiate reti particolarmente semplici, trovando che il modello proposto ha la capacità di produrre effetti "a cascata" nell’attività neurale, dovuti a Self Organized Criticality (auto organizzazione del sistema in stati instabili); questi effetti non vengono invece osservati in Random Walks sulle stesse reti. Si è visto che un piccolo stimolo random è capace di generare nell’attività della rete delle fluttuazioni notevoli, in particolar modo se il sistema si trova in una fase al limite dell’equilibrio. I picchi di attività così rilevati sono stati interpretati come valanghe di segnale neurale, fenomeno riconducibile alla sincronizzazione.
Resumo:
La programmazione aggregata è un paradigma che supporta la programmazione di sistemi di dispositivi, adattativi ed eventualmente a larga scala, nel loro insieme -- come aggregati. L'approccio prevalente in questo contesto è basato sul field calculus, un calcolo formale che consente di definire programmi aggregati attraverso la composizione funzionale di campi computazionali, creando i presupposti per la specifica di pattern di auto-organizzazione robusti. La programmazione aggregata è attualmente supportata, in modo più o meno parziale e principalmente per la simulazione, da DSL dedicati (cf., Protelis), ma non esistono framework per linguaggi mainstream finalizzati allo sviluppo di applicazioni. Eppure, un simile supporto sarebbe auspicabile per ridurre tempi e sforzi d'adozione e per semplificare l'accesso al paradigma nella costruzione di sistemi reali, nonché per favorire la ricerca stessa nel campo. Il presente lavoro consiste nello sviluppo, a partire da un prototipo della semantica operazionale del field calculus, di un framework per la programmazione aggregata in Scala. La scelta di Scala come linguaggio host nasce da motivi tecnici e pratici. Scala è un linguaggio moderno, interoperabile con Java, che ben integra i paradigmi ad oggetti e funzionale, ha un sistema di tipi espressivo, e fornisce funzionalità avanzate per lo sviluppo di librerie e DSL. Inoltre, la possibilità di appoggiarsi, su Scala, ad un framework ad attori solido come Akka, costituisce un altro fattore trainante, data la necessità di colmare l'abstraction gap inerente allo sviluppo di un middleware distribuito. Nell'elaborato di tesi si presenta un framework che raggiunge il triplice obiettivo: la costruzione di una libreria Scala che realizza la semantica del field calculus in modo corretto e completo, la realizzazione di una piattaforma distribuita Akka-based su cui sviluppare applicazioni, e l'esposizione di un'API generale e flessibile in grado di supportare diversi scenari.