5 resultados para Web Scraping
em AMS Tesi di Laurea - Alm@DL - Università di Bologna
Resumo:
Le Associazioni Non Profit giocano un ruolo sempre più rilevante nella vita dei cittadini e rappresentano un'importante realtà produttiva del nostro paese; molto spesso però risulta difficile trovare informazioni relative ad eventi, attività o sull'esistenza stessa di queste associazioni. Per venire in contro alle esigenze dei cittadini molte Regioni e Province mettono a disposizione degli elenchi in cui sono raccolte le informazioni relative alle varie organizzazioni che operano sul territorio. Questi elenchi però, presentano spesso grossi problemi, sia per quanto riguarda la correttezza dei dati, sia per i formati utilizzati per la pubblicazione. Questi fattori hanno portato all'idea e alla necessità di realizzare un sistema per raccogliere, sistematizzare e rendere fruibili le informazioni sulle Associazioni Non Profit presenti sul territorio, in modo che questi dati possano essere utilizzati liberamente da chiunque per scopi diversi. Il presente lavoro si pone quindi due obiettivi principali: il primo consiste nell'implementazione di un tool in grado di recuperare le informazioni sulle Associazioni Non Profit sfruttando i loro Siti Web; questo avviene per mezzo dell'utilizzo di tecniche di Web Crawling e Web Scraping. Il secondo obiettivo consiste nel pubblicare le informazioni raccolte, secondo dei modelli che ne permettano un uso libero e non vincolato; per la pubblicazione e la strutturazione dei dati è stato utilizzato un modello basato sui principi dei linked open data.
Resumo:
Questo elaborato tratta dell'importanza dell'analisi testuale tramite strumenti informatici. Presenta la tecnica più utilizzata per questo tipo di analisi il: Topic Modeling. Vengono indicati alcuni degli algoritmi più sfruttati e si descrivono gli obiettivi principali. Inoltre introduce il Web Mining per l’estrazione di informazioni presenti nel web, specificando una tecnica particolare chiamata Web Scraping. Nell'ultima sezione dell’elaborato viene descritto un caso di studio. L’argomento dello studio è la Privatizzazione. Viene suddiviso in tre fasi, la primi riguarda la ricerca dei documenti e articoli da analizzare del quotidiano La Repubblica, nella seconda parte la raccolta di documenti viene analizzata attraverso l’uso del software MALLET e come ultimo passo vengono analizzati i topic, prodotti dal programma, a cui vengono assegnate delle etichette per identificare i sotto-argomenti presenti nei documenti della raccolta.
Resumo:
Questa tesi di laurea compie uno studio sull’ utilizzo di tecniche di web crawling, web scraping e Natural Language Processing per costruire automaticamente un dataset di documenti e una knowledge base di coppie verbo-oggetto utilizzabile per la classificazione di testi. Dopo una breve introduzione sulle tecniche utilizzate verrà presentato il metodo di generazione, prima in forma teorica e generalizzabile a qualunque classificazione basata su un insieme di argomenti, e poi in modo specifico attraverso un caso di studio: il software SDG Detector. In particolare quest ultimo riguarda l’applicazione pratica del metodo esposto per costruire una raccolta di informazioni utili alla classificazione di documenti in base alla presenza di uno o più Sustainable Development Goals. La parte relativa alla classificazione è curata dal co-autore di questa applicazione, la presente invece si concentra su un’analisi di correttezza e performance basata sull’espansione del dataset e della derivante base di conoscenza.
Resumo:
Software bot per l’automatizzazione dell’acquisto su piattaforme retail (tech). Un sistema scritto interamente in Python riguardante web scraping, richieste HTTP, l’utilizzo di Cookie per il processo di checkout, sistemi di sicurezza, captcha, acquisto di un articolo in maniera autonoma, un sistema di autenticazione per la commercializzazione, sistema di log degli errori, sistema di notifiche. Il tutto sulla base di un cambiamento sociale che ha portato sempre più prodotti ad essere limitati rendendo difficile all’acquisto.
Resumo:
La tesi fornisce un escursus storico sulla nascita dello strumento webradio e la sua evoluzione dal punto di vista tecnico e sociale, intende sostenere l'importanza della rilevazione degli ascolti al fine di poter valutare ed incrementare la profittabilità economica dello strumento e l'effettiva dimensione del fenomeno all'interno del settore dell'intrattenimento. Tale importanza è resa ancor più rilevante dalla constatazione che ad oggi non esiste uno strumento in grado di rilevare ed aggregare queste informazioni, a tal fine viene proposta ed illustrata come soluzione a questa mancanza l'applicativo AudiWebRadio.