Intelligent Web Crawling for Automotive Information

Gaetano Epiro

Intelligent Web Crawling for Automotive Information.

Rel. Fulvio Corno. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2023

Preview

PDF (Tesi_di_laurea) - Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives.
Download (2MB) | Preview

Abstract:	Il processo di sviluppo di un prodotto prevede l'analisi della concorrenza per individuare il "best in class" e la definizione dei Target di prestazione. In particolare, in ambito automotive, il processo di LifeCycleAssessment necessita il monitoraggio costante delle features del veicolo oggetto di studio. Tali caratteristiche, confrontate con le corrispondenti dei veicoli della concorrenza, assumono un ruolo fondamentale nell'ottica di ridurre concretamente l'impatto ambientale. Il processo di ricerca delle numerose informazioni risulta dispondioso in termini di tempo. L'investigazione dell'informazione tecnica specifica comprende, sia la ricerca manuale su fonti definite e riconosciute attendibili, sia l'estrazione e il popolamento di un database. Se si pensa quindi che un veicolo è descritto da centinaia di features utili per la sua caratterizzazione, si comprende come queste attività, oggi manuali, siano estremamante energivore in termini di ore di lavoro a carico di utenti altamente specializzati. L’obiettivo del Web Crawler è quello di fornire un possibile strumento di supporto ai Performance Engineers partendo dalla loro esperienza operativa. L'identificazione delle fonti alimentanti, a cui viene assegnato un livello di affidabilità, e la scelta delle features ritenute significative per il mercato di appartenenza, sono gli strumenti che hanno guidato lo sviluppo del Web Crawler. Ciascuna di queste features prende il nome di "Libra Features" dal nome del tool aziendale che segue il processo di sviluppo prodotto di un veicolo dalla fase di benchmarking alla fase di omologazione. Il Web Crawler visita in maniera ricorsiva le pagine Web, nel rispetto delle policies definite dagli amministratori del server, fino a intercettare le pagine che contengono le informazioni desiderate, simulando il comportamento e le modalità di utilizzo di un utente. Una volta identificata la pagina di interesse da associare al veicolo oggetto della ricerca, il Web Crawler estrae e parsifica tali caratteristiche e restituisce automaticamente all’utente le features estratte. Lo Spider identifica per ognuna di esse, se si tratta di una feature di tipo numerico ed effettua l’equivalenza verso l’unità di misura predefinita, se necessario, o di una di tipo testuale ed effettua la traduzione in inglese della feature dalla lingua originaria della pagina Web. L'uso del Web Crawler da parte degli specialisti garantisce una riduzione significativa del tempo di ricerca e analisi delle informazioni utili all'interno di uno spazio di ricerca più ampio. Inoltre la popolazione di un database contenente informazioni omogenee e confrontabili consente di aumentare la base dati a disposizione degli utenti per poter effettuare analisi di business intelligence che applicano tecniche di tipo "data driven" per la definizione dei Target nelle fasi iniziali di sviluppo prodotto.
Relatori:	Fulvio Corno
Anno accademico:	2022/23
Tipo di pubblicazione:	Elettronica
Numero di pagine:	91
Soggetti:
Corso di laurea:	Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering)
Classe di laurea:	Nuovo ordinamento > Laurea magistrale > LM-32 - INGEGNERIA INFORMATICA
Aziende collaboratrici:	NON SPECIFICATO
URI:	http://webthesis.biblio.polito.it/id/eprint/27140

Modifica (riservato agli operatori)