Web crawler a servizio della città

Per sfruttare davvero il potere della Rete non basta dare vita ad archivi informativi: i dati vanno estratti ed elaborati in modo tale da consentire lo sviluppo di applicazioni a beneficio della comunità

a parola semantica fa saltuariamente capolino da anni sulla stampa più o meno specializzata, generalmente associata alle future evoluzioni di Internet. All’esterno dell’ambito accademico, però, ancora pochi sembrano comprenderne appieno dettagli ed implicazioni; ancor meno riescono a immaginarne applicazioni concrete che possano rivestire un’utilità per il grande pubblico, per il mondo imprenditoriale o per il tessuto urbano.
Scopo delle tecnologie semantiche è permettere alle macchine di comprendere il contenuto di documenti di varia natura: la riflessione si concentra usualmente sulla formalizzazione di linguaggi capaci di descrivere concetti e relazioni (Rdf, Owl, …), a discapito di considerazioni più ampie sui possibili ambiti di applicazione.

L’abusata quanto vaga buzz word Web 3.0 – avvistata sempre più spesso sui media generalisti – sembra riferirsi all’introduzione di tecniche che consentano ai motori di ricerca di rispondere a domande dirette espresse in linguaggio naturale (ad esempio: “A che ora c’è il prossimo treno per Roma?”), relegando di fatto la semantica ad elemento di disambiguazione nella costruzione di query, a partire dall’analisi di frasi più o meno strutturate – strumentale all’attività dei motori di ricerca, ma con impatto limitato sulla vita quotidiana.
La reale utilità di questa classe di tecnologie emerge in tutti quei contesti information rich troppo densi per essere analizzati da operatori umani: la mole e la varietà dei dati digitali pubblicati quotidianamente su Internet mette chiaramente in luce l’esigenza di strumenti che siano in grado di individuare, raccogliere e correlare informazioni specifiche all’interno di corpi di grandi dimensioni, per poterle riutilizzare all’interno di applicazioni software.

Già Tim Berners-Lee, nel 2001, aveva intuito il legame della semantica con la sua creatura – il World Wide Web – immaginando un futuro Web Semantico: “Un’estensione del Web corrente in cui le informazioni hanno un ben preciso significato e in cui computer e utenti lavorano in cooperazione“. L’introduzione dei tag, come rudimentale strumento per esplicitare gli argomenti trattati all’interno dei blog, ed il successivo sforzo di standardizzazione intrapreso dai principali motori di ricerca per renderli interoperabili (http://schema.org), rappresentano una risposta – incompleta ed onerosa – all’esigenza messa in evidenza da Berners-Lee. Un approccio basato esclusivamente sulla compilazione volontaria di metadati coglie indubbiamente gli aspetti legati all’estensione del Web corrente ma, oltre a presentare oneri ingenti per i produttori di contenuti, non supporta per se una reale cooperazione continuativa tra computer ed utenti.

Perché ciò avvenga è necessario sviluppare sistemi di Knowledge Retrieval basati sull’azione di agenti intelligenti – a tutti gli effetti web crawler – in grado di estrarre (semi-)automaticamente i metadati necessari, e di effettuare inferenze e predizioni a partire da essi. Algoritmi di machine learning possono poi consentire ad agenti software di prendere decisioni sulla base dei dati elaborati.
Queste tecnologie possono dare fondamento a servizi ed applicazioni a beneficio degli abitanti di una Smart City che vanno dal reperimento automatizzato di informazioni sul traffico o su eventi nel territorio urbano, alla costruzione di visualizzazioni utili, alla previsione di situazioni critiche in un’ottica di healthcare avanzato.

Il Centre for Advanced Spatial Analisys dell’Università di Londra, per esempio, ha utilizzato tecnologie di analisi semantica per individuare aree poco salubri per i ciclisti, anche a partire da Open Data ufficiali sull’inquinamento. Bottari è invece un’app sviluppata al Cefriel del Politecnico di Milano che dimostra l’applicazione di sistemi di Knowledge Retrieval alle comunicazioni su Twitter, per mappare la reputazione dei punti di interesse più popolari del quartiere Insa-Dong di Seoul, in Corea, e visualizzarle con grafici, Augmented Reality e mappe. Il Mit (Massachusetts Institute of Technology) di Boston, infine, ha elaborato una metodologia di analisi dei dati storici non strutturati sull’uso della rete elettrica di New York, che ha permesso di costruire sofisticati modelli predittivi dei problemi negli apparati e nei sistemi delle compagnie elettriche.

Web crawler a servizio della città

Articoli correlati

Codice Rss

Codice Rss