L'INIZIATIVA

Telco AI, ecco il maxi-database “open” per addestrare i modelli di settore

La Gsma lancia il Telco Common Corpus che raccoglie oltre 10 miliardi di token di dati aperti e verificati. Operatori, fornitori, gruppi di ricerca e regolatori potranno costruire path specializzati su una base affidabile

Pubblicato il 25 giu 2026

Aggiungi tra i preferiti su Google

Patrizia Licata

giornalista

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Il TCC è un corpus aperto da 10+ miliardi di token (letteratura, brevetti, dati pubblici) con licenza e provenienza verificate.
Fornisce open data per addestrare modelli AI nelle telecomunicazioni, consentendo integrazione sicura di dati privati e uso da operatori e regolatori.
Parte di Open Telco Ai, il TCC colma limiti degli Open-Telco LLM, supporta TeleQnA/3GPP-TSG e seed di qualità e metodologia aperta.

Riassunto generato con AI

Arrivano gli open data specifici per l’industria delle telecomunicazioni con cui addestrare l’Ai, ovvero il Telco Common Corpus (TCC), una pietra miliare nell’iniziativa Open Telco Ai della Gsma. Si tratta di un enorme database di oltre 10 miliardi di token di dati di telecomunicazione completamente aperti e liberamente disponibili (letteratura scientifica, brevetti, dati aperti e progetti web aperti) con licenza e provenienza verificate a livello di documento. Possono essere usati per costruire e addestrare modelli Ai in modo affidabile e sicuro, senza timori di errori e violazioni.

Come si legge in un blog post firmato da Louis Powell della Gsma e Anastasia Stasenko di Pleias.ai, il TCC è pensato per operator telco, fornitori, gruppi di ricerca e autorità di regolamentazione che desiderano costruire modelli Ai specializzati nel settore delle telecomunicazioni su una base pubblica di cui possano fidarsi.

Poiché la provenienza dei dati sta diventando un elemento cruciale negli appalti e, sempre più spesso, nei tribunali, una base su cui è possibile dimostrare il diritto d’uso di ogni documento rappresenta una categoria di asset completamente diversa, su cui è possibile sovrapporre dati privati con la massima sicurezza.

Indice degli argomenti

Open Telco Ai: l’impegno della Gsma

Il TCC nasce dall’impegno della Gsma per rendere l’intelligenza artificiale utilizzabile nel settore delle telecomunicazioni. Secondo l’associazione delle telco mobili, i benchmark Open-Telco LLM e la piattaforma Open-telco.AI hanno dimostrato che i modelli attuali non sono in grado di affrontare compiti reali nel settore delle telecomunicazioni, inclusa la gestione della rete e, ancor più importante, che non hanno compiuto progressi significativi negli ultimi due anni nei benchmark del settore come TeleQnA e 3GPP-TSG.

La conoscenza nel settore delle Tlc rappresenta un limite effettivo per le capacità dei modelli, poiché non è presente nelle fonti di addestramento predefinite, ovvero le grandi scansioni web generaliste. I sistemi di archiviazione Internet non sono dimensionati per trovare, raccogliere ed elaborare la letteratura tecnica, che esiste principalmente in formato Pdf. Di recente, i modelli di frontiera hanno investito una notevole quantità di tempo e impegno per superare questa carenza di risorse, ma escludendo molti settori verticali come quello delle telecomunicazioni.

Di conseguenza, il Telco Common Corpus, mettendo insieme conoscenze finora disperse tra editori, repository e uffici brevetti, fornisce i dati open e verificati per l’addestramento di cui il settore ha bisogno per costruire modelli Ai performanti e un’infrastruttura di dati aperti.

Telco Common Corpus: open data verificati

Ciò che distingue il TCC è anche la varietà delle sue fonti: oltre ad articoli sottoposti a revisione paritaria, comprende rapporti tecnici, risultati di progetti correlati agli standard, brevetti e ricerche governative di pubblico dominio su propagazione, spettro e codifica.

Sono dati “aperti” ma, sottolineano Gsma e Pleias.ai, di ampio volume e di alta qualità. La letteratura scientifica aperta, i brevetti, la ricerca governativa e i risultati ottenuti con finanziamenti pubblici rappresentano una risorsa enorme, molto più ricca di quanto la maggior parte dei team immagini quando si affida a strumenti di crawling generici.

Il problema è che questo materiale si trova in formati e in posizioni che le pipeline create per il web crawling e gli strumenti di elaborazione generici non riescono a gestire correttamente: di conseguenza, la risorsa esiste ma rimane inutilizzata. La Gsma ne ha ricavato un corpus aperto adatto al settore delle telecomunicazioni.

Dati affidabili per i modelli Ai delle telco

La difficoltà maggiore degli open data risiede nel fatto che le licenze dichiarate potrebbero essere errate e gli strumenti standard tendono a nasconderle anziché segnalarle.

Ecco perché il progetto TCC conduce le verifiche a livello del singolo documento; una fonte che non supera la verifica viene rifiutata e il rifiuto registrato. TCC si basa tanto sull’esclusione quanto sulla raccolta. Il risultato è verificabile: per ogni documento, è possibile capire perché è stato incluso.

Un corpus di telecomunicazioni aperto e verificato, scrivono gli autori del post, fornisce due vantaggi. Intanto, mette a disposizione dati di addestramento per modelli Ai specializzati nelle telecomunicazioni e per un pre-addestramento continuo.

Open Telco Ai e TCC: i vantaggi e le evoluzioni

Il secondo vantaggio, ancora più rilevante, è che tale corpus fornisce il substrato per seed di alta qualità, che vengono utilizzati per generare dati di addestramento specifici, progettati attorno alle euristiche delle telecomunicazioni, anziché raccolti a caso. I dati di base possono essere amplificati all’infinito per garantire la memorizzazione da parte del modello di elementi rilevanti in un dominio specifico, come la formulazione esatta dell’ultima versione di uno standard o le definizioni degli acronimi. Possono anche diventare la risorsa di base per pipeline di agenti Ai, con documenti aperti che sostituiscono le risorse di produzione che potrebbero non essere facilmente accessibili o rilasciabili.

Il TCC è anche un corpus dinamico. Il registro delle fonti crescerà man mano che nuovi materiali rilasciabili verranno verificati e la metodologia è aperta, quindi la verifica può essere controllata ed estesa. Gli standard sono aperti; ora anche i dati pubblici alla base dei modelli possono esserlo e conservare la propria provenienza.

@RIPRODUZIONE RISERVATA

Patrizia Licata

giornalista

Patrizia Licata è laureata in Letteratura Italiana all’Università La Sapienza di Roma ed è attualmente studentessa magistrale in Scienze Filosofiche all’Università RomaTre. Lavora come giornalista, editor e moderatrice freelance

Seguimi su