Cornelis Networks ha presentato la sua prima grande piattaforma proprietaria da quando si è separata con uno spin-off da Intel: la CN5000, una piattaforma di rete a 400 Gbps che intende competere con Ethernet e InfiniBand sul mercato delle reti ad alte prestazioni.
Il mercato è stato a lungo dominato da due architetture primarie: Ethernet, originariamente progettata per le reti generiche più di 50 anni fa, e InfiniBand, sviluppata 25 anni fa per gli ambienti Hpc (high performance computing). Entrambe le soluzioni oggi soffrono di limitazioni quando si tratta di affrontare carichi di lavoro Ai e Hpc, dove le massicce richieste di elaborazione parallela spesso lasciano sottoutilizzate le risorse di calcolo costose a causa dei colli di bottiglia della rete.
È una sfida che Intel ha riconosciuto oltre un decennio fa e ha tentato di risolvere con la sua architettura Omni-Path. Nel 2020, il team principale dietro Omni-Path di Intel ha realizzato lo spin-off di Cornelis Networks: è nato così un nuovo vendor con la mission di far progredire la tecnologia Omni-Path. Da quando si è scorporato da Intel, Cornelis ha mantenuto la continuità aziendale continuando a vendere e supportare i prodotti legacy Omni-Path da 100 Gbps di Intel. Ma oggi arriva il primo prodotto slegato da Intel.
Indice degli argomenti
Cornelis Networks, nuovo approccio alle reti ad alte prestazioni
“Se si guarda agli attuali cluster di intelligenza artificiale o a un cluster Hpc, si osserva un utilizzo del calcolo che è inferiore al 30% in alcuni casi, mentre nelle migliori architetture e nei casi migliori arriva al 50%, ma con l’aiuto di tanta ingegneria di rete personalizzata e su misura”, ha detto Lisa Spelman, ceo di Cornelis Networks, alla testata Network World. “Ci consideriamo molto mission-driven: il nostro obiettivo è permettere di utilizzare meglio tutta la potenza di calcolo del mondo”.
Il CN5000 rappresenta un terzo approccio architetturale alle reti ad alte prestazioni, distinto sia dalle implementazioni Ethernet che InfiniBand. Piuttosto che tentare di aggiornare i protocolli esistenti per i carichi di lavoro Ai e Hpc, Cornelis ha ampliato Omni-Path di Intel con questi casi d’uso specifici in mente.
“Il team poteva fare due scelte, sia in Intel che come azienda autonoma: o trasformare Ethernet in qualcosa per cui non era costruito, o costruire qualcosa da zero”, ha spiegato Spelman. “Quello che abbiamo fatto è stato ottenere l’architettura corretta progettandola specificamente per i carichi di lavoro“.
L’architettura incorpora diversi differenziatori tecnici chiave progettati per ambienti di elaborazione parallela scalabili. Il controllo del flusso credit-based garantisce la trasmissione dei dati senza perdite, mentre il routing adattivo dinamico a grana fine ottimizza la selezione del percorso in tempo reale. I meccanismi potenziati di controllo della congestione sono progettati per mantenere prestazioni coerenti anche con workload pesanti, il che è un requisito fondamentale nell’addestramento dell’Ai, che può coinvolgere migliaia di endpoint.
Le prestazioni: vantaggi di velocità e latenza
Cornelis Networks descrive i vantaggi del CN5000 tramite le metriche tecniche che indicano il superamento dei colli di bottiglia comuni nei carichi di lavoro di intelligenza artificiale e Hpc. L’azienda afferma che le velocità di messaggio sono 2 volte più alte mentre la latenza è inferiore del 35% rispetto ad altre soluzioni da 400 Gbps.
“Ciò che è diverso nell’architettura di Cornelis è che, con la stessa larghezza di banda si può ottenere il doppio delle velocità di messaggio”, ha spiegato Spelman. “Per me, questo è il modo in cui si mostra la correttezza della nostra architettura per i carichi di lavoro”.
Ideale per i carichi di lavoro dell’Ai
Per i carichi di lavoro Ai in particolare, l’azienda evidenzia prestazioni di comunicazione collettiva 6 volte più veloci rispetto all’accesso diretto remoto alla memoria (Rdma) su implementazioni Ethernet convergenti (RoCe). Le operazioni collettive come le funzioni all-reduce rappresentano colli di bottiglia critici nell’addestramento distribuito, in cui migliaia di nodi devono sincronizzare gli aggiornamenti del gradiente in modo efficiente.
La gestione della congestione dell’architettura diventa particolarmente rilevante negli scenari di addestramento dell’Ai, in cui i modelli di comunicazione sincronizzati fanno emergere tutte le limitazioni degli approcci di rete tradizionali. Il controllo del flusso basato sul credito e il routing adattivo di Omni-Path mirano a mantenere prestazioni coerenti anche in queste condizioni difficili.
“Con lo stesso identico calcolo installato e un network swap da altri 400 giga verso CN5000, le prestazioni dell’applicazione migliorano del 30%”, ha detto Spelman. “Normalmente per migliorare del 30% le prestazioni di un’applicazione, si avrebbe bisogno di una nuova generazione di Cpu”.
Cornelis Networks incorpora gli standard aperti
Lo stack software dimostra come Cornelis Networks bilancia l’ottimizzazione proprietaria con gli standard aperti. Nello strato fisico, Omni-Path implementa il suo controllo del flusso basato sul credito e il routing adattivo. Sopra questo si trova il livello software OpenFabrics Alliance, un’astrazione open source che Cornelis ha contribuito a creare e continua a supportare.
“Abbiamo usato questo livello software open source come un modo per rendere estremamente facile per qualsiasi cliente che abbia già usato InfiniBand o Ethernet iniziare a distribuire e andare avanti sull’architettura Omni-Path“, ha detto Spelman.
Questo middleware open source gestisce la traduzione tra le applicazioni e i protocolli Omni-Path sottostanti, consentendo al software Hpc e Ai esistente di funzionare senza modifiche. Il livello OpenFabrics è stato adottato dal Consorzio Ultra Ethernet come componente di base, dimostrando la vasta accettazione al di là delle implementazioni Cornelis.
Guardando al futuro, le prossime generazioni di prodotti amplieranno questo approccio di interoperabilità.
“Man mano che aggiungiamo Ethernet al SuperNIC, si avrà l’opzione di utilizzare lo switch Cornelis, oppure un altro switch Ethernet”, ha osservato Spelman.
Il futuro: dual mode e interoperabilità
Sempre in termini di passaggi successivi, la prossima generazione CN6000 (800Gbps) incorporerà funzionalità dual-mode, supportando sia Omni-Path nativo per le massime prestazioni che i protocolli Ethernet per una più ampia compatibilità dell’ecosistema. Successivamente, il CN7000 (1,6 Tbps) integrerà ulteriormente gli standard del Consorzio Ultra Ethernet mantenendo i vantaggi architetturali di Omni-Path.
Spelman ha indicato che le prime implementazioni dei clienti di Cornelis Networks sono quelle presso il Texas Advanced Computing Center e con il Dipartimento dell’Energia degli Stati Uniti. Ma l’azienda guarda oltre: “Non vediamo l’ora di scalare in tutte le industrie globali: automobile, scoperta dell’energia, petrolio e gas, salute e scienze della vita e qualsiasi altro settore impegnato nell’Ai”, ha concluso Spelman.