La grande quantità di dati offusca intenzionalmente il confine tra storage e database
A seconda di come lo si guarda, un database è una sorta di sofisticato sistema di archiviazione oppure l'archiviazione è una sorta di riduzione di un database. Nel mondo reale, dove i database e l'archiviazione sono separati, esiste sicuramente un continuum di cooperazione tra i due. Non c’è dubbio che i database relazionali abbiano guidato la creazione di sistemi di storage tanto quanto – e li hanno spinti in direzioni molto diverse – così come hanno fatto i carichi di lavoro di file server e poi di object server.
E se non dovessi fare tali scelte? E se il tuo spazio di archiviazione fosse un database reale, autentico e onesto? E se Vast Data, il nuovo produttore di cluster di storage all-flash che parlano meglio il Network File System e con una scala molto maggiore rispetto ai più complessi (e meno utili) NoSQL o agli archivi di oggetti, ci avesse pensato fin dal momento della sua fondazione? che creare un nuovo tipo di storage per gestire un nuovo tipo di database incorporato è sempre stato il piano? Cosa accadrebbe se l’intelligenza artificiale fosse sempre il piano e la simulazione e la modellazione HPC potessero accompagnarsi?
Ebbene, la Vast Data Platform, come viene ora chiamato questo ibrido storage-database, è sempre stata il piano. E quel piano è sempre stato qualcosa di più dell'Universal Storage concepito all'inizio del 2016 dai co-fondatori, Renen Hallak, amministratore delegato dell'azienda, Shachar Fienblit, vicepresidente di ricerca e sviluppo, e Jeff Denworth, vicepresidente di prodotti e servizi. chief marketing officer e lanciata a febbraio 2019. Questa è una prossima piattaforma a sé stante, il che significa che dovrà fare cose intelligenti anche con l'elaborazione. Quindi forse, alla fine, si chiamerà semplicemente Vast Platform? Ma non anticipiamo noi stessi.
Poi ancora, perché no? I cofondatori di Vast Data lo hanno fatto molto tempo fa.
"Nel 2015, nel mio pitch deck, c'era una diapositiva sullo stoccaggio in tutta la piattaforma, che aveva forse quindici diapositive", dice Hallak a The Next Platform. “Uno di essi conteneva uno spazio di archiviazione, gli altri avevano altre parti che dovevano essere costruite affinché questa rivoluzione dell’intelligenza artificiale avvenisse davvero nel modo in cui dovrebbe. Otto anni fa, l'intelligenza artificiale era quella dei gatti che nei video di YouTube venivano identificati come gatti. Non era vicino a quello che è oggi. Ma era chiaro che se qualcosa di grosso sarebbe successo nel settore IT nei prossimi vent’anni, sarebbe stata l’intelligenza artificiale e noi volevamo farne parte. Volevamo guidarlo. Volevamo consentire ad altri di prendere parte a questa rivoluzione che sembrava potesse essere limitata a poche organizzazioni molto grandi. E questo non ci è piaciuto. Vogliamo democratizzare questa tecnologia”.
E questo significa molto di più che creare semplicemente un file system NFS di nuova generazione e un sistema di storage di oggetti altamente scalabile basato su flash. Significa pensare a livelli sempre più alti nello stack e riunire i concetti di archiviazione dei dati e database rispetto ai grandi set di dati del mondo naturale che sono sempre più alla base delle applicazioni di intelligenza artificiale.
I dati non sono più limitati a quantità limitate di testo e numeri in righe o colonne in un database, ma dati ad alta risoluzione – video, suoni, dati genomici, qualunque cosa – che danneggerebbero un normale database relazionale. I carichi di lavoro dell'intelligenza artificiale necessitano di enormi quantità di dati per creare modelli e di molte prestazioni per guidare l'addestramento dei modelli e talvolta di un'enorme quantità di calcolo per eseguire inferenze sui nuovi dati quando entrano nel modello. Tutto ciò esercita un'enorme pressione sul sistema di archiviazione per fornire informazioni, qualcosa che Universal Storage di Vast Data, un'implementazione disaggregata di tutto condiviso di NFS che ha un archivio di quasi-oggetti a grana molto fine al di sotto, può gestire.
“I dati hanno molta più gravità rispetto al calcolo”, aggiunge Hallack. “È più grande ed è più difficile spostarsi. E quindi, per giocare nello spazio dell'intelligenza artificiale, non possiamo limitarci solo ai dati. Dobbiamo sapere qualcosa e avere un'opinione su come sono organizzati i dati. Riguarda la rottura dei compromessi e non è solo una questione di archiviazione. Se elimini l'archiviazione delle parole e inserisci il database delle parole, si applica lo stesso tipo di sfide. Costo, prestazioni, scalabilità, resilienza, facilità d'uso: questi non sono termini di storage. Sono termini informatici molto generici.”