Motivi per cui le GPU sono adatte per l'addestramento ma non per l'inferenza - Conoscenza

Nel settore tecnologico, difficilmente puoi avere una conversazione senza che qualcuno menzioni l'inferenza, l'intelligenza artificiale (AI) e l'apprendimento automatico (ML). Tuttavia, è importante notare che, sebbene tutti questi termini siano interconnessi, differiscono anche in modo significativo.

In questo articolo spiegheremo le differenze fondamentali ed evidenzieremo l'importanza dell'utilizzo della tecnologia AI edge basata sull'elaborazione tensore-, in particolare nei sistemi edge e embedded. Rispetto alle soluzioni basate su unità di elaborazione grafica (GPU), le unità di elaborazione tensore (TPU) offrono prestazioni più efficienti ed economicamente vantaggiose. Forniremo anche alcuni casi d'uso di esempio che illustrano dove potresti incontrare soluzioni di IA edge in futuro.

Fondamenti di ML e inferenza

ML si riferisce alla metodologia di addestramento dei modelli utilizzando dati rappresentativi per consentire alle macchine di apprendere come eseguire attività. Questo processo può richiedere un'elevata intensità di calcolo, generando trilioni di operazioni per ogni nuovo punto dati di addestramento. La natura iterativa del processo di addestramento, combinata con gli enormi set di dati di addestramento necessari per ottenere un'elevata precisione, guida la richiesta di elaborazione in virgola mobile-a prestazioni estremamente elevate. La formazione ML viene implementata al meglio come infrastruttura di data center, dove elevati costi operativi e di capitale possono essere giustificati ammortizzandoli su numerosi clienti.

L'inferenza implica l'utilizzo di modelli addestrati per generare potenziali corrispondenze per nuovi dati rilevanti per i dati rappresentativi su cui è stato addestrato il modello. L'inferenza mira a fornire risposte rapide in pochi millisecondi. Esempi di inferenza includono il riconoscimento vocale, la-traduzione linguistica in tempo reale, la visione artificiale e le decisioni di ottimizzazione dell'inserimento pubblicitario. Sebbene l'inferenza richieda solo una frazione della potenza di elaborazione necessaria per l'addestramento, essa supera comunque di gran lunga ciò che i tradizionali sistemi basati su unità di elaborazione centrale (CPU)- possono offrire, in particolare per le applicazioni di visione artificiale. Questo è il motivo per cui così tante aziende si rivolgono a soluzioni di accelerazione-basate su tensori-sia come IP su SoC che come-acceleratori di sistema-per ottenere i tempi di risposta inferiori al-secondo richiesti all'edge. La realtà è che dedicare anche solo un minuto o pochi secondi all'elaborazione delle immagini in un sistema di visione non è molto utile. I sistemi di visione industriale ricercano velocità di elaborazione a livello-di millisecondi.

Separare formazione e inferenza

L'implementazione dello stesso hardware utilizzato per l'addestramento per gestire i carichi di lavoro di inferenza può comportare un eccesso di-provisioning delle macchine per inferenza con acceleratori e hardware CPU. Le soluzioni GPU sviluppate per il ML negli ultimi dieci anni non sono necessariamente la scelta ottimale per l'implementazione su larga-scala delle tecnologie di inferenza ML. Il diagramma seguente illustra perfettamente il confronto tra acceleratori TPU e acceleratori GPU. Dimostra chiaramente che gli acceleratori TPU offrono un consumo energetico inferiore, costi ridotti e una maggiore efficienza rispetto alle soluzioni AGX basate su GPU-, pur fornendo livelli di prestazioni convincenti per le applicazioni di inferenza.

Un'altra considerazione fondamentale quando ci si avvicina alle soluzioni di formazione e inferenza ML è l'ambiente software. Oggi vengono utilizzate numerose librerie popolari, come CUDA per GPU NVIDIA, framework ML come TensorFlow e PyTorch, librerie di modelli multipiattaforma ottimizzate-come Keras e altro ancora. Questi toolkit sono essenziali per lo sviluppo e l'addestramento di modelli ML, ma le applicazioni di inferenza richiedono un set di strumenti software diverso e più piccolo.

I toolkit di inferenza si concentrano sull'esecuzione di modelli su piattaforme di destinazione. Supportano il porting di modelli addestrati su piattaforme, che può comportare alcune trasformazioni degli operatori, quantizzazione e servizi di integrazione dell'host. Tuttavia, questo rappresenta un insieme di funzionalità relativamente semplice rispetto a quelle richieste per lo sviluppo e la formazione del modello.

Gli strumenti di inferenza traggono vantaggio dall'iniziare con una rappresentazione standardizzata del modello. Open Neural Network Exchange (ONNX) è il formato standard per rappresentare i modelli ML. Come suggerisce il nome, è uno standard aperto gestito come progetto Linux Foundation. Tecnologie come ONNX consentono il disaccoppiamento dei sistemi di training e di inferenza, garantendo agli sviluppatori la libertà di scegliere diverse piattaforme ottimizzate per ciascuno.

Esempi di applicazioni visive

Mentre le tecnologie dei processori ML e di inferenza continuano ad avanzare ed evolversi, le applicazioni proliferano. Di seguito sono riportati solo alcuni luoghi in cui potresti incontrare questa tecnologia in futuro.

Server edge in aziende come fabbriche, ospedali, negozi al dettaglio e istituti finanziari. Ad esempio, in contesti industriali, l’intelligenza artificiale può aiutare nella gestione dell’inventario, nel rilevamento dei difetti e persino nella manutenzione predittiva prima che si verifichino problemi. Nella vendita al dettaglio, abilita funzionalità come la stima della posa, utilizzando la visione artificiale per rilevare e analizzare la postura umana. I dati di questa analisi aiutano i rivenditori fisici-e-a comprendere meglio il comportamento umano e il traffico pedonale all'interno dei loro negozi, consentendo loro di ottimizzare i layout dei negozi per massimizzare le vendite e la soddisfazione del cliente.

Imaging ad alta-precisione/alta-qualità per applicazioni quali robotica, automazione/ispezione industriale, imaging medico, imaging scientifico, telecamere di sorveglianza e riconoscimento di oggetti e fotonica. Ad esempio, i metodi di apprendimento automatico hanno dimostrato la capacità di rilevare il cancro elaborando i raggi X- digitali. Questo processo prevede lo sviluppo di un modello ML progettato per elaborare immagini a raggi X, in genere utilizzando algoritmi di segmentazione semantica addestrati per identificare lesioni cancerose. Durante la formazione, le immagini del cancro identificate dai radiologi vengono utilizzate per insegnare alla rete cosa non è il cancro, cos'è il cancro e come appaiono i diversi tipi di cancro. Quanto più un modello ML viene addestrato, tanto meglio diventa nel massimizzare le diagnosi corrette e ridurre al minimo le diagnosi errate. Ciò significa che l’apprendimento automatico si basa non solo sulla progettazione di modelli intelligenti ma anche su grandi quantità (da decine di migliaia a milioni) di esempi di dati attentamente selezionati in cui il cancro è stato identificato in modo esperto.

Carrelli della spesa intelligenti-Diverse aziende stanno sviluppando e implementando sistemi di spesa intelligenti che riconoscono i prodotti non dai codici a barre UPC, ma dall'aspetto visivo della confezione stessa. Questa funzionalità consente agli acquirenti di inserire semplicemente gli articoli nel carrello o nel sistema di pagamento senza dover individuare il codice UPC e scansionarlo con uno scanner laser UPC. Questa tecnologia rende il processo di acquisto più preciso, veloce e conveniente.

Prendere la decisione giusta

Le aziende devono valutare tutte le soluzioni disponibili oggi e selezionare quella ottimale in base al loro caso d’uso specifico. Inoltre, non possono semplicemente dare per scontato che tutte le soluzioni AI siano meglio implementate sui dispositivi GPU, poiché le soluzioni basate su TPU-offrono una maggiore efficienza di elaborazione e un minore utilizzo del silicio, riducendo così il consumo energetico e i costi.