Il framework CatBoost Machine Learning di Yandex aumenta la gamma di AI

Il panorama dell’IA cambia di giorno in giorno. (Immagine: Shivon Zilis e James Cham, disegnati da Heidi Skinner. Una versione più grande può essere trovata sul sito web di Shivon Zilis.)
caratteristica speciale
IoT: la sfida della sicurezza
L’Internet delle cose sta creando nuovi e seri rischi per la sicurezza. Esaminiamo le possibilità ei pericoli.
Per saperne di più
È difficile evitare il ronzio dell’IA là fuori. Al di là del clamore, non si può negare che il progresso è fatto a passi da gigante. Siamo a metà del 2017, e già l’immagine dell’intelligenza artificiale dipinta per il 2016 ha visto importanti novità.
Rimanendo nello stack tecnologico, abbiamo visto l’introduzione di Caffe2 da Facebook, Core ML appena uscito da Apple, che è entrato nel gioco, e non dimentichiamo l’ambizioso NeoPulse.
Una cosa tutti questi hanno in comune: Deep learning. Caffe2 e NeoPulse sono esclusivamente framework DL e DL è anche fondamentale per Core ML. Mentre DL è certamente prezioso, c’è di più in ML. E ci sono anche più giocatori nel gioco rispetto ai soliti sospetti.
Incontra CatBoost, una nuova libreria ML basata sul potenziamento del gradiente (GB) e che mira a trovare il proprio punto debole nel panorama dell’IA.
CatBoost, il tuo amichevole felino di quartiere
Il rilascio di CatBoost come open source è stato annunciato ufficialmente oggi, ma CatBoost non è uscito dal nulla. È stato sviluppato da Yandex, con sede in Russia e quotata al NASDAQ. Yandex, noto a molti come il “Google russo”, si spaccia per un’azienda tecnologica che realizza prodotti e servizi intelligenti basati sul machine learning.
“Il machine learning è alla base di oltre il 70% dei prodotti e dei servizi Yandex”, afferma Misha Bilenko, capo della Machine Intelligence and Research (MIR) di Yandex. Sebbene le sue librerie MatrixNet e DaNet non siano così conosciute come altre in questo dominio, sono in circolazione da un po’ di tempo e sono ampiamente utilizzate da artisti del calibro di CERN e Gazprom.
“CatBoost è la prossima generazione di MatrixNet e Yandex implementerà CatBoost quasi ovunque MatrixNet sia già operativo”, afferma Bilenko.
Grande. Ma cos’è CatBoost e perché dovrebbe interessarti?
Yandex descrive CatBoost come “una libreria di potenziamento del gradiente open source all’avanguardia” e spiega che mentre DL è davvero utile e qualcosa con cui ha avuto grandi esperienze, c’è di più nella vita e nell’intelligenza artificiale rispetto al DL, come GB.
Yandex applica i GB al tipo di problemi che le aziende incontrano ogni giorno, come rilevare frodi, prevedere il coinvolgimento dei clienti e classificare gli articoli consigliati. Yandex afferma che il vantaggio chiave di GB rispetto a DL è la capacità di fornire risultati altamente accurati anche quando i dati sono relativamente pochi.
Questo, afferma Yandex, lo rende ideale per i modelli predittivi che analizzano molte diverse forme di dati, e in particolare i formati di dati descrittivi con caratteristiche categoriche (caratteristiche con valori discreti anziché continui). Yandex sostiene CatBoost come l’unico modello per dominarli tutti, integrando input da molte diverse tecniche di machine learning.
Yandex si è assicurato che la struttura di CatBoost potesse supportare la loro storia, in quanto può essere alimentata con modelli di framework DL come TensorFlow o Keras. Inoltre, può a sua volta alimentare Core ML, portando così le app basate su CatBoost su una vasta gamma di dispositivi in tutto il mondo.
CatBoost vanta la migliore accuratezza tra gli algoritmi GB e Yandex afferma che migliora la capacità di creare modelli predittivi utilizzando una varietà di fonti di dati come dati sensoriali, storici e transazionali.
Yandex chiama CatBoost il modello “definitivo” più potente. Sebbene tali affermazioni debbano essere dimostrate nella pratica, non si può fare a meno di notare che Yandex sembra mettere i suoi soldi dove è la sua bocca. Per cominciare, Yandex concentra il proprio sviluppo futuro su CatBoost.
Yandex è forte dietro CatBoost
CatBoost può essere chiamato scherzosamente e commercializzato in modo elegante, ma non commettere errori sulla serietà con cui Yandex si avvicina a questo. (Immagine: Yandex)
Yandex implementerà CatBoost quasi ovunque MatrixNet sia già operativo, afferma Bilenko. Questo significa qualcosa, poiché MatrixNet è stata la chiave per Yandex. Per quanto riguarda gli altri, Yandex sta cercando di rendere attraente CatBoost fornendo opzioni per questo.
Oltre all’integrazione di TensorFlow e Core ML, CatBoost può essere utilizzato in Python e R o tramite uno strumento da riga di comando, dispone di hook di visualizzazione e calcolo automatico dell’importanza delle funzionalità e offre opzioni per l’ottimizzazione dei parametri e vanta una superiorità nei benchmark.
Certo, Yandex fa alcune argomentazioni convincenti. Ci sono solo un paio di cose che probabilmente ti starai chiedendo.
Uno, chi è di nuovo Yandex e cosa li rende tali esperti in ML? E due, se CatBoost è così eccezionale, perché non tenerlo per sé? Bene, i due potrebbero essere effettivamente correlati.
Abbiamo già menzionato come Yandex sia colloquialmente noto come Google russo. Anche se ci sono certamente delle basi per questo, le persone di Yandex, e in particolare il suo CEO, non sono d’accordo. Prima di tutto, dicono, Yandex è stata fondata nel 1997, “un anno prima di Google, quindi non li abbiamo seguiti”.
Yandex ha iniziato come motore di ricerca, proprio come Google, ma poi si è diversificato in altri domini. Sì, proprio come Google, ma anche come Amazon e Uber. Yandex, oltre a possedere una quota del 54% del mercato della ricerca online in Russia, si è ampliata per offrire servizi come Shopping (Yandex.Market è utilizzato da 19 milioni di persone al mese) e corse in taxi (Yandex.Taxi possiede il 60% di questo mercato a Mosca).
Parte di ciò potrebbe avere a che fare con il protezionismo russo, ma probabilmente non tutto. Yandex ha costruito una serie di vantaggi nel mercato locale e si sta espandendo anche in altri mercati. L’assunzione dell’ex Microsoft Bilenko, oltre ad altre assunzioni di alto profilo e alla riorganizzazione interna, sembra far parte del piano per conquistare il mondo.
Alla domanda su quali ostacoli debbano essere affrontati in questo sforzo, Bilenko ha risposto affermando che “Yandex si impegna a mantenere prodotti e servizi di alta qualità per gli utenti nei nostri mercati principali, ma come azienda tecnologica globale, riteniamo prezioso contribuire di più ampiamente alla più ampia comunità tecnologica.
“Data l’importanza fondamentale e l’uso diffuso dei GB, volevamo contribuire a un’esigenza fondamentale e creare qualcosa che fosse facile da integrare per gli scienziati dei dati con altri framework di apprendimento automatico. Offrire alla comunità un ottimo strumento pronto all’uso è qualcosa prevediamo sarà ampiamente utilizzato e altamente vantaggioso.”
Peso massimo dell’apprendimento automatico
Bilenko ha citato Yandex Clickhouse come esempio degli strumenti che Yandex ha messo a disposizione della comunità open source. Bilenko dice che spera di vedere CatBoost avere un impatto positivo sulla comunità tecnologica, che si tratti di vendita al dettaglio, assicurazioni o qualsiasi altro uso commerciale, e sottolinea la ricchezza del talento degli sviluppatori in Russia.
Yandex utilizza ML in una serie di applicazioni rivolte ai consumatori, come traduzione, riconoscimento di immagini, ricerca web, pubblicità, previsioni del tempo, riconoscimento vocale e antifrode. Inoltre, Bilenko afferma che Yandex implementerà il machine learning con il team Yandex.Cloud. Quindi aspettati di vedere presto più ML nel cloud da Yandex, al passo con i tempi.
Un altro fatto interessante e poco noto, tuttavia, è che Yandex ha anche un lato aziendale e i dati sono la forza trainante dietro di esso. CatBoost è anche pensato per avere successo a MatrixNet in domini come l’ottimizzazione dei processi industriali o il miglioramento dell’efficienza della ricerca sulla fisica delle particelle.
CatBoost ha funzionalità pronte per l’azienda e non è una sorpresa considerando le sue origini e le sue applicazioni. (Immagine: Yandex)
Yandex Data Factory (YDF) è una divisione di Yandex che fornisce soluzioni basate sull’intelligenza artificiale per aumentare la produttività, ridurre i costi e migliorare l’efficienza energetica. Funziona con Gazprom, CERN e Intel, ed è stato lì che MatrixNet, originariamente sviluppato da Yandex nel 2009, è stato rafforzato.
Sebbene Bilenko affermi che la sua divisione MIR non è normalmente correlata a YDF, CatBoost è stato utilizzato per creare un modello di previsione per un cliente YDF, una grande azienda siderurgica.
Questo modello di previsione della qualità è stato addestrato sui dati passati sulla produzione di lastre di acciaio al fine di prevedere la probabile quantità di massa difettosa in ogni singola lastra in base alle misurazioni disponibili. Il risultato è stato una riduzione dei costi di produzione complessivi e dei tassi di difettosità.
L’industria di processo nei mercati dei campi di casa di Yandex è pesante e la combinazione di accesso a questo settore, know-how e talento può dare a Yandex il potenziale per sfruttare la sua roccaforte per conquistare anche altri mercati.
Quindi, dovresti considerare CatBoost? Probabilmente sì. Dove si inserisce nella strategia di Yandex? Sembra una mossa chiave per ottenere visibilità, stabilire competenze e attrarre talenti e clienti accelerando la sua evoluzione. Sembra anche una svolta interessante nella trama della saga AI in corso; vediamo come lanceranno i dadi.
Internet delle cose
Chi possiede veramente i dati dell’Internet delle cose?
In un mondo in cui sempre più oggetti stanno arrivando online e i fornitori sono coinvolti nella catena di approvvigionamento, come puoi tenere traccia di ciò che è tuo e cosa non lo è?
Per saperne di più