Quanto lavoro manuale c'è dietro un modello di AI? Come funziona la data annotation

Un nuovo tipo di blu-collar industry è emersa intorno alla creazione dei dati che alimentano un algoritmo di AI: file di donne, per lo più giovani, siedono gomito a gomito su sedie

economiche in questo edificio di cinque piani in stile sovietico alla periferia di Pechino, fissando lo schermo del

loro computer. Alcune portano i loro cuscini per sostenere la schiena. Passano i loro turni a guardare immagini della vita quotidiana e a "etichettarle" con punti, linee e descrizioni.



Benvenuti nel mondo dell'intelligenza artificiale, il cui arrivo è stato soprannominato la quarta rivoluzione industriale con la promessa di liberare gli esseri umani dal lavoro ripetitivo e noioso. Ma prima che questa promessa utopica possa essere realizzata, un sacco di lavoro monotono deve ancora essere eseguito - da esseri umani


Da quando Frank Rosenblatt nel lontano 1958 inventò "perceptron", il primo algoritmo capace di classificare gli oggetti che gli venivano mostrati, non passa settimana senza che vengano pubblicate notizie che con toni trionfanti annunciano di nuove scoperte nell'ambito dell'intelligenza artificiale e di algoritmi in grado di completare compiti che prima erano riservati agli umani. Si parla molto in questi giorni di algoritmi che portano a termine compiti complicati con un coinvolgimento umano apparentemente minimo, tuttavia, immaginare l'intelligenza artificiale come una entità capace di auto-apprendere è un errore, il fatto che non possiamo vedere gli umani dietro l'IA non significa che non ce ne siano. E questo non vale solo per gli ingegneri che sviluppano questi algoritmi. In effetti, c'è una nuova classe di colletti blu che si occupano di preparare i dati di esempio che gli algoritmi di intelligenza artificiale consumano per "imparare".


Quando la gente parla di AI in questi giorni, ciò che intende veramente è di solito il Machine Learning (ML). La maggior parte degli algoritmi di ML sono essenzialmente modelli statistici che "imparano" come eseguire un particolare compito analizzando grandi campioni di dati - "training data" - che sono stati precedentemente elaboratori da persone in carne e ossa, così da fornire degli "esempi" all'algoritmo. Ma cosa sono esattamente i "dati per il training"? Poniamo il caso tu gestisca una fabbrica di muffin ai mirtilli, ma ogni tanto un cane scappato di casa da un vicino rifugio per animali salta sul nastro trasportatore e il tuo robot di imballaggio alimentato dall'intelligenza artificiale deve distinguere tra i muffin e i cani in modo che nessun cane finisca sullo scaffale di un negozio di alimentari. Affinché il robot riesca a fare questo, deve essere alimentato con molte immagini di muffin e cani, e queste immagini devono essere etichettate manualmente dai così detti taggatori (che immagine per immagine distinguono se ci sia un cane o un muffin).


Lo stesso principio si applica, per esempio, alle auto a guida autonoma (che devono essere in grado di identificare un segnale di stop, tra le altre cose) e alla maggior parte delle altre applicazioni AI.


L'etichettatura dei dati non conosce limiti. Alcuni lavoratori potrebbero etichettare i dati per aiutare i robot che puliscono i pavimenti a riconoscere i mobili e altri ostacoli. Altri potrebbero raccogliere ed etichettare vari modi di dire "25 gradi Celsius" per aiutare i condizionatori intelligenti a capire i comandi dell'utente. Oltre agli elettrodomestici intelligenti, i dati devono anche essere etichettati prima di poter essere utilizzati per addestrare gli algoritmi in campi come la guida autonoma, dove le auto devono riconoscere e interpretare gli oggetti in condizioni complesse e in tempo reale e rispondere di conseguenza.


Questo pone un problema alle aziende: Come possono ottenere dati etichettati o annotati? Anche se mettono le mani su grandi quantità di dati - come foto (per algoritmi di riconoscimento delle immagini), registrazioni vocali (per il riconoscimento vocale), o testo scritto (per la sentiment analysis) - etichettare tutti questi dati è un compito noioso, e deve essere completato da esseri umani. Annotare manualmente i dati è la parte più time consuming dell'intero processo di training di un modello di Intelligenza artificiale.


Come etichettare i dati?

Ci sono diversi modi per etichettare i dati. Alcune aziende/persone etichettano i loro dati da soli - anche se questo può essere costoso, dato che assumere persone semplicemente per questi compiti costa alle aziende sia denaro che flessibilità. Altre aziende, come Google, trovano il modo di far etichettare i loro dati gratuitamente. Vi siete mai chiesti perché il reCAPTCHA di Google continua a chiedervi di identificare i segnali stradali sulle foto sfocate? (Un piccolo suggerimento: Google possiede anche Waymo, che è una società attiva nella guida autonoma).

Nella maggior parte dei casi, tuttavia, sono dei lavoratori pagati che etichettano i dati e sono nate diverse società di outsourcing che impiegano migliaia di lavoratori in giro per il mondo ("i lavoratori invisibile che alimentano l'intelligenza artificiale") intorno a questa nuova esigenza di mercato.


Proprio come le aziende occidentali hanno iniziato a delocalizzare i lavori di produzione nei paesi in via di sviluppo a partire dagli anni '60 e '70, le aziende tecnologiche stanno esternalizzando l'etichettatura dei dati a società straniere che gestiscono quelle che possono essere descritte come "data label factory". E proprio come in passato, questi lavori sono spostati in luoghi dove i salari sono bassi e le condizioni di lavoro più favorevoli per le aziende. Lì, masse di lavoratori in ex magazzini e grandi uffici open space siedono davanti ai computer e passano le loro giornate lavorative a etichettare dati.


Un altro modo per esternalizzare l'etichettatura dei dati è attraverso piattaforme online di crowdworking che suddividono i diversi task tra migliaia di lavoratori in giro per il mondo e in maniera estremamente flessibile, a costi competitivi e in tempi da record riescono ad annottare enormi volumi di dati velocizzando significativamente il processo di creazione di un algoritmo di AI. Anche Socialbeat, al fine di costruire i propri modelli di Intelligenza Artificiale, impiega oltre 100 collaboratori specializzati nell'analisi testuale in lingua Italiana, Francese, Tedesco, Spagnolo ed Inglese e nel labeling di dataset di video ed immagini, che manualmente analizzano contenuti digitali e li annotano così da continuare ad "istruire" gli algoritmi e migliorare sempre di più la precisione.


Avere un team di collaboratori che parlano diverse lingue con conoscenze su domini diversi (e.g. Health, Business, Law, etc.) e un tool per distribuire i task di tagging tra diversi collaboratori è un pre-requisito indispensabile per supportare, in maniera efficiente e a costi contenuti, società terze nella creazione di modelli di AI. Non ci sono società in Italia specializzate su questi compiti e Socialbeat sta arricchendo sempre di più il proprio bagaglio di esperienze fatte in attività di data labeling per modelli di AI.


Il lavoro operaio dell'era dell'IA

Facendo un passo indietro, diventa evidente che un nuovo tipo di lavoro operaio poco qualificato è emerso per soddisfare l'appetito della tecnologia per i dati etichettati. Al contrario del lavoro fisico alla catena di montaggio nell'economia industriale, questa nuova classe di lavoratori è diventata parte di una "catena digitalizzata di fornitura di dati". Naturalmente, non tutti questi lavori sono poco qualificati - un algoritmo che individua il cancro sulle immagini della TAC deve essere addestrato da radiologi esperti.





È quindi importante assicurarsi che questa nuova tipologia di lavori diventi un motore di sicurezza economica per i lavoratori, non una fonte di sfruttamento.


Così, mentre l'IA ha la prospettiva di creare più lavori creativi e a valore aggiunto per gli esseri umani in futuro - almeno per il momento, sta anche creando un'altra ondata di lavoro manuale che molti sono felici di accettare.

"Non c'erano lavoratori iPhone o Foxconn 10 anni fa, credo che mentre alcuni lavori vengono sostituiti, ci saranno sempre dei nuovi lavori che andranno a crearsi".


Socialbeat può supportare la tua azienda nella creazione, nel labeling e nel data quality di dataset per il training di modelli AI oltre che supportare la tua azienda nella creazione vera e propria degli algoritmi di AI

35 visualizzazioni0 commenti

Post recenti

Mostra tutti