Che cos’è Amazon EMR? -Esercitazione su Amazon Elastic MapReduce

AWS EMR è una delle piattaforme cloud e di database di grandi dimensioni più popolari, che fornisce un’architettura monitorata per l’esecuzione semplice, conveniente e sicura di framework di elaborazione dati.

Viene utilizzato per elaborare grandi quantità di dati utilizzando tecnologie open source come Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto.

In questo blog AWS EMR, esploreremo cos’è Amazon Elastic MapReduce e come funziona con molti altri. Gli argomenti di cui parliamo oggi sono:

Guarda questo video su AWS EMR per comprendere meglio il concetto.

Panoramica di Amazon Elastic MapReduce

Inizia questo blog rispondendo a semplici domande che cos’è Amazon EMR?

Il formato completo di AWS EMR è Amazon Web Services Elastic MapReduce. EMR è AWS..

Elastic MapReduce fornisce una soluzione semplice e diretta per la gestione dell’elaborazione di grandi set di dati. In pochi minuti dall’utilizzo di AWS EMR, gli utenti possono configurare un cluster con uno stack di analisi completamente integrato e uno stack di pipeline di dati.

Dettagli AWS completi Tutorial AWS Secondo gli esperti di Intel Lipaat.

Prezzo EMR

EMR ha un ottimo listino prezzi che piace alle aziende e al pubblico in generale. Con le opzioni di fatturazione su richiesta, è disponibile solo su base oraria e in base al numero di unità nel cluster.

Ti verrà addebitato un minimo di 1 minuto al secondo per l’utilizzo. Le tariffe di AWS EMR partono da $ 0,015 all’ora e $ 131,40 all’anno, con un utilizzo minimo di 1 minuto.

Ti stai chiedendo perché usi AWS EMR? Per saperne di più.

Scopo di Elastic MapReduce

Spesso ci imbattiamo nella sfida di base di non essere in grado di allocare tutte le risorse di un cluster a qualsiasi applicazione. AWS EMR risolve questo dilemma. Allocare le risorse necessarie in base alla quantità di dati e alle esigenze dei singoli utenti. Poiché è altamente elastico, può essere modificato.

Architettura AWS EMR

Ora diamo un’occhiata all’architettura EMR. L’architettura del servizio AWS EMR è costituita da più livelli, ciascuno dei quali fornisce un cluster con funzionalità specifiche. Questa sezione offre una panoramica dei livelli e degli elementi che li compongono.

Di seguito sono riportati i quattro livelli principali dell’architettura AWS EMR.

Ottieni un aumento del 50%!

Padroneggia le abilità più ricercate in questo momento!

Conservazione

Il livello di archiviazione contiene vari file di sistema utilizzati dal cluster. Ci sono varie opzioni di archiviazione, come mostrato di seguito.

    File system distribuito Hadoop (HDFS): Questo è un file system Hadoop distribuito e scalabile. HDFS condivide i dati che contiene tra i nodi del cluster in modo che nessuna informazione vada persa se uno dei nodi del cluster si interrompe. L’archiviazione temporanea viene ripristinata quando il cluster viene arrestato. File System EMR (EMRFS): Amazon EMR migliora Hadoop consentendo agli utenti di accedere ai dati archiviati in Amazon S3 come se fosse un file system simile a HDFS. Il file system EMR (EMRFS) può essere utilizzato anche per archiviare dati utilizzando HDFS o S3 di Amazon. File system locale: Un disco collegato localmente è chiamato file system locale. Tutti i nodi in un cluster Hadoop sono creati utilizzando le istanze Ec2 di Amazon con blocchi preconfigurati di storage su disco precollegato. I dati del volume dell’Instance Store vengono conservati solo per la durata dell’istanza Amazon EC2.

Gestione delle risorse del cluster

Il prossimo è il livello successivo, la gestione delle risorse del cluster. Questo livello è responsabile della gestione delle risorse del cluster e delle attività di pianificazione dell’elaborazione dei dati.

    filo: Si tratta di una funzionalità sviluppata in Apache Hadoop 2.0 per l’elaborazione remota delle risorse cluster in vari framework di elaborazione dati ed è utilizzata per impostazione predefinita in AWS EMR. D’altra parte, altri framework e app disponibili su AWS EMR non utilizzano YARN come gestore delle risorse. Agente: Ogni nodo nel cluster EMR dispone di un agente che gestisce l’elemento YARN, monitora lo stato del cluster e interagisce con l’EMR.

Quadro per il trattamento dei dati

Il terzo livello dell’architettura AWS è il framework di elaborazione dei dati. Questo è il motore che elabora e analizza i dati.

    Hadoop MapReduce: Questa è una tecnica di programmazione di calcolo ad alte prestazioni completamente accessibile. Scintilla Apache: È un paradigma di programmazione e un framework di clustering per applicazioni di dati di grandi dimensioni.

Applicazioni e programmi

Il livello 4 contiene applicazioni e programmi che aiutano a elaborare e gestire grandi set di dati come HIVE, PIG, librerie di streaming e algoritmi di apprendimento automatico.

Ti stai preparando per un colloquio AWS?controlla Domande per l’intervista AWS Mi sono preparato per aiutare con l’intervista.

Funzioni di AMREMR

Successivamente, diamo un’occhiata ad alcune delle funzionalità di AWS EMR.

1. Adattabilità
AWS EMR semplifica la creazione e la gestione di piattaforme e app di dati su larga scala. Provisioning semplice, ridimensionamento controllato e riconfigurazione del cluster sono una delle funzionalità di EMR, così come di EMR Studio per uno sviluppo coeso.

2. Elasticità
Con AWS EMR, puoi fornire in modo rapido ed efficiente tutta la capacità di cui hai bisogno e aggiungere più capacità manualmente o automaticamente. Ciò è particolarmente utile quando i requisiti di elaborazione sono modificabili o imprevisti.

3. Flessibilità
AWS EMR è estremamente flessibile. AWS EMR può utilizzare più datastore come Amazon S3, Hadoop Distributed File System (HDFS) e Amazon DynamoDB.

4. Strumenti per i big data
Apache Spark, Apache Hive, Presto e Apache HBase sono una delle tecnologie Hadoop supportate da AWS EMR. I data scientist utilizzano EMR per sfruttare le operazioni di bootstrap per eseguire deep learning e tecnologie come TensorFlow e Apache MXNet, oltre a strumenti e framework di scenari.

5. Accesso ai dati
Quando chiami altri servizi Web Amazon, il processo di applicazione di AWS EMR utilizza l’account dell’istanza EC2 per impostazione predefinita. EMR offre tre modi per gestire l’accesso degli utenti ai dati Amazon S3 in un cluster multi-tenant.

Prima di passare al processo di lavoro di AWS EMR, diamo un’occhiata ad alcuni dei componenti che esistono in AWS EMR.

Componenti AWS EMR

Il servizio AWS EMR è costituito da diversi componenti, tra cui:

grappolo: Un cluster è un gruppo di istanze EC2. È possibile creare due tipi di cluster: cluster temporanei e cluster di lunga durata.

    Cluster temporaneo che termina al termine della procedura I cluster persistenti sono cluster a esecuzione prolungata che continuano a funzionare a meno che non vengano arrestati in modo esplicito.

nodo: Tutte le istanze EC2 nel tuo cluster sono chiamate nodi. Il tipo di nodo si riferisce al ruolo svolto da ciascun nodo nel cluster. I diversi tipi di nodi sono nodi master, nodi principali e nodi attività.

    Ogni cluster ha un nodo master che monitora la distribuzione dei dati e dei lavori su tutti gli altri nodi. Il masternode tiene traccia dello stato del progetto e monitora la stabilità del cluster. Il fallback automatico non è supportato. Solo i nodi master sono supportati in un cluster a nodo singolo. Il nodo principale è responsabile dell’esecuzione del processo e dell’archiviazione dei dati nell’HDFS del cluster. Tutta l’elaborazione viene eseguita dal nodo principale e i dati vengono scritti nella posizione HDFS selezionata. I nodi di attività sono facoltativi, quindi c’è solo lavoro per completare l’attività. In questo caso, i dati non verranno archiviati in HDFS.

Come funziona AWS EMR? Questa è la prossima discussione.

Comportamento di AWS EMR

Amazon EMR ti consente di definire le attività che devono essere completate in modi diversi quando esegui il tuo cluster.

Per inviare il lavoro al cluster, puoi utilizzare metodi come la chiusura del cluster al completamento dell’attività o l’invio di passaggi al cluster di lunga durata tramite l’interfaccia EMR o la CLI.

È inoltre possibile utilizzare il metodo di connessione del nodo master ad altri nodi tramite una connessione sicura oppure utilizzare le interfacce e gli strumenti forniti per il software che viene eseguito direttamente sul cluster. Utilizzando questo metodo, puoi inviare il tuo lavoro e connetterti istantaneamente al software distribuito nel tuo cluster AWS EMR.

La figura seguente mostra la distribuzione del cluster EMR. Diamo un’occhiata più da vicino:

Quando utilizzi AWS EMR per elaborare i tuoi dati, questi vengono archiviati come file in un file system di tua scelta, come Amazon S3 o HDFS. Nel processo, questi dati si spostano da una fase all’altra. (Il cluster EMR può accettare uno o più passaggi ordinati.)

I dati risultanti vengono scritti in una posizione specificata, ad esempio un bucket Amazon S3, nella fase finale.

Per eseguire i dati, eseguire i passaggi nel seguente ordine:

1. Viene presentata una richiesta per avviare il processo procedurale.
2. Lo stato di tutti i passaggi è impostato su PENDING.
3. Quando viene avviato il primo passaggio, lo stato della sequenza cambia in RUNNING. Altre fasi sono ancora visualizzate come in sospeso.
4. Al termine del primo passaggio, lo stato del passaggio passerà a COMPLETATO.
5. Il passaggio successivo della serie inizia e lo stato della sequenza cambia in IN ESECUZIONE. Al termine, lo stato passerà a COMPLETATO.
6. Questa procedura si ripete per ogni fase fino al completamento di tutte le fasi e al completamento dell’elaborazione.

Vantaggi di AWS EMR

Ora diamo un’occhiata ai vantaggi di AWS EMR.

I vantaggi dell’utilizzo di AWS EMR sono:

    Prezzo ragionevole: Il costo di AWS EMR dipende dal tipo di istanza e dal numero di risorse Ec2 utilizzate e dalla regione in cui viene avviato il cluster. Il prezzo è ragionevole. Puoi risparmiare ancora di più utilizzando Istanze riservate e Istanze Spot. Monitoraggio e distribuzione: Ogni sistema in esecuzione in un cluster EMR dispone dei giusti strumenti di monitoraggio per mantenere il processo di analisi visibile e semplice. C’è anche una funzione di distribuzione automatica che configura e distribuisce automaticamente l’applicazione. Scalabile: A causa della diversa domanda di elaborazione, EMR consente di ridimensionare e aumentare il cluster. Man mano che i carichi di lavoro di punta diminuiscono, puoi far crescere il tuo cluster, aggiungere istanze di carichi di lavoro di punta ed eliminare istanze per ridurre i costi. Sicuro e affidabile: AWS EMR dispone di un ottimo gruppo di sicurezza per gestire il traffico in entrata e in uscita.

    Utilizza altri servizi AWS come IAM e Amazon VPC e funzionalità come le coppie di chiavi Amazon EC2 per creare più autorizzazioni per accedere ai tuoi dati e mantenerli al sicuro.

    Puoi anche fidarti di AWS EMR. Se un nodo nel cluster si guasta, EMR si arresta immediatamente e sostituisce l’istanza. Pertanto, solo i dati minimi andranno persi.

    Interazione con EMR: Puoi interagire con EMR in vari modi, tra cui console, interfacce a riga di comando AWS (AWS CLI), kit di sviluppo software (SDK) e API di servizi Web. Integrazione con Amazon Web Services: EMR interagisce facilmente con altri servizi AWS per fornire al tuo cluster networking, storage, sicurezza e altre funzionalità.

Differenze tra AWS EMR ed EC2

Qual è la differenza tra AWS EMR ed EC2? Questa è una domanda comune per la maggior parte di noi. Quindi oggi rispondiamo a questo.

Sia AWS Elastic MapReduce che Elastic Compute Cloud sono servizi forniti da AWS. Elastic Compute Cloud è un servizio basato su cloud che fornisce ai clienti una varietà di istanze di computer (spesso denominate macchine virtuali).

AWS EMR, invece, è un servizio progettato sulla base dei big data. Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto Computing Cluster sono servizi forniti da EMR.

pertanto, AWS EC2 EC2 è un servizio di basso livello rispetto a EMR perché è solo un server che esegue applicazioni e sistemi operativi, ma AWS EMR è preinstallato e configurato con il software. Ciò accelera il processo di installazione ed elimina tutta la manutenzione e l’applicazione di patch associate all’installazione manuale.

Certificato da Cloud & Devops

Conclusione

Pertanto, abbiamo trattato tutti gli argomenti relativi ad AWS EMR. Abbiamo visto Amazon EMR che aiutano a elaborare grandi quantità di dati. Ha descritto l’architettura, i componenti e le funzionalità di AWS EMR.

Durante il processo, hai anche appreso delle numerose funzionalità e vantaggi di Amazon Elastic Mapreduce. Se hai ancora dubbi, non esitare a contattarci.

Invia una query a Intellipaat Comunità AWS, I nostri migliori esperti ti risponderanno

Il fornitore Apple Foxconn si rivolge alla produzione di veicoli elettrici in India, Europa e America Latina Il Black Friday sta arrivando. Ecco come ottenere il miglior affare Microsoft rende disponibili gli strumenti VS Code direttamente nel browser Le ambiziose torri dei grattacieli ricordano il design dei grattacieli Microsoft rilascia il nuovo Windows 11 Insider build per i canali di sviluppo Ultime notizie tecnologiche

    Il fornitore Apple Foxconn si rivolge alla produzione di veicoli elettrici in India, Europa e America Latina Il Black Friday sta arrivando. Ecco come ottenere il miglior affare Microsoft rende disponibili gli strumenti VS Code direttamente nel browser Le ambiziose torri dei grattacieli ricordano il design dei grattacieli Microsoft rilascia il nuovo Windows 11 Insider build per i canali di sviluppo

Leave a Reply