- Analisi dei dati›
- Amazon EMR›
- Nozioni di base
Nozioni di base su Amazon EMR
Come usare EMR
1. Sviluppa la tua applicazione di elaborazione dei dati
I linguaggi disponibili sono Java, Hive (un linguaggio simile a SQL), Pig (un linguaggio creato per l'elaborazione dei dati), Cascading, Ruby, Perl, Python, R, PHP, C++ o Node.js. Amazon EMR fornisce esempi di codice e tutorial per renderti subito operativo.
2. Carica la tua applicazione e i dati in Amazon S3
Se devi caricare grandi quantità di dati, puoi valutare se usare AWS Import/Export Snowball, per caricare i dati tramite dispositivi di archiviazione fisici, oppure AWS Direct Connect, per stabilire una connessione di rete dedicata dal data center ad AWS. Se preferisci, puoi anche scrivere i tuoi dati direttamente in un cluster in esecuzione.
3. Configura e avvia il cluster
Usando la Console di gestione AWS, la CLI di AWS, gli SDK o le API, specifica il numero di istanze Amazon EC2 di cui effettuare il provisioning nel cluster, i tipi di istanze da utilizzare (standard, memoria elevata, CPU elevata, I/O elevato e così via), le applicazioni da installare (Apache Spark, Apache Hive, Apache HBase, Presto e così via) e la posizione della tua applicazione e dei dati. Per installare altri prodotti software o modificare le impostazioni predefinite, puoi usare Azioni bootstrap.
4. Monitora il cluster
Puoi monitorare lo stato e l'avanzamento del cluster tramite la Console di gestione, l'interfaccia a riga di comando, gli SDK o le API. Amazon EMR si integra con Amazon CloudWatch per sfruttarne le funzionalità di monitoraggio e di generazione di allarmi; inoltre supporta molte utility di monitoraggio come, ad esempio, Ganglia. Puoi aumentare o diminuire la capacità del cluster in qualsiasi momento per gestire più o meno dati. Per risolvere i problemi, utilizza la semplice GUI di debug presente nella console.
5. Recupera l'output
Puoi recuperare l'output generato da Amazon S3 o HDFS nel cluster. Visualizza i dati con strumenti quali Amazon QuickSight, Tableau e MicroStrategy. Amazon EMR terminerà automaticamente il cluster a elaborazione conclusa. In alternativa, puoi mantenere il cluster in esecuzione e assegnargli altre attività.
Sei pronto per avviare il tuo primo cluster?
Ulteriori informazioni
Ulteriori informazioni
Tutorial
Formazione e assistenza
-
Hai bisogno di aiuto per la creazione di un proof of concept o per il tuning delle tue applicazioni EMR? AWS ha a disposizione un team di supporto globale specializzato in EMR. Se vuoi saperne di più riguardo agli impegni a breve termine (2-6 settimane) per il supporto a pagamento, contattaci.
Il corso Big Data su AWS è stato creato per spiegare, attraverso attività pratiche, come utilizzare Amazon Web Services con i carichi di lavoro di big data. AWS ti mostrerà come eseguire processi Amazon EMR per elaborare i dati utilizzando gli ampi strumenti Hadoop come Pig e Hive. Sarà inoltre illustrato come creare ambienti per i Big Data nel cloud impiegando Amazon DynamoDB e Amazon Redshift, saranno elencati i vantaggi di Amazon Kinesis e sarà spiegato come sfruttare le best practice di progettazione degli ambienti per i Big Data per ottenere analisi ottimali, sicurezza e costi ridotti. Per ulteriori informazioni sul corso Big Data, fai clic qui.
Scale Unlimited offre formazione in loco personalizzata per le società che devono imparare rapidamente a usare EMR e altre tecnologie per Big Data. Per saperne di più, clicca qui.