Jaký je motor pro zpracování dat za Amazon Elastic MapReduce?
Jaký je motor pro zpracování dat za Amazon Elastic MapReduce?
Anonim

Amazon EMR používá jako distribuci Apache Hadoop motor pro zpracování dat . Hadoop je open source softwarový framework Java, který podporuje data -intenzivní distribuované aplikace běžící na velkých clusterech z komoditní hardware.

Navíc, co je Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) je Webové služby Amazon ( AWS ) nástroj pro zpracování a analýzu velkých dat. Amazon EMR zpracovává velká data přes cluster virtuálních serverů Hadoop na Amazon Elastic Compute Cloud ( EC2 ) a Amazonka Služba jednoduchého úložiště ( S3 ).

Navíc je Amazon EMR plně spravován? To je plně řízena služba data lake, která dokáže oddělit úložiště dat od výpočetních zdrojů a místo toho činí výpočetní clustery škálovatelnými, dostupnými pro použití na vyžádání a zahrnuje schopnost více clusterů přistupovat ke stejným datovým sadám najednou.

Někdo se může také zeptat, jak AWS EMR funguje?

Obecně platí, že když zpracováváte data v Amazon EMR , vstupem jsou data uložená jako soubory ve vámi zvoleném základním souborovém systému, jako je např Amazonka S3 nebo HDFS. Tato data přecházejí z jednoho kroku do dalšího v sekvenci zpracování. Poslední krok zapíše výstupní data do určeného umístění, např Amazonka Kbelík S3.

Jaký je rozdíl mezi ec2 a EMR?

Na rozdíl od EMR , EC2 nerozděluje podřízené uzly na hlavní a úkolové uzly. To zvyšuje riziko ztráty dat HDFS v případě odebrání/ztráty uzlu. EC2 používá knihovny Apache (s3a) pro přístup k datům na s3. Na druhou stranu, EMR používá proprietární kód AWS pro rychlejší přístup k s3.

Doporučuje: