Jaký je motor pro zpracování dat za Amazon Elastic MapReduce?
Jaký je motor pro zpracování dat za Amazon Elastic MapReduce?

Video: Jaký je motor pro zpracování dat za Amazon Elastic MapReduce?

Video: Jaký je motor pro zpracování dat za Amazon Elastic MapReduce?
Video: Кеннет Кукьер: Большие данные — лучшие данные 2024, Prosinec
Anonim

Amazon EMR používá jako distribuci Apache Hadoop motor pro zpracování dat . Hadoop je open source softwarový framework Java, který podporuje data -intenzivní distribuované aplikace běžící na velkých clusterech z komoditní hardware.

Navíc, co je Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) je Webové služby Amazon ( AWS ) nástroj pro zpracování a analýzu velkých dat. Amazon EMR zpracovává velká data přes cluster virtuálních serverů Hadoop na Amazon Elastic Compute Cloud ( EC2 ) a Amazonka Služba jednoduchého úložiště ( S3 ).

Navíc je Amazon EMR plně spravován? To je plně řízena služba data lake, která dokáže oddělit úložiště dat od výpočetních zdrojů a místo toho činí výpočetní clustery škálovatelnými, dostupnými pro použití na vyžádání a zahrnuje schopnost více clusterů přistupovat ke stejným datovým sadám najednou.

Někdo se může také zeptat, jak AWS EMR funguje?

Obecně platí, že když zpracováváte data v Amazon EMR , vstupem jsou data uložená jako soubory ve vámi zvoleném základním souborovém systému, jako je např Amazonka S3 nebo HDFS. Tato data přecházejí z jednoho kroku do dalšího v sekvenci zpracování. Poslední krok zapíše výstupní data do určeného umístění, např Amazonka Kbelík S3.

Jaký je rozdíl mezi ec2 a EMR?

Na rozdíl od EMR , EC2 nerozděluje podřízené uzly na hlavní a úkolové uzly. To zvyšuje riziko ztráty dat HDFS v případě odebrání/ztráty uzlu. EC2 používá knihovny Apache (s3a) pro přístup k datům na s3. Na druhou stranu, EMR používá proprietární kód AWS pro rychlejší přístup k s3.

Doporučuje: