Jaký je problém s malými soubory v Hadoop?
Jaký je problém s malými soubory v Hadoop?

Video: Jaký je problém s malými soubory v Hadoop?

Video: Jaký je problém s malými soubory v Hadoop?
Video: Hadoop Small File Issue | Hadoop Interview Questions 2024, Listopad
Anonim

1) Problém s malým souborem v HDFS : Ukládání hodně malé soubory které jsou extrémně menší než velikost bloku nelze efektivně zvládnout HDFS . Pročítání malé soubory zahrnují spoustu hledání a mnoho přeskakování mezi datovými uzly a datovými uzly, což je zase neefektivní zpracování dat.

Kromě toho, které soubory řeší problémy s malými soubory v Hadoop?

1) HAR ( hadoop Archiv) Soubory byl představen řešit problém s malým souborem . HAR zavedl vrstvu navrch HDFS , které poskytují rozhraní pro soubor přistupování. Použitím hadoop archivní příkaz, HAR soubory jsou vytvořeny, které běží a MapReduce práci zabalit soubory je archivován do menší počet soubory HDFS.

Dále, mohu mít více souborů v HDFS používat různé velikosti bloků? Výchozí velikost z blok je 64 MB. vy umět změnit v závislosti na vašem požadavku. K vaší otázce ano, vy může vytvořit více souborů variováním velikosti bloků ale v reálném čase toto vůle výrobu neupřednostňuje.

Proč navíc HDFS nezpracovává malé soubory optimálně?

Problémy s malé soubory a HDFS Každý soubor , adresář a zablokovat HDFS je reprezentovaný jako objekt v paměti jmenného uzlu, z nichž každý zabírá 150 bajtů, jako orientační pravidlo. dále HDFS není zaměřené na efektivní přístup malé soubory : to je primárně určen pro streamování přístupu velkých soubory.

Proč je Hadoop pomalý?

Pomalý Rychlost zpracování Toto vyhledávání disku vyžaduje čas, čímž je celý proces velmi náročný pomalý . Li hadoop zpracovává data v malém objemu, to je velmi pomalý poměrně. Je ideální pro velké soubory dat. Tak jako hadoop má jádro pro dávkové zpracování, jeho rychlost zpracování v reálném čase je nižší.

Doporučuje: