Co je formát dat parket?
Co je formát dat parket?
Anonim

Apache Parkety je bezplatný a open-source orientovaný na sloupce data úložný prostor formát ekosystému Apache Hadoop. Je kompatibilní s většinou data zpracovatelské rámce v prostředí Hadoop. Poskytuje efektivní data schémata komprese a kódování se zvýšeným výkonem pro zpracování složitých data hromadně.

Jednoduše řečeno, jaký je formát souboru parket?

Parkety , otevřený zdroj formát souboru pro Hadoop. Parkety ukládá vnořené datové struktury v plochém sloupci formát . Ve srovnání s tradičním přístupem, kde jsou data uložena v přístupu orientovaném na řádky, parkety je efektivnější z hlediska úložiště a výkonu.

Dále, k čemu se parkety používají? Parkety je souborový formát s otevřeným zdrojovým kódem dostupný pro jakýkoli projekt v ekosystému Hadoop. Apache Parkety je navržen pro efektivní a zároveň výkonný plochý sloupcový formát ukládání dat ve srovnání s řádkovými soubory, jako jsou soubory CSV nebo TSV.

Jak navíc formát parket ukládá data?

DATA BLOK Každý blok v parkety soubor je uloženy ve formě skupin řádků. Tak, data v parkety soubor je rozdělen do více skupin řádků. Tyto skupiny řádků se skládají z jednoho nebo více částí sloupců, které odpovídají sloupci v data soubor. The data pro každý blok sloupce zapsaný ve formě stránek.

Jsou parkety čitelné pro člověka?

ORC, Parkety a Avro jsou také strojové čitelný binární formáty, což znamená, že soubory vypadají jako blábol lidé . Pokud potřebuješ člověk - čitelný formát jako JSON nebo XML, pak byste pravděpodobně měli znovu zvážit, proč používáte Hadoop.

Doporučuje: