Co je to datové jezero v Hadoopu?
Co je to datové jezero v Hadoopu?

Video: Co je to datové jezero v Hadoopu?

Video: Co je to datové jezero v Hadoopu?
Video: 30 глупых вопросов Data Engineer [Карьера в IT] 2024, Smět
Anonim

A Datové jezero Hadoop je data platforma pro správu obsahující jednu nebo více hadoop shluky. Používá se hlavně ke zpracování a ukládání nerelačních data , jako jsou soubory protokolu, internetové záznamy clickstream, senzor data , JSON objekty, obrázky a příspěvky na sociálních sítích.

Jaký je v tomto ohledu rozdíl mezi datovým skladem a datovým jezerem?

Datová jezera a data sklady jsou oba široce používány pro skladování velkých data , ale nejsou to zaměnitelné pojmy. A datové jezero je obrovský bazén syrového data , jehož účel zatím není definován. A datový sklad je úložiště pro strukturované, filtrované data která již byla pro určitý účel zpracována.

Co je navíc architektura datového jezera? A Datové jezero je úložiště, které může ukládat velké množství strukturovaných, polostrukturovaných a nestrukturovaných data . Na rozdíl od hierarchického domu Dataware, kde data je uložen v souborech a složkách, Datové jezero má byt architektura.

Co v této souvislosti znamená datové jezero?

A datové jezero je úložiště, které obsahuje obrovské množství raw data v nativním formátu, dokud to nebude potřeba. Zatímco hierarchický data skladové prodejny data v souborech nebo složkách, a datové jezero k uložení využívá plochou architekturu data . Termín datové jezero je často spojován s úložištěm objektů orientovaným na Hadoop.

Je Elasticsearch datové jezero?

A datové jezero je prostě místo, kde můžete zaparkovat data dokud to nebudete potřebovat, a mohlo by to zahrnovat HDFS (nejběžnější), úložiště objektů, NAS boxy nebo cokoli jiného. v zásadě Elasticsearch je nástroj pro indexování data , ne pro skladování data sám.

Doporučuje: