Obsah:

Jaké jsou různé formáty souborů v Hadoop?
Jaké jsou různé formáty souborů v Hadoop?

Video: Jaké jsou různé formáty souborů v Hadoop?

Video: Jaké jsou různé formáty souborů v Hadoop?
Video: Parquet file, Avro file, RC, ORC file formats in Hadoop | Different file formats in Hadoop 2024, Smět
Anonim

Naštěstí pro vás se komunita velkých dat v podstatě spokojila se třemi optimalizovanými formáty souborů pro použití v hadoop clustery: Optimalizovaný sloupcový řádek (ORC), Avro a Parquet.

Následně se lze také zeptat, jaké jsou různé typy datových formátů?

Tam jsou tři typy dat mapování a GIS datové formáty . Každý typ se řeší jinak.

Typy datových formátů

  • Souborově založené - Shapefiles, Microstation Design Files (DGN), obrázky GeoTIFF.
  • Adresář-založené - ESRI ArcInfo pokrytí, USA sčítání lidu TIGER.
  • Databázová připojení - PostGIS, ESRI ArcSDE, MySQL.

Navíc, který formát souboru je v úlu nejlepší? RCFile je řádkový sloupcový formát souboru . Toto je další forma Formát souboru Hive který nabízí vysokou míru komprese na úrovni řádků. Pokud máte požadavek na provádění více řádků současně, můžete použít RCFile formát.

Vzhledem k tomu, jaké jsou běžné vstupní formáty v Hadoop?

InputFormat vytvoří Inputsplit

  • Nejběžnější InputFormat jsou:
  • FileInputFormat- Je to základní třída pro všechny file-basedInputFormat.
  • TextInputFormat- Je to výchozí InputFormat pro MapReduce.
  • KeyValueTextInputFormat- Je podobný TextInputFormat.
  • Kliknutím na odkaz se dozvíte více o InputFormat v Hadoopu.

Jaký je formát souboru orc v Hadoopu?

Formát souboru ORC Optimalizovaný sloupcový řádek ( ORC ) formát souboru poskytuje vysoce efektivní způsob ukládání dat Hive. Byl navržen tak, aby překonal omezení druhého Úlu formáty souborů . Použitím soubory ORC zlepšuje výkon při čtení, zápisu a zpracování dat Hive.

Doporučuje: