Obsah:

Jak mohu zlepšit svůj výkon Sqoop?
Jak mohu zlepšit svůj výkon Sqoop?

Video: Jak mohu zlepšit svůj výkon Sqoop?

Video: Jak mohu zlepšit svůj výkon Sqoop?
Video: Apache Sqoop Tutorial | Sqoop: Import & Export Data From MySQL To HDFS | Hadoop Training | Edureka 2024, Listopad
Anonim

K optimalizaci výkon , sada a počet mapových úkolů na hodnotu nižší než a maximální počet připojení, že a databáze podporuje. Ovládání a množství paralelismu, že Sqoop použije k přenosu dat je a hlavní způsob ovládání a načíst vaše databáze.

Odpovídajícím způsobem, co se stane, když sqoop selže mezi procesem?

Typické Sqoop úloha, která přijímá data ze zdrojové databáze do HDFS, zkopíruje data do cílového adresáře. Zkopírovaný soubor bude smazán pokud sqoop selže bez dokončení.

Někdo se také může zeptat, jak dosáhnete paralelismu ve sqoop? Ovládání Rovnoběžnost . Sqoop importuje data paralelně z většiny databázových zdrojů. Pomocí argumentu -m nebo --num-mappers můžete určit počet mapovacích úloh (paralelních procesů), které se mají použít k provedení importu. Každý z těchto argumentů má celočíselnou hodnotu, která odpovídá stupni rovnoběžnost zaměstnat

Jak tedy mohu zlepšit výkon dotazu Hive?

Níže je uveden seznam postupů, kterými se můžeme řídit při optimalizaci dotazů Hive

  1. Povolit kompresi v Hive.
  2. Optimalizovat spojení.
  3. Vyhněte se globálnímu třídění v úlu.
  4. Povolit Tez Execution Engine.
  5. Operátor optimalizace LIMIT.
  6. Povolit paralelní spouštění.
  7. Povolte přísný režim Mapreduce.
  8. Single Reduce for Multi Group BY.

Jak funguje sqoop split?

Lze jej použít ke zvýšení výkonu importu dosažením větší paralelnosti. Sqoop vytváří rozdělí na základě hodnot v konkrétním sloupci tabulky, který je určen -- rozdělit -by uživatelem prostřednictvím příkazu import. Pokud není k dispozici, použije se k vytvoření primární klíč vstupní tabulky rozdělí.

Doporučuje: