今回は、vSphere Big Data Extentions(BDE)で

Elastic Scaling をためす準備として

Compute-only の Hadoop クラスタを作成してみました。


前回はこちらです。

vSphere BDE で Elastic Scaling してみる。第1回

 

Compute-only Hadoop Cluster とは


ベーシックな Hadoop クラスタでは

MapReduce の計算ノードと、HDFS によるデータ格納ノードがありますが、

そのうち 計算ノードだけ(Compute-Only)のクラスタを作成することができます。

この場合、データの格納場所には既存の Hadoop の HDFS クラスタや、

HDFS としてアクセスできるストレージ領域(たとえば EMC の Isilon や ViPR とか)を

利用できるようです。

 

BDE で Apache Hadoop のCompute-only クラスタを作成すると、

下記のノードが作成されます。

  • MapReduce のJobTracker  1ノード
  • MapReduce のTaskTracker  複数ノード
  • Hadoop クライアント 複数ノード

 

BDE の Elastic Scaling を利用する場合もこのクラスタにする必要があるようなので、

今回はそのためだけに Compute-only クラスタを作成してみます。

 

Compute-only Hadoop Cluster の作成

 

これまでの Hadoop クラスタ作成と同様に、

BDE の Web Cliet プラグインの「Create New Big Data Cluster」から作成します。


Deployment Type で「Compute-only Hadoop Cluster」を選択します。

そして、DataMaster URL に

作成するクラスタがアクセスする HDFS の URL を指定します。

bde-compute-only-01.png

 

確認画面は下記のような感じです。

Topology では HVE が指定できます。

表示はされていませんが、HDFS の URL は指定できています。

bde-compute-only-02.png

 

作成したクラスタには、

DataMaster が含まれていません。

そして、ベーシックな Hadoop クラスタでは「N/A」だった

Elasticity Mode が「Manual」になっています。

bde-compute-only-03.png


Serengeti CLI からこの Hadoop クラスタを見てみました。

Elasticity Mode が「Manual」なので、

Elastic Scaling は無効な状態(AUTO ELASTIC : Disable)です。

hadoop_namenode と hadoop_datanode は含まれません。

「EXTERNAL HDFS」に URL が指定されています。

serengeti>cluster list --name mr_cluster01

  ============================================================================

 

  CLUSTER NAME              :  mr_cluster01

  AGENT VERSION             :  2.0.0

  DISTRO                    :  apache

  TOPOLOGY                  :  HVE

  AUTO ELASTIC              :  Disable

  MIN COMPUTE NODES NUM     :  Unset

  MAX COMPUTE NODES NUM     :  Unset

  IO SHARES                 :  NORMAL

  STATUS                    :  RUNNING

  EXTERNAL HDFS             :  hdfs://192.168.5.145:8020

 

  GROUP NAME     ROLES                                    INSTANCE  CPU  MEM(MB)  TYPE    SIZE(GB)

  ------------------------------------------------------------------------------------------------

  ComputeMaster  [hadoop_jobtracker]                      1         1    3748     SHARED  10

  Worker         [hadoop_tasktracker]                     3         1    3748     LOCAL   20

  Client         [hadoop_client, pig, hive, hive_server]  1         1    3748     SHARED  20

 

  ============================================================================

 

この Hadoop クラスタに Serengeti CLI で接続して

「cfg info」を見てみると、クラスタ作成時に指定した

HDFS の URL が設定されています。

serengeti>cluster target --name mr_cluster01

serengeti>cfg info

Hadoop [1.2.1 rev.1503152][fs=hdfs://192.168.5.145:8020][jt=192.168.5.148:8021]

 

以上、BDE で Compute Only のクラスタを作成してみる話でした。

まだつづく・・・