2014年2月12日 星期三

hadoop hdfs配置

最近的專案有用了hadoop1.2...

先說感想就是~ 啟動速度變快了!!(和0.23比有"有感"的進步XD)..

另外這次專案是主要做資料儲存~ 所以對於分散式檔案系統做了比較多的設定~
大概簡單說明如下:

OS硬體配置注意:
因OS使用centos, 先確認一下硬碟空間!!因為安裝時會做硬碟切割~ 我這邊都用預設的~ 硬碟上他會自己切系統碟和一般碟(系統碟好像50G而已, home會在一般碟, 比較大)
指令: df

記得要先規劃好檔案放置位置(設定datadir, 和tmpdir)~ 以免到時候發現怎麼空間很小XD...偶就是在跑了測試資料在看hadoop資訊時才發現~ 怎麼hadoop總空間小的可憐...(因為這次隨便一台單機做完raid後都至少3T...很奢侈阿阿阿~~~)

另外因為hadoop有點怪~ 他要使用的folder權限要755...766那種的也會抗議XD...就記得配合資料夾權限755可執行

hadoop設定檔~與之前的版本基本上相同~
這次微調的部分設定在最底下

 要注意的是~
block size會影響到硬碟的使用量~ 因為被切割的檔案~ 會以block size為單位儲存佔實體硬碟空間~ 因這案的檔案有大(上百M)有小(幾十K)...預設是64M還多少~ 後來我決定用1M就好...

replication 若設定大於1的話~
hadoop會在啟動時~ 確認有大於1個data node活著連接~ 他才會正常運作~ 若只有一個data node在(只有一個master時), 會報錯然後就不啟用複本機制~ 所以要記得salve搞定後再來改複本參數...

設定tmp資料夾(755)
vim conf/core-site.xml  
<property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/OOOOO/tmpdir</value>
</property>

設定datadir資料夾(755)+block size(1M)
vim conf/hdfs-site.xml
<property>
   <name>dfs.replication</name>
   <value>2</value>
</property>
<property>
    <name>dfs.block.size</name>
    <value>1048576</value>
</property>
<property>
    <name>dfs.data.dir</name>
    <value>/home/OOOOO/datadir</value>
</property>

沒有留言: