2012年8月9日 星期四

[Hadoop]碎碎念

講起Hadoop...恩~ 好吧~ 現在好像正紅~ 趁著實驗案剛結束~
比較悠閒又還有點記憶時~ 來碎碎念一下...

首先~ 配合目前正紅的VM技術~

開發用windows server 2008內建的hyperV..是那個誰叫偶要練習做Template+硬碟用固定大小的~ 然後小小的測試機硬碟就爆了(早期的Server~硬碟都很小才80..100G)..

Production也是沒經驗~ 開了個規格出去...業務也隨便買就...每個server 1.2T...但是連storage也是1.2T..就超搞笑...
再做raid0/raid5...就看到一堆人搶著硬碟要用...

另外VmWare要做HA的話~要額外購買vCenter...vCenter原則上是建議獨立機器~ 不過後來因為各式各樣的原因還是裝在VM裡面~另外要被HA的VM一定要裝在storeage上~還得搭配有G以上的Switch做支援~ 這種東西說真的~ 隨便一樣就貴到死=.=a..還有那個要跟那個配~這些硬體商也不管你會不會懂不懂(說不定他們自己也不懂哩~只會報價而已=.=")~還真是見招拆招~一整個很刺激阿~囧rz

這故事說~ 一個Server有多少實力~ 要切幾個VM..配多少效能~放那~ 真的要有計劃~ 不然結果常常超乾尬...不懂的話~ 去上個原廠課程~ ㄜ~有沒有用我沒上是不知道啦~但應該還是有用吧Orz...


Hadoop本來就是linux專案~ 先是被ubuntu狠狠的電一個月...
受win苦毒很深的人進cmd黑白世界真的要多抓點時間...pietty和Google是你最好的朋友...

XX的hyperV和ubuntu是世仇嗎~ ubuntu在上面一堆基本設定有問題~連apt-get的東西都還裝不起來是那來的鬼...
還好Production上用的VMware有付大錢的就是不一樣~ 一路順到底~ 連clone多台時設定轉換他也有做得很好~


接下來是Hadoop特性的問題~ Hadoop是一很穩重的單線程架構...
一起來就是20s..(沒做事也是20s..我猜大概是在溝通跟CHECK可用資源...)
所以原本不用算到20s的用這跟本效能馬上大輸...
(我無聊寫了一個類似流程但不是Hadoop...說實在話~ 不用10秒就做完了...另一原因是真實情況量就不大...上面也原本打算是做實驗性質...但大家沒想到差這麼多~囧")

他很老實的~ 一定要全部分完(Map)..然後等到全部的結果都算回來後才結算(Reduce)..
其實他這樣子是沒什麼問題的~ 但是~很不幸的這案子的目標是要即時運算~ 即時傳回資料...
所以為了反應時間的關係~ 只好把他改成了非正常一般的Hadoop運作模式...

最大的困擾是在實做驗證時~ 不斷的被長官質疑為什麼Hadoop運算比較慢...還慢那麼久...
在報告時~ 每次都要花一半以上的時間~ 做Hadoop原理架構教學...
全部的人~包含PM也都去上課了...還好最後大家也認同~ 嗯~ 解題方向錯誤=_="...不過計劃書都寫白了要Hadoop..只好給他Hadoop下去~ 還好KPI很寬鬆可以過...


另外關於Hadoop的學習資源~ 嗯~ 套句朋友的老話~ 上官網吧~ 囧rz...
一堆中文書很多只是翻譯官方文件內容而已~ 結果那些書最大的用處是老板拿去抄前幾章的序跟介紹到計劃報告書裡用的...

歐來禮的翻譯書還是有保障一點~ 但是我覺得實務上還是很難解答我的問題~
只是他可以提供一些關鍵字給我問Google大神是也不能說他沒有用Orz...


公司有請資策會的人來上幾堂跟這有關的課~ 不過我的心得是~ 目前台灣在這領域的人很少...
真正應用到實做上的很少少少...老師也只能講講理論面的...可以當做補充知識~ 但實做還是靠自己吧~ 囧rz...


另一點是因為~ 這案子真的是解題方式不好~ 所以相關資源也很少...
都用奧步Orz...


不過實驗麻~ 有取得經驗值還是比較重要的~ 至少長官們下次選解題方式時~ 就不會只喊著要雲端運算~ 要Hadoop...
進步最多的~ 大概就是嘴砲功力吧XD|||...

沒有留言: