Hadoop:大數據解決方案的常勝將軍
架構大數據解決方案的軟件工程師們都知道,業務分析有一項技術跨越了SQL數據庫、NoSQL數據庫,非結構化數據、面向文檔數據存儲及大型處理。如果你猜到了Hadoop,那你回答正確。Hadoop也是許多巨頭公司具有的一個共性,如亞馬遜、雅虎、AOL、Netflix、eBay、微軟、谷歌、Twitter和Facebook。IBM甚至是走在時常的前沿,促進Hadoop進行企業分析。此開源模型無處不在,它在這個舞臺上停留的五年,是一個真的角色,我們不得不為此感到驚訝。
Hadoop的未來
為了了解過去幾年發生了什么,我們走訪了Chuck Lam,《Hadoop在行動(Hadoop in Action)》一書的作者。Chuck說Hadoop還沒有停下來休息。“整個生態系確實是進化,而且改變了許多。現在甚至出現了官方1.0版本。更重要的是,MapReduce的基礎編程模型已經重新修訂,且做了不少的改變。”一般來說,這些改變都向著有利的方面發展的。開發方向已經使得這個框架易于部署在企業中,并解決一系列的問題,如對于風險規避公司是問題之首的安全問題。
好處越來越多,包括高水平的可擴展性。此框架中的分布式計算意味著添加越來越多的數據,而不必改變添加它的方式。沒有必要去改變格式,或打亂工作編輯的方式或決定哪一個應用完成的此工作。你只是隨著工作的進行添加更的節點即可。你不必挑剔你存儲的數據類型或它來源。無模式是此游戲的名稱。該框架的并行計算能力還使商品服務器存儲究竟的利用率更高。這意味著企業可以保存,使用更多的數據。無論哪個節點出現故障,它都沒事。即使系統出現故障,也不會丟失數據,降低性能。
助力Hadoop技術
Hadoop現在也更加的靈活,允許業務做更的事情,處理更多的數據類型。如此強大的功能源于Hadoop的許多同伴項目,包括像Pig這樣的語言,以及如下的可擴展解決方案:
1. Hive (數據倉庫)
2.Mahout (機器學習和數據挖掘)
3.Hbase (大型表格的結構化存儲)
4.Cassandra (多主機數據庫)
當然,此類型的解決方案并不一直都是美好好。Lam說主要的陷阱就是處理做出的假設。換言之,錯不在我們的系統而在我們自己。“新技術并不是所有問題的靈丹妙藥。正如NoSQL這類的一樣簡單,但你必須要更深一層地弄清楚你要解決的問題。”這可能意味著慎重地查看你的算法,而不是只是把你的員工扔給MapReduce,然后期望Hadoop自動擴展。使用模式的數據會影響你的擴展模式——尤其是當使用不平均是。然后線性擴展可能就不起作用了。再一次,這個并不是Hadoop本身的問題。Lam相信有工具在手的企業已經足夠成熟了。這只是確保IT管理員熟悉這些工具,確保使用Hadoop的軟件架構師知道怎樣更有效地使用用這項技術。
原文地址:http://stor.zol.com.cn/369/3697155.html