大數據出現的原因:大多數的技術(shù)突破來(lái)源于實(shí)際的產(chǎn)品需要,大數據最初誕生于谷歌的搜索引擎中。隨著(zhù)web2 0時(shí)代的發(fā)展,互聯(lián)網(wǎng)上數據量呈獻
大多數的技術(shù)突破來(lái)源于實(shí)際的產(chǎn)品需要,大數據最初誕生于谷歌的搜索引擎中。隨著(zhù)web2.0時(shí)代的發(fā)展,互聯(lián)網(wǎng)上數據量呈獻爆炸式的增長(cháng),為了滿(mǎn)足信息搜索的需要,對大規模數據的存儲提出了非常強勁的需要?;诔杀镜目紤],通過(guò)提升硬件來(lái)解決大批量數據的搜索越來(lái)越不切實(shí)際,于是谷歌提出了一種基于軟件的可靠文件存儲體系GFS,使用普通的PC機來(lái)并行支撐大規模的存儲。存進(jìn)去的數據是低價(jià)值的,只有對數據進(jìn)行過(guò)加工才能滿(mǎn)足實(shí)際的應用需要,于是谷歌又創(chuàng )造了MapReduce這一計算模型,該模型能夠利用集群的力量將復雜的運算拆分到每一臺普通PC上,計算完成后通過(guò)匯總得到最終的計算結果,這樣就能夠通過(guò)直接增加機器數量就獲得更好的運算能力了。
有了GFS和MapReduce之后,文件的存儲和運算得到了解決,這時(shí)候又出現了新的問(wèn)題。GFS的隨機讀寫(xiě)能力很差,而谷歌有需要一種來(lái)存放格式化數據的數據庫,原本通過(guò)單機的數據庫就能解決的問(wèn)題到了谷歌那里就悲劇了,于是神器的谷歌就又開(kāi)發(fā)了一套BigTable系統,利用GFS的文件存儲系統外加一個(gè)分布式的鎖管理系統Chubby就設計出來(lái)了BigTable這樣一個(gè)列式的數據庫系統。
在谷歌完成了上述的系統后,就把其中的思想作為論文發(fā)布出來(lái)了,基于這些論文,出現了一個(gè)用JAVA寫(xiě)的類(lèi)GFS開(kāi)源項目Hadoop,最開(kāi)始hadoop的贊助人是yahoo,后來(lái)這個(gè)項目成了Apche的頂級項目。
大數據的解決方案:
谷歌的那一套系統是閉源的,開(kāi)源的Hadoop于是就廣泛傳播開(kāi)來(lái)了。
和谷歌那套系統類(lèi)似,Hadoop的最核心的存儲層叫做HDFS,全稱(chēng)是Hadoop文件存儲系統,有了存儲系統還要有分析系統,于是就有了開(kāi)源版本的MapReduce,類(lèi)似的參照BigTable就有了Hbase。一開(kāi)源之后整個(gè)系統用的人就多了,于是大家都像要各種各樣的特性。facebook的那些人覺(jué)得mapreduce程序太難寫(xiě),于是就開(kāi)發(fā)了Hive,Hive就是一套能把SQL語(yǔ)句轉成Mapreduce的工具,有了這套工具只要你會(huì )SQL就可以來(lái)Hadoop上寫(xiě)mapreduce程序分析數據了。對了,參考chubby,我們有了開(kāi)源的ZooKeeper來(lái)作為分布式鎖服務(wù)的提供者。
由于Hadoop最開(kāi)始設計是用來(lái)跑文件的,對于數據的批處理來(lái)說(shuō)這沒(méi)什么問(wèn)題,有一天突然大家想要一個(gè)實(shí)時(shí)的查詢(xún)服務(wù),數據這么大,要滿(mǎn)足實(shí)時(shí)查詢(xún)首先要拋開(kāi)的是mapreduce,因為它真的好慢。2008年的時(shí)候一家叫Cloudera的公司出現了,他們的目標是要做hadoop界的redhat,把各種外圍系統打包進(jìn)去組成一個(gè)完整的生態(tài)系統,后來(lái)他們開(kāi)發(fā)出來(lái)了impala,impala的速度比mapreduce在實(shí)時(shí)分析上的效率有了幾十倍的提升,后來(lái)hadoop的創(chuàng )始人Doug Cutting也加入了cloudera。這時(shí)候學(xué)院派也開(kāi)始發(fā)力了,加州大學(xué)伯克利分校開(kāi)發(fā)出來(lái)了Spark來(lái)做實(shí)時(shí)查詢(xún)處理,剛開(kāi)始Spark的語(yǔ)法好詭異,后來(lái)慢慢出現了Shark項目,漸漸的使得Spark向SQL語(yǔ)法靠近。
未來(lái)的發(fā)展趨勢:
時(shí)代的發(fā)展決定了未來(lái)幾乎就要變成數據的時(shí)代了,在這樣的一個(gè)時(shí)代,大數據的需求越來(lái)越深,摒棄過(guò)去的抽樣調查,改為全量的統計分析,從一些原本無(wú)意義的數據中挖掘價(jià)值。當前大數據已經(jīng)開(kāi)始逐漸服務(wù)于我們的生活,搜索、科學(xué)、用戶(hù)分析。。。
為了進(jìn)一步提供大數據的分析能力,內存計算的概念在未來(lái)還會(huì )持續很長(cháng)的時(shí)間,通過(guò)內存計算,摒棄磁盤(pán)IO對性能的天花板作用,將運算的結果以實(shí)時(shí)的方式呈獻在我們面前。
Python交流群
635448130點(diǎn)擊加入群聊UI設計交流群
579150876點(diǎn)擊加入群聊Unity交流群
495609038點(diǎn)擊加入群聊HTML5交流群
645591648點(diǎn)擊加入群聊