以下,是我聽演講,上網搜尋找到的相關資料,分享給大家

然後我很懶得去抓圖片來這邊貼,所以沒有圖片

本來想說要不要錄成影片,但是太麻煩了,而且也不知道有沒有人看

如果有錯誤的地方,再請各位厲害的大大指教,謝謝

===================================================

 

大數據,是個最近被炒到一個幾乎人人都聽過的詞,如果你還沒聽過,我也沒辦法

不過你讀了我這篇文章,就算你聽過了

 

大數據,英文叫Big Data,廢話,也叫巨量資料、海量資料,隨便你叫,都是一樣的意思

為什麼這件事情在近幾年來,一直被炒熱起來呢?

這就是科技進步的關係啦,當然很多人會說根本就是換湯不換藥阿,是阿沒錯,的確,本質並沒有變

 

其實數據的分析一直都沒有改變,你拿十筆資料在EXCEL上面分析也是資料分析、數據分析阿

現在就只是把數據量變大而已,所以基本上本質沒有改變,OK

 

那麼為什麼?以前不處理這些問題呢?

恩,不是不處理,是沒辦法處理,因為以前的儲存技術沒有那麼發達

還記得我小時候還在用3.5磁碟片,後來小學慢慢變成CD,高中時候開始變成USB

大學時期跑出了隨身硬碟,研究所時期冒出了雲端空間(Cloud)

 

所以說,科技是一直在變的,速度之快,你我無法想像(其實有點Sense還是可以想像啦)

以前你可能覺得沒啥屁用的資料,因為硬碟太小,所以就刪掉了

但是現在你可以一直存一直存,看你要存一堆垃圾Data還是ㄟ片

 

正因為儲存Data的能力加強了,所以大數據這件事情慢慢變得可行

OK,解決完儲存數據這件事情,接下來就是計算的問題了

如果跑過模擬的學生應該就知道,有些模擬TMD跑個三天三夜還跑不完,這種就是運算能力太爛

模擬跑三天可以跑出來還算簡單喔,如果跑個三十天才跑出來,我看研究所兩年也不用畢業了

 

所以勢必要加強運算能力,加強運算能力最簡單的方法就是升級電腦

不過升級電腦還是有極限存在,更直覺得方法應該是串聯電腦

串聯電腦也很簡單,但是要怎麼在串聯電腦後,透過一個人機介面來管理所有電腦,這就很難了

 

計算大數據,可以串聯電腦,但要如何控制?

沒有人可以做到,所以以前的大數據就被丟在一旁,沒人使用

 

直到Google在2003年與2004年各發表一篇論文,分別叫Google File SystemMapReduce

這兩項技術可以達到串聯電腦、備份資料、監視系統、錯誤偵測以及自動修復的功能

但是Google並沒有把整體的程式碼告訴大家,只告訴大家方法,你Code還是要自己寫

 

就跟羅傑說他把寶藏都丟在偉大的航道,但是沒跟你說是哪一座島的哪裡一樣,不過後來大家都知道是拉夫德爾

 

Google本身也是需要賺錢的公司,所以他肯告訴大家方法,大家就要偷笑了

方法都告訴你了,你寫不出來,那就不是他的問題了

 

在2006年開始就有人開始在Apache Software Foundation這個軟體基金會開發名為Hadoop的軟體

而Hadoop這個軟體也是之後大數據應用相當重要的軟體,其開發根源就是原至於Google的那兩篇論文

反正方法有了嘛,就看怎麼寫

 

Apache Software Foundation是一個非常棒的網站(我也是Google才知道)

它就像個論壇,每天都有人會丟一些程式碼上去,有人在問問題,有人在解問題

所以當初就是有人丟了Hadoop的程式上去,開始引發一堆人修改,再修改的版本

這就是集眾力量開發的一項軟體,順帶一提,Hadoop是Open source的

喜歡的人可以去Download下來改成自己想要的

 

很多公司也是這樣,去改公開版的來販售,Linux也是這樣

你可以用免費的軟體,但是它賣你售後服務,大概就是這樣

Hadoop的功能基本上就是串聯多台伺服器電腦,並且讓大數據可以再這些電腦上運算

而且它可以做到備份檔案這件事情

 

有了Hadoop,可以串接電腦,有了大容量的儲存空間,才有大數據分析

 

之後我會談Hadoop在大數據的相關應用

先這樣吧,有興趣的人在看之後的文章

 

 

 

 

 

 

 



LINE.png

我的LINE貼圖!點我點我

我的LINE貼圖!點我點我

 

我有粉絲專頁唷,如果喜歡我的朋友可以到我的粉絲專頁按個讚唷

 

arrow
arrow

    DoubleCool 發表在 痞客邦 留言(0) 人氣()