發(fā)布時(shí)間 : 2010-08-19 08:29:00 來源 : 金站網(wǎng) 瀏覽次數(shù) :
8月18日消息,谷歌中國研究院副院長張智威在2010年中國互聯(lián)網(wǎng)大會(huì)“云計(jì)算產(chǎn)業(yè)高峰論壇”上表示,能源問題成為全球關(guān)注的問題,谷歌也在利用云計(jì)算降低每次搜索的能耗。
張智威指出,目前Google搜索一下的能耗是12卡,而喝一瓶啤酒大約是500卡。結(jié)果谷歌自身的努力,目前花在冷卻方面的費(fèi)用已從原來的占35%費(fèi)用總額降至9%。
以下是谷歌中國研究院副院長張智威演講實(shí)錄:
張智威: 各位老總、各位嘉賓,大家好!
剛才很多老總提到很多云計(jì)算的服務(wù)跟應(yīng)用,我們覺得非常感動(dòng)。另外有些老總提到云計(jì)算的技術(shù)可能已經(jīng)很成熟了,但是谷歌覺得云計(jì)算很多地方在技術(shù)上可以進(jìn)一步推。今天跟大家分享一下,谷歌在最近這一兩年,在未來一兩年云計(jì)算的技術(shù)做怎樣的拓展。
如果要了解云計(jì)算,可能要了解它的一些規(guī)模跟它的應(yīng)用極端。怎么看規(guī)模呢?首先我們看一下GFS,大家都了解谷歌的文件系統(tǒng)。我們覺得GFS已經(jīng)有點(diǎn)過時(shí)了。同時(shí),我們覺得MAPREDUCE也有它的問題。為什么現(xiàn)在這些都不夠力呢。
跟大家做一個(gè)比方吧,幾年之前,我在大學(xué)的時(shí)候,那個(gè)時(shí)候他們說GADBIC,TIROBIC,往后面走,可能我們講的是TERA,需要非常大的存儲。如果你現(xiàn)在用的技術(shù)是要登錄月球的技術(shù),可能沒有到宇宙暢游,所以在技術(shù)上,我們必須做革新。接下來跟大家闡述一下,到底哪邊出了問題。比如說,我們看看這幾個(gè)不同的非常受歡迎的應(yīng)用。
這些證明了一些計(jì)算的極端,我就舉兩個(gè)例子,因?yàn)闀r(shí)間的關(guān)系。搜索引擎用戶數(shù)量是非常大的,精確數(shù)量是中等的。如果您今天搜集的信息,我們有5臺機(jī)器,兩臺是當(dāng)?shù)舻?,如果丟了東西,您可能根本都不知道,所以它的精確度不需要很高。但是,你用云計(jì)算做科學(xué)計(jì)算,比如說發(fā)一個(gè)飛彈,那精確性可就不能開玩笑了。另外其他幾個(gè)方面,大家可以看到,比如可靠度、數(shù)據(jù)量??煽慷纫彩欠浅V匾?,假設(shè)你用云做股市交易的話,你不可能中間宕機(jī),大家的交易就不能實(shí)現(xiàn)了。
所以,大家考慮到這方面,必須考慮極端。我們接下來用一個(gè)例子來做解釋。假設(shè),今天我們只用一臺計(jì)算機(jī)、一臺服務(wù)器,我們來設(shè)計(jì)一MUNICATION MODEL,我們第二個(gè)級別是一個(gè)計(jì)算機(jī)的機(jī)架,40臺的服務(wù)器,第三個(gè)是一個(gè)計(jì)算機(jī)中心。我們假設(shè)有十萬臺的服務(wù)器。在這三種不同情況的結(jié)構(gòu)下面,你們覺得軟體的寫法,或者是它的技術(shù)是一樣的嗎?我們看看幾個(gè)數(shù)據(jù)。
首先,有三個(gè)很重要的數(shù)據(jù),一個(gè)是LATANCY,當(dāng)你到內(nèi)存取資料的時(shí)候,到底中間的容量是多少。第二個(gè)是你每次取樣的時(shí)候,有多少數(shù)據(jù)會(huì)取回來。第三個(gè)是容量,里面的容量到底有多少。這個(gè)本題幾乎趨近于零,但是如果我們看一個(gè)機(jī)架,我們再來看這個(gè)數(shù)據(jù),它的數(shù)字有點(diǎn)變化。下一幅大家看,它的LATANCY變高了,你看在機(jī)架這種級別上面,他們兩個(gè)的級別基本上差不多了。這個(gè)時(shí)候,如果想考慮它的價(jià)格的話,多用一點(diǎn)BRAN,如果在數(shù)據(jù)中心級別來講,這些數(shù)據(jù)又改變了。比較大的改變是它的單位又改變了,我們加那么多的CPU加了那么多的東西,為什么它往下走了?從一個(gè)CPU的觀念來看,好像今天四環(huán)堵車了,你說好,我把四換從四個(gè)人增加到八個(gè)人,增加了幾倍機(jī)器,但是從出四環(huán)和進(jìn)四環(huán)的路沒有拓寬,最后堵死在那邊了。
我們最近覺得有什么樣的云計(jì)算設(shè)計(jì)挑戰(zhàn)呢?至少跟大家分享三方面,第一個(gè)是能源的節(jié)約。剛才有一兩位老總講到能源,能源非常重要。一方面我們希望節(jié)約能源,不希望在地球上摧毀整個(gè)的環(huán)境。過去幾百年來,基本上每30年,我們的地球能源消耗會(huì)雙倍一次。但是最近這一年,尤其在亞洲情況非常嚴(yán)重,也許五六年就提高了一倍,甚至在中國,在東亞,大概五六年資源就提高了一倍。我們GOOGLE搜索一個(gè)研究大概是12卡,你喝了一瓶啤酒大概是500卡,你喝了一餅啤酒,大概是2000多搜索。我們必須把搜索的卡降低,如果你的成本特別高的話,將來你的公司可能沒有辦法得到非常好的利益。為什么要節(jié)能、節(jié)源,這是非常重要的,必須使你的利潤提高。
在谷歌,我們經(jīng)過多少年的調(diào)研,我們在能源使用上有非常好的突破。在左邊是云計(jì)算的平臺,可能50%的能源是花在IT方面的,其中的35%是花在冷卻的。谷歌在這方面有很多的研究,所以在冷卻方面只花9%的能源。能源效應(yīng)是6%,它大部分能源是做有效工作的。如果說你投資兩塊錢,在別的平臺上服務(wù)是兩塊錢,在谷歌的平臺上也許便宜很多。
第二個(gè)是故障恢復(fù),你存在銀行的錢不見了,故障修復(fù)是非常重要的環(huán)節(jié)。即使我們的機(jī)器是99.9%的使用時(shí)間,一年也有9小時(shí)的故障吧。如果有1000臺的服務(wù)器的話,一般在北美有0.25次的斷電,3次的路由器故障,100次的計(jì)算機(jī)故障,1000秒的硬碟故障,這種情況下,要保證數(shù)據(jù)不會(huì)丟失,還要正常運(yùn)轉(zhuǎn)。
故障的快速修復(fù)有很多的環(huán)境,比如說復(fù)制,對一些比較對正確性不是特別關(guān)切的搜索,我們可以做松散的一致性,近似的答案,或者不完整的答案。
最后一個(gè)要跟大家分享的是,新的城市設(shè)計(jì)的模式。我們知道MERIDUCE已經(jīng)做了很多年了,它有它的問題。另外我們在技術(shù)上加了FLASH,我們加了CPU,所以跟大家分享兩個(gè)事情,一個(gè)是在這樣的不同的情況下,我們發(fā)現(xiàn)FLASH樂不太適用,我們基本上有下面幾個(gè)重要的突破。新一代集群級文件系統(tǒng),第二個(gè)是自動(dòng)分布元素?fù)?jù)層,它的讀寫用REEDSOLOMON技術(shù),客戶驅(qū)動(dòng)的編碼和復(fù)制也可以由顧客來做制訂,預(yù)測、規(guī)劃和優(yōu)化數(shù)據(jù)移動(dòng)非常重要,尤其我們希望把數(shù)據(jù)搬到離用戶比較近的地方。縮短服務(wù)的延遲,這是絕對重要的,對所有用戶來講,延遲是很重要的課題。最后是故障修復(fù)。
這個(gè)是并行算法的一個(gè)比較,如果做研究的人比較有興趣。但是一般來講,大家可能看到這個(gè)圖片覺得想睡覺。但是MERIDUCE有一個(gè)很大的問題,它每次要做大量的數(shù)據(jù)之前,要把數(shù)據(jù)在硬盤上讀出來,最后再寫回去。好處是,如果你的硬盤宕掉了,修復(fù)非常容易。壞處是你的修復(fù)是有地跌性的,每次都要寫IO,非?;ㄙM(fèi)時(shí)間,所以我們也希望有一個(gè)新的算法把這個(gè)問題解決。
數(shù)據(jù)規(guī)模為什么要大呢?我這里邊做一個(gè)非常簡單的例子來解釋一下。假設(shè)今天我說了我只有100臺機(jī)器,我只能搜集少量的數(shù)據(jù)來做一些算法的精確度。這個(gè)圖的左邊,它基本上秀的是,如果我的數(shù)據(jù)只有大概,它有四種算法,比如我們看第三種方式,在數(shù)據(jù)比較小的時(shí)候,它的精確度不是很高。但是我們繼續(xù)加很多數(shù)據(jù),繼續(xù)再加。這個(gè)時(shí)候一個(gè)不算太好的算法,在非常多的數(shù)據(jù)情況下,它變成第一了。數(shù)據(jù)規(guī)模可以使算法優(yōu)化的。在以前我們做研究的時(shí)候,常常用的小數(shù)據(jù),我的算法贏了別人,然后發(fā)表一篇論文。但是在谷歌里面常常說,小規(guī)模數(shù)據(jù)的算法反而在大規(guī)模數(shù)據(jù)是最后一名。大規(guī)模的運(yùn)算開始算法的精確度提高很多,第一個(gè)是谷歌翻譯,谷歌翻譯搜集了非常多的聯(lián)合國的文件,根據(jù)那個(gè)文件做樣本。所以你今天打進(jìn)的詞條,就有這個(gè)翻譯把這個(gè)傳進(jìn)去,而不是非常傳統(tǒng)地做算法的MODEL。谷歌的語音識別是另外的例子,傳統(tǒng)的算法數(shù)據(jù)只有60%。但是因?yàn)槲覀兯鸭朔浅6嗟臄?shù)據(jù)做訓(xùn)練,所以我們就可以增加到80%多。
最后的例子,我們可以用大量的數(shù)據(jù),還有用戶的一些反饋?zhàn)鲆恍┶厔莸念A(yù)測,這個(gè)非常有利的,我舉一兩個(gè)例子。去年我們有禽流感,或者H1N1大家比較緊張,后面這個(gè)圖是國際衛(wèi)生組織發(fā)布的禽流感感染人數(shù),在谷歌內(nèi)部,用戶的關(guān)鍵搜索詞,實(shí)際上在衛(wèi)生組織發(fā)布數(shù)據(jù)之前,我們就已經(jīng)早就知道了。譬如說你今天身體不舒服,你打感冒藥等等的,我們把關(guān)健詞做一個(gè)統(tǒng)計(jì),你可以看到谷歌在兩三個(gè)月之前,在他們沒有發(fā)布這個(gè)疫情之前,我們就已經(jīng)知道這個(gè)數(shù)據(jù)了。
我再舉一個(gè)很簡單的例子,在國外經(jīng)濟(jì)情況好好壞壞,一會(huì)兒好、一會(huì)兒壞,我們外面的人只有在每一個(gè)月,或者每一個(gè)季度之后,我們才看到這個(gè)經(jīng)濟(jì)的報(bào)告。這個(gè)時(shí)候,你是炒股的話,可能晚一點(diǎn)。但是我們可以看看關(guān)鍵字,最近搜餐廳的比較多了,那可能經(jīng)濟(jì)情況比較好了。搜炒菜、煮菜的,可能最近大家比較窮了,可能大家最近自己生火做飯。
我就舉一些負(fù)責(zé)膚淺的例子了,有些關(guān)鍵的搜索詞是可以拿來做數(shù)據(jù)應(yīng)用的。今天就跟大家分享一下谷歌的超級云計(jì)算平臺技術(shù)。顯然因?yàn)橐?guī)模,算法的規(guī)模是越來越大的,既有的技術(shù)是永遠(yuǎn)沒有辦法跟上,所以已經(jīng)一直在做調(diào)研,希望能替云計(jì)算技術(shù)做更好的突破與開發(fā),謝謝各位!