加入收藏
網站地圖
設為首頁
togb  
科技日報 現代企業 創新周刊 計算機周刊 產經周刊 教育周刊 綠色周刊 醫藥周刊 區域周刊 中國園區
走近863 發現求索 星火富民 科技奧運 技術市場 科技交流 科技要聞 關于我們 歡迎訂報 廣告刊例
 
    首頁>>>電子版首頁>>>計算機周刊  
向時速極限■刺——訪曙光公司副總裁聶華

本報記者範力高博
    6月24日,百萬億次超級計算機曙光5000正式亮相并簽約上海超算。由于它的浮點運算峰值速度可達230萬億次,使它當之無愧成為中國新一代高性能計算機的領跑者,接近目前世界排名第六的“藍色基因”。

  回想2006年,863計劃的相關課題指南提出,要研制兩臺百萬億次的計算機,并在此基礎上預研千萬億次的技術。如今百萬億已過,千萬億在即。曙光5000不僅超額完成任務,還實現了“四高兩低”,現在正大跨步向產業化進程推進。

  隨著一次又一次記錄的刷新,“更高、更快、更強”的曙光公司,已然成為中國超級計算機的同義詞。記者近日走訪了曙光公司副總裁聶華,他向我們講述了曙光5000的研發過程,以及他們的研發團隊,言談話語間,我們仿佛看到了曙光人那一顆熱忱的心,一份執著的信念,一種拼搏不息的精神!

  大規模投入創新的決心

  “曙光既然敢投標,就是對自己的成功抱有絕對的信心。研發新的高性能計算機需要長期的技術積累。從曙光1000的200億次,曙光2000的1117億次,曙光3000的4032億次,曙光4000的11萬億次,我們是一步一個臺階往上跨,而不是一步跳到很高。”聶華說。經過2007年初第一輪評審后,曙光基本已順利成為唯一通過入選的品牌。但曙光人明白,順利中標鋪不平通向百萬億次挑戰的艱難路程。

  “做曙光4000A時,我們已經發現,未來系統發展到一定規模時,體系結構就會出問題了。當這種架構達到一定的規模時,整體可靠性將受到嚴重挑戰,很多單一部件的癱瘓都可導致整體癱瘓。因此經過反復論證,我們首先提出了全新的HPP體系結構,從而不僅使系統的穩定性得到很大提高,同時也讓用戶編程應用像常規的集群一樣方便。”聶華說。

  完成了體系結構的創新,他們開始考慮硬件的設計了。刀片式服務器被公認為高性能計算集群的發展方向,它可以極大減少外部線纜的數量,從而降低線纜連接故障帶來的隱患。為了克服線纜連接的瓶頸,以及解決散熱集中、電源供電的集中等問題,他們堅信,刀片服務器將成為研制曙光5000的必然選擇。

  說到刀片服務器,由于設計難度大,目前敢碰的廠家屈指可數,世界範圍內也只有IBM、惠普等廠商。因此在做完全獨立開發刀片服務器的決策過程中,曙光花費了很大的工夫去調研,用他們的話說,當時著實是捏了一把汗。因為設計這樣的刀片一投就是幾千萬,而投進去如果沒達到設計的目標,幾千萬就打水漂了。經過公司領導、研發人員多次討論和認真分析之后達成了共識:干,必須干,而且我們一定能干好!還用他們的話說,當時那個場面叫做眾志成城。

  抱著這樣的必勝信心,曙光人經過奮力拼搏,我們現在看到了,曙光的刀片服務器完全可以面向高性能計算的應用,并且在密度及各個方面達到國際領先。

  從這個意義上講,曙光大規模投入科研創新的決心和勇氣是令人敬佩的。當他們意識到技術轉向不過是時間早晚的問題時,便毅然決然地沿著這條路走了下去。

  克服多方面技術難題

  “做刀片服務器不僅要求有大量資金、人力投入,最重要的是在考驗你的配套能力。通常情況下做一個服務器,設計主板,電源買回來就可以了。但做刀片服務器的一些配件是買不到的,因為很多都涉及到專業的設計。因而人力的投入非常吃緊。比如,原來設計服務器時一個研發組20個人投入到主板,而做刀片的時候,只能有5個人在忙主板的設計,其他人都被抽了出去設計別的了。”聶華說。

  設計刀片服務器還不是唯一的麻煩。每一個值得夸耀的特性的背后都有極大的工作量。“為了實現高速信號傳輸,常規做主板的板材不能支持,需要在國外找到一些特殊的鋼廠,增加了難度。你會發現,系統還是系統,連接還是連接,但當要做到超高性能的時候,所有的配套環境都變了。我不僅僅要關心信號的完整問題,還要關心配套的材料,關心物流是不是能支撐等等。過去我們只利用一條生產線,與一家ODM合作就可以了,而曙光5000呢,主板找一家廠商合作;主板上的高速接頭找了另一家廠商合作,因為做主板的廠家沒有壓制頭的設備;交換模塊又找了一家。可以說這樣做大大增加了我們的工程難度。”

  曙光的各項自主知識產權和自主創新里,包含了很多業界第一。“整個系統研發過程中,共申請了50多項專利。這對我們是一件蠻自豪的事情。”聶華說:“我們最大的體會是,從純技術角度不是每一件事情都有獨創性,但幾項技術集成到一個產品當中,是非常不容易的事情,而在業界我們總能第一個形成產品。”

  “比如,水冷系統不是我們的本行,我們會和專業的廠商做更好的結合和定制。我們水冷機櫃最突出的是下面是水,上面是電。這樣的設計是考慮了漏水。水冷機櫃不能進機箱,因為不便維護,機箱隨便動的話就得動水管。我們將水和電做了隔離,內外做了兩級交換的隔離。水冷模塊雖然在機櫃中占了一定的空間,但安全性大幅度提升了。”

  追求的不僅僅是快

  “國家不希望百萬億次計算的研發僅是純科研的項目。”聶華表示,曙光5000同樣也應該取得商業成功。“如果說曙光離成功還差一步,那就是我們應該如何利用技術贏得市場。”

  為了這個目標,曙光公司一開始就著眼于“用”,而不僅僅求“快”。

  曙光5000用的是AMD公司的1.9G主頻的CPU,如果換用2.3G主頻的CPU,速度可以提高約20%~30%,但這樣一年要多給用戶耗掉接近200萬度的電。因此曙光寧可放■高指標,以降低用戶的綜合成本。

  “我們放■了上半年的(世界超級計算機)排名,只能參加下半年的排名。據我自己的科研體會來講,“■擊前十”是我們考慮最少的指標。我們正著眼于用更多技術上的突破,來更好地滿足用戶的需求。我們不僅僅把它當作一個科研成果,而是當成產業推廣的一件大事。為了這個,我們設計了很多有挑戰的指標,而這種指標不是沒有風險。”

  曙光為自己設定的目標,體現在了“四高兩低”中。

  首先是各項指標高,比如說總峰值、Lin鄄pack、內存、帶寬;第二個是高效能,同樣的指標下,提升用戶的可用度,包括設計、延時,帶寬和單CPU可訪問尋址;三是高密度,在7U的空間里,集中了4×10顆的4核CPU,共160顆CPU核,另外還集成了Infiniband網絡交換模塊和以太網交換模塊;四是高可靠度,包括各種冗余的設計,減少各種故障點的設計,還有散熱仿真工程的設計。

  “兩低”則是低成本加低功耗。曙光5000的造價約兩億元人民幣,這與IBM比可能不占優勢。但這兩億還包括了其他內容,如為千萬億次級的研發做準備,還實現了一些IBM同類系統中不具備的特性,比如每個CPU核可以直接進行64G內存尋址等等。算上這些的話,曙光實現了非常低的投資。維護成本也低,曙光5000的管理軟件可以不增加原有的人員編制。對用戶來講,運營的成本非常低。”聶華說。

  低功耗是因為曙光5000采用了各種節能的部件和節能技術,一年可為用戶省下一千多萬度的電。其中包括低功耗的內存,刀片系統集中散熱,電源效率自動優化,風扇自動調控等,另外還采用水冷的機櫃高效散熱。曙光煞費苦心的設計,為的是滿足用戶需求,而不是爭取排名。

  為什么是曙光?

  推出曙光1000時,中國高性能計算機落后國際先進水平8年推出曙光4000A與國外同類計算機推出時間相差4年;而現在的曙光5000與世界的差距只有兩年多了,如果按計劃在2010年推出千萬億次超級計算機,差距將微乎其微,中國正在迎頭趕上。

  為什么是曙光,而不是別人來代表中國追趕世界?

  不久前曾經有國外廠商就刀片服務器與曙光產品做了個對比,并在一些媒體上刊登,稱曙光的刀片在各個方面都不如他們。曙光的研發人員看到報紙上的數據后,紛紛表示,“雖然我們起步晚,但并不代表我們會永遠落后!通過努力我們肯定會在不遠的將來超過他們!”談起這件事,聶華非常自豪,他說,這就是我們曙光研發人員所具有的“不服輸”精神!

  “曙光有創新的基因。”聶華說:“我們的企業文化叫做越壓越強。我們經常說一句話,論隊伍我們不如別人大,論投入我們不如別人多,但我們有創新基因。”

  正是具備了這種敢為天下先的創新基因,曙光人在挑戰時速極限的研發道路上,不斷創造著一個又一個奇■。

  

  

前一篇 后一篇
相關文章鏈接
   關閉窗口

 

|法律聲明|用戶信息反■|主編信箱|常見問題|網站信箱|
版權所有,未經許可禁止做任何連接和鏡像
科技日報電子版編輯部制作

技術支持:北大方正翔宇ICS內容發布系統
電話:58884112 FAX:58884035