位于江蘇省無錫市國家超級計算無錫中心的“神威·太湖之光”超級計算機。 國家超級計算無錫中心供圖
“神威·太湖之光”超算應用團隊與“神威”超級計算機合影。 國家超級計算無錫中心供圖
2018年,甘霖(右一)獲國際電氣和電子工程師協會“高性能專委會傑出新人獎”。 國家超級計算無錫中心供圖
又是夏季。在江蘇無錫蠡湖畔一座大樓裡,1000平方米的房間内,除了空調聲,聽不到任何聲音。
5年前的一個夏日,付昊桓走進了這座大樓。彼時,這位“80後”清華大學教授帶領20多名師生來此,想借用這裡的超算資源,研發氣候模拟軟件。當付昊桓擡頭看到“國家超級計算無錫中心”10個大字時,他沒有想到,1年後,這個名字會蜚聲海内外。
2016年6月,新一期“全球超級計算機500強”公布,安裝在國家超級計算無錫中心的“神威·太湖之光”奪冠。此後“神威·太湖之光”連續四次雄踞“全球超級計算機500強”榜首。
2016年11月,基于“神威·太湖之光”的應用成果折桂“戈登·貝爾獎”,實現了中國在該獎項上“零的突破”。
近日,本報記者采訪了“神威·太湖之光”超算應用團隊,聽他們講述中國超算奇迹背後的努力與付出。
首次亮相——
展位上的資料被一搶而空
2016年6月20日,在德國法蘭克福舉行的國際超算大會上,付昊桓受邀作了報告。此時他的頭銜已是國家超級計算無錫中心副主任。
原來,2015年底,無錫在全國範圍内尋找運營和管理超算平台的團隊。因為有暑期合作的基礎,無錫相中了清華大學教授楊廣文的團隊。作為團隊中的研發負責人,付昊桓跟随楊廣文奔赴無錫。
“神威·太湖之光”也來到了無錫。2016年,“神威·太湖之光”在國家超級計算無錫中心安裝使用。
付昊桓在國際超算大會上做的報告結束後,無錫中心展位突然湧來了大批參觀者,展位的地毯都被踩得卷起邊兒。參觀者好奇地問着各種問題,幾百本宣傳資料被一搶而空。
這是“神威·太湖之光”首次亮相國際舞台,可謂一鳴驚人。國際超算大會發布了新一期“全球超級計算機500強”榜單,“神威·太湖之光”榮登榜首。
“神威·太湖之光”有多快?它是世界首台峰值運算能力超過每秒10億億次、擁有千萬核的超級計算機,1分鐘的計算能力,相當于全球70多億人同時用計算器不間斷計算32年。
超級計算機是為解決工程和科學中的重大難題而生,因此如何應用是關鍵。“神威·太湖之光”成為世界最快計算機後,不少超算專家抛出這樣一個問題:中國赢得了超算“速度戰”,還能不能赢得“應用戰”?
零的突破——
讓評審委員會主席感到驚訝
2016年,無錫中心團隊作出了一個雄心勃勃的舉動——申報“戈登·貝爾獎”。“戈登·貝爾獎”被稱為世界高性能計算應用領域的“諾貝爾獎”,自1987年設立以來,從未有中國團隊獲獎。
在沖刺“戈登·貝爾獎”的最後一個月裡,團隊成員們開啟了“7×24小時”模式。對于那次備戰,并行優化部主管劉钊記憶猶新。
“大量數據需要在‘神威·太湖之光’上處理。辦公室角落裡堆放着行軍床,每個人的辦公桌上都擺着洗漱用品。”劉钊說,他們有時候每天隻睡兩三個小時,經常有人忙到淩晨三四點鐘才休息。
大夥兒這麼拼,還有一個原因,那就是怕浪費錢。超級計算機用電量大,“神威·太湖之光”運行一天,電費就要20萬元左右。“我們通宵調試和運行程序,這樣機器的利用率才能最大化。”劉钊說。
經過一個個燈火通明的夜晚,時間走到了2016年11月17日。這一天,在美國鹽湖城,一年一度的“戈登·貝爾獎”正在揭曉。
基于“神威·太湖之光”的“千萬核可擴展全球大氣動力學全隐式模拟”應用項目獲獎!這個項目是由中科院軟件所等單位與國家超級計算無錫中心合作完成的。項目名稱被念出來後,付昊桓淡定地從座位上站了起來。
這是中國超算應用團隊近30年來首次獲得“戈登·貝爾獎”。有評論指出,這次“零的突破”标志着中國科研人員正将超算的速度優勢轉化為應用優勢。
1年後,由付昊桓團隊完成的“非線性地震模拟”應用再次斬獲“戈登·貝爾獎”,實現了中國超算應用在此項大獎上的蟬聯。
有一組數字同樣令人振奮。2016年,全球有6個項目獲“戈登·貝爾獎”提名,其中基于“神威·太湖之光”的應用占3個,占據半壁江山。2017年,有3個項目獲提名,其中基于“神威·太湖之光”的應用占2個,占比達到了2/3。
“戈登·貝爾”獎項評審委員會主席曾這樣表示,“我們很驚訝你們有這種毅力,把這樣一座‘大山’搬了過來。”“大山”指的是百萬行代碼,付昊桓團隊為什麼要“搬”這百萬行代碼?
沖破封鎖——
核心部件全部國産化
30多年前,擺在中國超算用戶面前的是一個神秘的“玻璃房”:美國人把一台超級計算機賣給中國,用不透明的玻璃包裹得嚴嚴實實,中國技術人員未獲授權不得入内。
“以今天的眼光來看,那個所謂的超級計算機,充其量隻是一台高性能電腦。但對當時的中國來說,卻是一個難以企及的高峰。”國家超級計算無錫中心主任楊廣文說。
上世紀末,中國邁入獨立設計和制造超級計算機的國家之列,但在核心處理器等關鍵部件與技術方面受制于人。
步入“十二五”,在國家“863”項目重點支持下,中國超級計算機發展不斷取得突破。在“全球超級計算機500強”榜單上,“中國制造”的身影越來越多。内置英特爾芯片的“天河二号”異軍突起,成為世界上第一台實現“全球超級計算機500強”六連冠的超級計算機。
然而,2015年4月,美國政府宣布,把與超級計算機相關的4家中國機構列入限制出口名單,這直接導緻“天河二号”無法如期完成攻關目标。
每次技術封鎖帶來的都是自力更生。經過大力研發,2015年底,國家并行計算機工程技術研究中心成功研制出“神威·太湖之光”,它首次采用國産核心處理器“申威26010”,實現了所有核心部件的國産化。随後,“神威·太湖之光”在無錫安裝運行。
隻有5厘米見方的薄塊“申威26010”成為中國打破技術封鎖的一柄利器。25平方厘米的方寸之間,集成了260個運算核心、數十億晶體管,達到了每秒3萬多億次計算能力。
從此,中國在高性能計算及應用領域擁有了更強的話語權。今年6月發布的“全球超級計算機500強”榜單中,中國的超級計算機占據226席,數量繼續位列全球第一。
硬件誕生了,軟件開發就成了下一個挑戰。“神威·太湖之光”采用的是全國産的新型片上融合異構芯片,原有基于國外x86架構設計的大量科學及工程計算軟件,無法直接在“神威·太湖之光”上高效運行。
在進行“全球氣候模式的高性能模拟”研究時,甘霖就要面對這個挑戰。他是付昊桓在清華大學帶的第一個博士生,還是國家超級計算無錫中心主任助理。
甘霖說,一般的應用也就幾千到幾萬行代碼,而地球系統模式代碼近百萬行。這些是各國氣候學家在過去幾十年裡積累的對大氣、海洋、陸面等各個圈層變化機制的理解,每個人寫代碼的風格不同。為此,他們需要逐條進行代碼的轉換、移植乃至重新設計,最後才能為“神威·太湖之光”所用,這是個“愚公移山”的過程。
“移山”之路是布滿困難和阻礙的,“神威·太湖之光”在應用之路上能邁開步子嗎?
廣受認可——
從“毛頭小子”到“專家”
2016年6月,“神威·太湖之光”一舉成名後,很多人慕名而來,尋求合作。喬宇是2017年進入應用平台開發部的。入職不久,他所在團隊接到了上海一家發動機生産企業的合作項目。
出乎喬宇意料的是,他第一次與上海方面的人見面時,對方竟是一臉不屑。原來,無錫中心的這支團隊平均年齡不到30歲。瞧着一張張稚嫩的臉,客戶心裡沒底:這群“毛頭小子”能行嗎?
一年時間,團隊不僅出色完成了項目,還順手幫對方解決了一些技術難題,結項時,對方改稱他們為“專家”。“我們的團隊逐漸受到認可,合作項目也越來越多了。”喬宇說。
從2016年6月20日平台開放以來,國内外多個應用項目通過使用“神威·太湖之光”獲得突破,誕生了100多項應用成果,涉及氣候氣象、海洋、航空航天、生物、材料、高能物理、藥物、生命科學等衆多領域。
“神威·太湖之光”成功實現對“天宮一号”回收路徑的精準模拟,20天完成了原本需要12個月的計算量;“千萬核可擴展大氣動力學全隐式模拟”可以讓天氣預報精确地推測出下一分鐘一公裡範圍内的氣候詳情……
盡管取得了這些亮眼的成績,團隊成員們仍在馬不停蹄地奮戰,為的是讓運算再快一些。
最近,劉钊在忙一個項目——對500年來全球大氣和海洋數據進行模拟。根據計劃,這個項目将耗時1年。“後來,我們又不斷對算法進行優化,預計三四個月就能完成這個項目。”劉钊說。
在“神威·太湖之光”不斷創造奇迹的同時,很多人将目光投向了背後的應用團隊:這是一群怎樣的人?
聚集人才——
在高鐵上寫完博士論文
甘霖是國際電氣和電子工程師協會“高性能專委會傑出新人獎”獲得者,是摘得該獎的首位中國學者。
攻讀博士期間,甘霖加入了“神威·太湖之光”應用研發團隊。有兩個多月的時間,他幾乎每周都要往返北京和無錫一次,單程5個小時,這成為甘霖寶貴的論文寫作時光。
甘霖回憶說:“高鐵座位舒服,幹擾也比較少,很适合寫文章。”他的博士論文,大約3/4是在高鐵上完成的。有意思的是,一次,他的鄰座是一位地球物理勘探領域的教授,交談一番後,他還收獲了一些論文修改意見。
2016年初,即将博士畢業的甘霖,拿到了幾家企業的工作邀請,工作環境和薪水都很誘人。那時,“神威·太湖之光”的應用研發工作也走到了關鍵節點。是去企業,還是留在“神威·太湖之光”應用團隊?甘霖選擇了後者。“能将個人努力和國家科學進步聯系在一起,是一件非常幸福的事。”甘霖說。
很快,在導師的帶領下,甘霖與團隊其他成員一起來到無錫,開始為國産超級計算機打造屬于自己的應用。
甘霖說:“年輕就是我們最大的優勢。我們有足夠的時間去嘗試,10個想法裡隻要有1個是對的,就能創造出巨大的變革。”
為解決特定領域專業人才短缺的問題,無錫中心推出一種全新的機制——與應用單位共同成立專題聯合實驗室,實驗室負責人由應用方學科帶頭人擔當,無錫中心提供計算與應用支持。
楊廣文認為,超算是一門交叉性很強的學科,“要讓不同專業方向的科研人才聚集在一起,合力幹一件件大事。”
“神威·太湖之光”大事記
2015年底,國家并行計算機工程技術研究中心完成“神威·太湖之光”的研制。
2016年6月,“神威·太湖之光”榮登“全球超級計算機500強”榜首,此後連續四次蟬聯第一。
2016年11月,基于“神威·太湖之光”的“千萬核可擴展全球大氣動力學全隐式模拟”項目獲得“戈登·貝爾獎”。
2017年11月,基于“神威·太湖之光”的“非線性大地震模拟”項目獲得“戈登·貝爾獎”。
資料來源:國家超級計算無錫中心
,