在未來的某一天,當你突然想知道這個世界上有多少人跟你長的相似的時候,你可以在搜索框中上傳一張自己的照片,剩下的一切都可以交給智能化的圖片搜索引擎來完成,它能根據圖片的內容特征自動識別相似的圖片。這種“以圖搜圖”的情景說起來容易,但實現起來,卻是一個困擾了谷歌、百度等各大搜索引擎巨頭們許久的技術難題。
要知道,計算機本身并不能識別圖像或文字,唯有將其轉化為數字,計算機才能識別和處理。傳統的圖像檢索技術是以文本檢索技術為核心構建的,互聯網上的圖片被人為的打上各種各樣的標簽,如一張海上日出的風景照片,可能的標簽包括“海洋、日出、風景”等等,一旦有用戶在搜索框中輸入這些關鍵詞后,搜索引擎會在數據庫中自動查找相對應的標簽。
然而,隨著技術的進步,以人工智能為核心的內容圖像檢索技術已經成為未來發展的趨勢。目前,谷歌通過提供數百萬份 YouTube 視頻,成功的讓虛擬神經網絡系統――DistBelief在事先沒有獲取“貓的特征描述”信息的情況下,自行總結出貓這個概念的特征。也就是說,DistBelief具有自學習能力。而在這套人工智能系統后面,是一個由 1000 臺機器組成、包括 16000 個內核、處理參數高達 10億個的超級計算機系統。
讓機器像人一樣理解圖像內容,強大的硬件固然必不可少,可最核心的依然是智能算法的設計,目前基于聚類的方法是圖像搜索領域的關鍵方法之一,其中k-means算法是應用最廣泛的無監督聚類方法,海量數據的索引大部分都使用了分層聚類的思想。但是k-means算法效率相對比較低,原來CPU版本的方法在使用50到60個節點的條件下處理約100萬張圖片,需要耗時5個多小時。這種速度對于動輒上億數據的互聯網公司來說,完全無法接受的,因此必須要對k-means進行優化。
針對k-means目前的特點,浪潮日前與國內某知名搜索公司實現合作,成功實現了對k-means算法的優化。在項目過程中,浪潮高性能計算并行團隊在分析代碼后,提出GPU集群的解決方案,并提出了從硬件(計算節點、網絡互聯、存儲節點)到軟件(優化軟件)的一攬子解決方案。特別在軟件方面,浪潮與客戶算法專家團隊共同成立專門聯合項目組,基于K-means串行版本,完成GPU MPI集群版本的實現,節點內使用CPU+GPU協同計算,大幅降低了計算時間。
雙方聯合針對GPU架構進行了算法層面的優化,重寫了計算部分代碼,將整體速度大幅提升。經過優化后的軟件,在單GPU上運行的速度與串行程序相比,加速比達到41倍,1塊GPU相當于4.4個8核CPU并行的性能,同時由于浪潮 GPU版本K-means具有很好的性能可擴展性,這使得GPU服務器具有很好的性價比非常適合于此類應用大規模部署。
某搜索引擎技術部的負責人在上線了浪潮優化后的搜索程序表示:“浪潮優化以后,大幅降低了我們硬件采購的成本,并且節省了計算時間,為我們的應用上線帶來了很大助益?!?/p>
浪潮作為中國異構高性能計算技術的領先者,一直致力于推動GPU和MIC的應用發展和人才培養,推動異構技術的產業生態環境建設。據了解,浪潮已經分別與英特爾和英偉達聯合成立并行計算實驗室,合作開發優化基于MIC和GPU的并行應用,涉及石油天然氣、數值氣象預報、生命科學、計算流體力學、金融風險分析、電磁仿真、CAE、機器學習等諸多領域。同時,浪潮高性能計算應用軟件開發團隊是目前同時掌握CPU、GPU、MIC應用技術的國際領先團隊,在CPU、GPU、MIC技術方面已取得多項研究成果,并成功在SC和IDF大會上成功展示。