• <menu id="coy0m"><tt id="coy0m"></tt></menu>
    <menu id="coy0m"><tt id="coy0m"></tt></menu>
  • 中國數據存儲服務平臺

    為什么說存儲對于AI落地也很重要?

    人工智能領域有一個怪異的現象:一方面,各行各業都在提人工智能,不提人工智能則代表落伍;一方面,一些真正搞人工智能技術的企業發展陷入困境,前景不被看好。

    究其原因,還是人工智能在實際落地中碰到了問題,當我們湊近看這些問題,就能看到存儲的重要性。

    常被忽視的數據存儲

    有人分析了人工智能落地難的原因。

    認為技術導向的AI技術服務商過于看重算法,忽略了實際需求,同時,定制化的需求也限制了其發展,反而傳統企業在AI方面的探索更容易取得成果。

    人工智能最早從互聯網、金融、安防等領域開始,而后滲透到醫療、工業等領域,還有一些在生命科學、藥物研發等領域,以行業為節點,步步為營。

    換句話說,都是原來有業務的企業在用AI能力,過程中,需要結合實際場景進行反復摸索、嘗試和迭代,而想要加速這一過程,則需要關注人工智能落地的“四大要素”。

    數據、算法、算力和模型被認為是人工智能落地的四大要素,其中,算法、算力和模型的話題熱度很高,而對數據本身的討論,似乎也并不是機器學習專家的分內的事兒。

    當然,機器學習專家本身對于數據預處理還是很熟悉的,但通常并不了解數據存儲的部分,對于存儲系統在擴展性、性能、穩定性方面并不在意。

    從許多實踐來看,AI技術的成功與否,在很大程度上取決于支持數據科學流程的底層IT體系結構。換句話說,想要順暢地訓練、測試和部署AI模型,需要靠譜的計算和存儲系統。

    AI對存儲提出了哪些要求?

    上圖來自戴爾的一份白皮書(《適用于AI的IT體系結構:從POC直到生產》),企業用的商務智能只需要少量的結構化數據,需要的算力也比較少,而深度學習則需要PB級的數據,同時,對于計算和存儲性能也提出了更高要求。

    白皮書概括了企業AI項目的落地流程。首先,要搞清楚具體要解決的業務問題,然后,就進入到POC驗證階段,需要將業務問題和數據科學問題來對應,過程中,需要建立一套IT基礎架構,IT架構要可以重復使用、可擴展且足夠靈活。

    眾所周知,機器學習的工作過程大致分為四個階段,涵蓋數據采集、數據準備(數據預處理)、模型訓練(包含訓練、評估、驗證)和模型推理四個階段,每個階段對于數據存儲的要求都不盡相同。

    在數據采集階段,數據可能會從不同來源聚攏并存儲起來,數據的大小和格式都存在各種差異,而且,數據類型往往是以文件存儲或者對象存儲為主,都屬于非結構化數據。

    采集過程中,首先以順序寫入為主,從多個數據源傳入數據,如果存儲寫性能跟不上,數據就可能會被丟棄,數據的完整度可能會影響模型的準確度。采集完成后,通常還要將收集來的數據放入更大的存儲池來進行統一管理,對讀性能要求也很高。

    在數據準備階段,需要對不同格式和尺寸的數據進行規范化處理,處理的效率取決于計算以及存儲的性能。處理的過程中,通常會有順序讀寫、隨機讀寫等操作,在最極端的情形下,甚至可能是各占一半的讀寫混合。

    而在訓練階段,往往需要高性能的GPU或者加速器等來執行一系列的數學運算,對計算和存儲資源要求非常高,在做特定訓練時,AI訓練所需的時間取決于所部署的計算與高性能存儲的規模。

    推理階段,對于存儲和計算性能的要求會比較多樣化,常見的各種邊緣場景,在機場和火車站的閘機,在手機的人臉識別系統中,對能耗比較敏感,而在大型模型的推理過程,對于計算和存儲性能的要求都會非常高。

    總結而言,AI所需要的是非結構化數據存儲,并且,對于存儲的擴展性、綜合性能以及擴展性都有比較更好的要求。同時,由于涉及的數據量會越來越多,對于數據存儲和管理的要求也會越來越高。

    如果存儲無法滿足這些要求,輕則影響機器學習訓練的周期,影響業務迭代進度,影響企業對于AI戰略的信心。重則訓練出的模型可能無法用于生產環境,AI計劃宣告失敗。

    戴爾幫助企業將AI落地

    戴爾能為企業的AI體系結構構建從邊緣到核心再到云的數據環境,計算部分有Precision工作站、PowerEdge服務器和NVIDIA DGX服務器,而存儲部分則有PowerScale橫向擴展存儲和ECS對象存儲,其中,PowerScale還可在云端部署。

    PowerScale的非常適合存儲用于AI/ML/DL的大型數據集,服務于機器學習和數據分析場景。

    PowerScale的高性能、高并發性能可滿足機器學習從數據采集、數據準備、模型訓練和模型推理各階段對存儲性能的要求,能更快完成AI模型的訓練和驗證。

    PowerScale的可擴展性,使得從POC驗證到生產環節的所有數據都可以存放在PowerScale上,而且可以隨著數據量的增長隨時添加節點來擴容,從而可以避免費時費力進行數據遷移。

    PowerScale提供豐富的企業級特性,它能將數據管理、性能管理、數據保護和數據安全有機地整合,從而提高數據存儲的經濟性,降低擁有成本并減少風險。

    PowerScale還提供了高效的管理能力,借助PowerScale自帶的數據管理工具 Dell EMC DataIQ,任何人都可以輕松地在跨本地和異地部署的,文件和對象數據平臺上查找和管理數據。

    PowerScale既有全閃存配置,也有混合存儲和歸檔存儲配置,滿足用戶在性能、容量和成本之間的平衡,還與谷歌云、亞馬遜云以及微軟Azure合作將數據放到云上,利用云上的彈性資源進行機器學習的訓練和推理,為企業提供了豐富多樣的選擇。

    此外,戴爾不僅提供了種類豐富的IT基礎架構,擁有多種參考體系結構以及經過驗證的計算和存儲解決方案,還提供了常用的AI/ML/DL工具和框架,包括大數據分析平臺Splunk、機器學習框架Caffe2、TensorFlow、PyTorch等,讓機器學習的流程更順暢。

    結束語

    可以說,戴爾存儲不僅能滿足機器學習各個階段,對存儲在性能和擴展性方面的要求。而且,還有可用于構建服務于AI工作流的一整套IT基礎設施,更能將企業所需的安全、高效數據管理能力帶給企業,是企業構建AI能力的理想之選。

    未經允許不得轉載:存儲在線 » 為什么說存儲對于AI落地也很重要?
    分享到: 更多 (0)
    头埋入大腿内侧
  • <menu id="coy0m"><tt id="coy0m"></tt></menu>
    <menu id="coy0m"><tt id="coy0m"></tt></menu>