了解最新公司動態(tài)及行業(yè)資訊
藍盟IT小貼士,來!
IT 員工和數(shù)據(jù)專業(yè)人員需要構(gòu)建物理基礎架構(gòu),以便在不同來源和多個應用程序之間移動數(shù)據(jù)。它還必須滿足性能、可擴展性、及時性、安全性和數(shù)據(jù)治理要求。此外,業(yè)務可能會迅速失控,因此必須提前考慮部署成本。
也許最重要的是,企業(yè)首先需要弄清楚大數(shù)據(jù)如何以及為什么對他們的業(yè)務很重要。
“大數(shù)據(jù)項目面臨的最大挑戰(zhàn)之一是如何更好地應用所獲得的知識,”ERP 軟件提供商 VAI 的商業(yè)智能經(jīng)理比爾說。
雖然許多應用程序和系統(tǒng)都在捕獲數(shù)據(jù),但企業(yè)往往難以理解有價值的數(shù)據(jù),并且未能以一種有影響力的方式應用這種觀點。
從更廣泛的角度來看,以下建議可幫助組織了解這 10 大數(shù)據(jù)挑戰(zhàn)以及如何應對這些挑戰(zhàn)。
1.管理大量數(shù)據(jù)
在這個定義中,大數(shù)據(jù)通常包括存儲在各種系統(tǒng)和平臺上的大量數(shù)據(jù)。企業(yè)面臨的第一個挑戰(zhàn)是將來自 CRM、ERP 系統(tǒng)和其他數(shù)據(jù)源的大型數(shù)據(jù)集集成到一個集成的、可管理的大數(shù)據(jù)架構(gòu)中。
他說,當他知道正在收集的數(shù)據(jù)時,通過進行較小的調(diào)整來縮小洞察范圍會更容易。要實現(xiàn)這一點,請構(gòu)建一個允許增量更改的基礎架構(gòu)。如果您嘗試進行重大更改,最終可能會遇到新問題。
2. 查找并修復數(shù)據(jù)質(zhì)量問題
如果數(shù)據(jù)質(zhì)量問題蔓延到大數(shù)據(jù)系統(tǒng),基于大數(shù)據(jù)構(gòu)建的分析算法和人工智能APP應用可能會導致不良后果。如果數(shù)據(jù)管理和分析團隊嘗試部署更多不同類型的數(shù)據(jù),這些問題可能會變得更加嚴重且難以審核。在在線市場中尋找在線購物助手,以幫助人們購買產(chǎn)品并安排運輸。在擴展到 500,000 個客戶時遇到此問題。該公司的主要增長動力是利用大數(shù)據(jù)來提供高度定制的體驗、識別追加銷售機會并監(jiān)控新趨勢。有效的數(shù)據(jù)質(zhì)量管理是一個重要問題。
“我們需要不斷監(jiān)控和修復數(shù)據(jù)質(zhì)量問題,”Pavel 說。他說重復條目和拼寫錯誤很常見,特別是如果數(shù)據(jù)來自不同的來源。為了確保他們收集的數(shù)據(jù)的質(zhì)量,該團隊創(chuàng)建了智能數(shù)據(jù)分類器。此分類器匹配具有較小數(shù)據(jù)差異的重復數(shù)據(jù),并報告拼寫錯誤的可能性。這有助于提高通過分析數(shù)據(jù)生成的集團業(yè)務洞察力的準確性。3. 應對數(shù)據(jù)集成和準備的復雜性
開源分析平臺提供商 Knime 的首席數(shù)據(jù)科學家表示,大數(shù)據(jù)平臺可以解決收集和存儲大量不同類型數(shù)據(jù)的問題,并快速獲取分析所需的數(shù)據(jù)。但是it技術(shù),數(shù)據(jù)收集過程仍然非常困難。
企業(yè)收集的數(shù)據(jù)存儲的完整性取決于持續(xù)更新。這需要保持對各種數(shù)據(jù)源的訪問并擁有專門的大數(shù)據(jù)集成策略。
一些公司使用數(shù)據(jù)湖作為綜合存儲庫來存儲從不同來源收集的大型數(shù)據(jù)集,而不管各種數(shù)據(jù)將如何集成。例如,不同的業(yè)務領域生成的數(shù)據(jù)對于聯(lián)合分析很重要,但往往具有不同的潛在含義,公司需要消除歧義。警告我們暫時不要集成項目。這可能包括大量的返工。為了優(yōu)化大數(shù)據(jù)項的投資回報,通常建議制定支持數(shù)據(jù)集成的戰(zhàn)略方法。
4. 大數(shù)據(jù)系統(tǒng)的高效和經(jīng)濟擴展
如果企業(yè)沒有使用大數(shù)據(jù)的策略,那么存儲大數(shù)據(jù)可能會浪費大量資金。根據(jù)技術(shù)和服務提供商 ZL Tech 企業(yè)解決方案負責人的說法,企業(yè)需要了解大數(shù)據(jù)分析始于數(shù)據(jù)捕獲階段。管理企業(yè)數(shù)據(jù)存儲還需要一致的保留策略來回收舊信息。尤其是現(xiàn)在,COVID-19 之前的數(shù)據(jù)在當今市場上往往不準確。
云管理平臺供應商產(chǎn)品副總裁 Rehl 表示,數(shù)據(jù)管理團隊必須在部署大數(shù)據(jù)系統(tǒng)之前規(guī)劃數(shù)據(jù)類型、模型和用途。然而,這并不容易。
“我們通常從數(shù)據(jù)模型開始進行擴展,但很快意識到該模型不適合新的數(shù)據(jù)點,并且突然需要解決技術(shù)債務問題,”他說。
具有適當數(shù)據(jù)結(jié)構(gòu)的公共數(shù)據(jù)湖可以更輕松、更高效、更經(jīng)濟地重用數(shù)據(jù)。例如,文件通常比數(shù)據(jù)湖 CSV 轉(zhuǎn)儲提供更好的性能成本比。
5、大數(shù)據(jù)技術(shù)評價與選擇
數(shù)據(jù)管理團隊擁有多種大數(shù)據(jù)技術(shù),而且各種工具的功能通常會重疊。
NoSQL 數(shù)據(jù)庫公司的首席戰(zhàn)略官表示,來自流和批處理源的當前和未來數(shù)據(jù),包括大型機、云應用程序和第三方數(shù)據(jù)服務,例如 Kafka、、AWS 和 pub 等企業(yè)流平臺。/sub ) 可以是云、本地和混合。然后,團隊需要評估復雜的數(shù)據(jù)準備能力,并將數(shù)據(jù)提供給人工智能、機器學習和其他高級分析系統(tǒng)。計劃處理數(shù)據(jù)的位置也很重要。如果延遲是一個問題,團隊應該考慮如何在邊緣服務器上運行分析和 AI 模型it技術(shù),以及如何輕松更新模型。企業(yè)必須在這些功能與部署和管理在本地、云端或邊緣運行的設備和應用程序的成本之間取得平衡。
6. 產(chǎn)生商業(yè)洞察力
數(shù)據(jù)團隊傾向于關(guān)注大數(shù)據(jù)技術(shù)而不是結(jié)果。經(jīng)常發(fā)現(xiàn)他們不太關(guān)心如何處理數(shù)據(jù)。
從企業(yè)中的大數(shù)據(jù)應用程序中生成有價值的業(yè)務洞察需要考慮多種場景,包括基于 KPI 的報告、識別有用的預測以及提出不同類型的建議。
這需要具有機器學習專業(yè)知識的業(yè)務分析師、統(tǒng)計學家和數(shù)據(jù)科學家的協(xié)助。她說,這些團隊與大數(shù)據(jù)工程團隊合作,可以提高構(gòu)建大數(shù)據(jù)環(huán)境的投資回報率。
文/上海藍盟IT外包專家