新聞中心
當(dāng)前位置:網(wǎng)站首頁 > 新聞中心
如何在云上實(shí)現(xiàn)大數(shù)據(jù)項(xiàng)目
云計(jì)算和大數(shù)據(jù)目前都是熱門話題,如何把兩者結(jié)合起來即在云上實(shí)現(xiàn)大數(shù)據(jù)項(xiàng)目,這是一個(gè)新的實(shí)踐領(lǐng)域。資深數(shù)據(jù)專家David Gillman根據(jù)自己的經(jīng)驗(yàn),列舉了云上大數(shù)據(jù)方案需要考慮的基本要素,包括對(duì)數(shù)據(jù)構(gòu)建實(shí)時(shí)索引、自由模式搜索與分析、監(jiān)視數(shù)據(jù)并提供實(shí)時(shí)警告等,幫助用戶更好地評(píng)估和選擇解決方案。在談到如何實(shí)現(xiàn)云上大數(shù)據(jù)項(xiàng)目時(shí),David強(qiáng)調(diào)了三個(gè)實(shí)時(shí)要素,即實(shí)時(shí)索引、實(shí)時(shí)數(shù)據(jù)和實(shí)時(shí)監(jiān)控:實(shí)時(shí)索引指的是“對(duì)所有機(jī)器數(shù)據(jù)創(chuàng)建通用的實(shí)時(shí)索引”這是大多數(shù)人所認(rèn)為的大數(shù)據(jù)的核心,它常常相當(dāng)于開源項(xiàng)目 Hadoop。公司可能已被來自射頻 ID (RFID) 移動(dòng)、網(wǎng)站點(diǎn)擊和其他可能結(jié)構(gòu)化的數(shù)據(jù)的要求所淹沒。如果您知道將如何使用這些數(shù)據(jù),如何在未來查詢和訪問它,那么在處理這些數(shù)據(jù)方面進(jìn)行投資是值得的。您無需知道數(shù)據(jù)的未來潛在用途,Hadoop 提供了解決辦法。通過按原樣獲取傳入的數(shù)據(jù),大數(shù)據(jù)將數(shù)據(jù)定義步驟推遲到了執(zhí)行分析時(shí)。在不會(huì)限制數(shù)據(jù)的未來使用的情況下,Hadoop 將數(shù)據(jù)分布在許多服務(wù)器上并持續(xù)跟蹤數(shù)據(jù)位置。實(shí)時(shí)數(shù)據(jù)指的是“對(duì)實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)的自由搜索與分析”存儲(chǔ)數(shù)據(jù)只是實(shí)現(xiàn)目標(biāo)的道路的一部分,另一方面是信息需要相對(duì)容易地被找到。為此,最快的方法是提供一種快速(在實(shí)現(xiàn)方面,而不是響應(yīng)時(shí)間方面)搜索功能。因此需要找到支持對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本搜索的工具。從監(jiān)視程序上直接獲得響應(yīng),這會(huì)讓人們模糊地認(rèn)為所有信息都被正確存儲(chǔ)且可以訪問。此過程的管理步驟是為存儲(chǔ)在分布式節(jié)點(diǎn)中的數(shù)據(jù)內(nèi)容建立索引。搜索查詢,然后并行訪問分布式節(jié)點(diǎn)上的索引,以便提供更快的響應(yīng)。實(shí)時(shí)監(jiān)控指的是“監(jiān)視數(shù)據(jù)并提供實(shí)時(shí)警告”尋找一個(gè)工具來監(jiān)視大數(shù)據(jù)中的數(shù)據(jù)。一些工具能夠創(chuàng)建被持續(xù)處理的查詢,尋找要滿足的條件。我無法列出實(shí)時(shí)監(jiān)視進(jìn)入 Hadoop 中的數(shù)據(jù)的所有可能用法。假設(shè)大部分傳入數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),而且不適用于關(guān)系數(shù)據(jù)庫,那么實(shí)時(shí)監(jiān)視可能是最仔細(xì)地檢查數(shù)據(jù)元素的一種方式。
除了三個(gè)“實(shí)時(shí)之外,Daivid還列舉了其他七個(gè)要點(diǎn),可以歸納為:
1、自動(dòng)從數(shù)據(jù)中發(fā)現(xiàn)有效的信息
執(zhí)行手動(dòng)搜索和手動(dòng)報(bào)告也會(huì)影響分析效率。 數(shù)據(jù)挖掘和預(yù)測(cè)分析工具正在快速向以下方向發(fā)展:能夠?qū)⒋髷?shù)據(jù)用作分析數(shù)據(jù)來源的數(shù)據(jù)庫,或者用作持續(xù)監(jiān)視變更的數(shù)據(jù)庫。所有數(shù)據(jù)挖掘工具都遵循此目標(biāo)。某個(gè)人確定分析的用途,查看數(shù)據(jù),然后開發(fā)能提供洞察或預(yù)測(cè)的統(tǒng)計(jì)模型。然后,需要將這些統(tǒng)計(jì)模型部署在大數(shù)據(jù)環(huán)境中,以執(zhí)行持續(xù)評(píng)估。這部分操作應(yīng)該是自動(dòng)化的。
2、提供強(qiáng)大的特定報(bào)告和分析
類似于知識(shí)發(fā)現(xiàn)和自動(dòng)化的數(shù)據(jù)挖掘,分析師需要獲得訪問能力來檢索和匯總大數(shù)據(jù)云環(huán)境中的信息。擁有大數(shù)據(jù)報(bào)告工具的供應(yīng)商似乎每天都在增多?;谠频拇髷?shù)據(jù)提供商應(yīng)同時(shí)支持來自外部請(qǐng)求者的 Pig 和 HQL 語句。這樣,大數(shù)據(jù)存儲(chǔ)即可由人們使用自己選擇的工具(甚至使用還未創(chuàng)建的工具)來查詢。
3、提供快速構(gòu)建自定義儀表板和視圖的能力
像傳統(tǒng)的商業(yè)智能項(xiàng)目的演化一樣,當(dāng)人們可以查詢大數(shù)據(jù)并生成報(bào)告時(shí),他們希望自動(dòng)化該功能并創(chuàng)建一個(gè)儀表板,以便通過漂亮的圖片反復(fù)查看。除非人們編寫自己的 Hive 語句和僅使用 Hive shell,大部分工具都有使用查詢語句創(chuàng)建類似儀表板的視圖的能力。要在大數(shù)據(jù)部署中列舉許多儀表板示例,目前還為時(shí)過早。一種基于商業(yè)智能歷史的預(yù)測(cè)是,儀表板將成為已匯總的大數(shù)據(jù)的一個(gè)重要的內(nèi)部傳遞工具。而且從商業(yè)智能的歷史發(fā)展來看,擁有良好的大數(shù)據(jù)儀表板對(duì)于獲取和保持高層領(lǐng)導(dǎo)支持至關(guān)重要。
4、使用普通硬件進(jìn)行高效擴(kuò)展,以支撐任何數(shù)據(jù)量
當(dāng)使用云大數(shù)據(jù)服務(wù)時(shí),此考慮因素更沒有多少實(shí)際意義。采購(gòu)、配備和部署用于存儲(chǔ)數(shù)據(jù)的硬件是服務(wù)提供商的職責(zé)。硬件的選擇應(yīng)該不難。但是,值得欣慰的是,賬單表明大數(shù)據(jù)適合使用普通硬件。在架構(gòu)中的一些節(jié)點(diǎn)上,“高質(zhì)量的” 服務(wù)器很有用。但是,大數(shù)據(jù)架構(gòu)中絕大部分節(jié)點(diǎn)(存儲(chǔ)數(shù)據(jù)的節(jié)點(diǎn))都可放在 “更低質(zhì)量的” 硬件上。
5、提供細(xì)粒度、基于角色的安全和訪問控制
當(dāng)非結(jié)構(gòu)化數(shù)據(jù)位于關(guān)系數(shù)據(jù)中時(shí),訪問數(shù)據(jù)的復(fù)雜性可能會(huì)阻礙人們獲取數(shù)據(jù)。常見的報(bào)告工具不起作用。考慮采用大數(shù)據(jù)是簡(jiǎn)化復(fù)雜訪問的一個(gè)有效步驟。不幸的是,同樣的安全設(shè)置通常無法從現(xiàn)有關(guān)系系統(tǒng)遷移到大數(shù)據(jù)系統(tǒng)上。使用的大數(shù)據(jù)越多,良好的安全性就會(huì)變得越重要。最初,安全保護(hù)可能很少,因?yàn)闆]有人知道如何處理大數(shù)據(jù)。隨著公司開發(fā)出了更多使用大數(shù)據(jù)的分析,需要對(duì)結(jié)果(尤其是報(bào)告和儀表板)進(jìn)行保護(hù),這類似于保護(hù)來自當(dāng)前關(guān)系系統(tǒng)的報(bào)告。 開始使用基于云的大數(shù)據(jù),了解需要在何時(shí)應(yīng)用安全性。
6、支持多租戶和靈活的部署
云的使用帶來了多租戶的概念,但這顯然不是內(nèi)部大數(shù)據(jù)環(huán)境中的考慮因素。許多人對(duì)將關(guān)鍵數(shù)據(jù)放在云環(huán)境中感到不安。而重要的是,云提供了開始實(shí)現(xiàn)大數(shù)據(jù)項(xiàng)目所需的低成本和快速部署。正是由于云提供商將數(shù)據(jù)放在了具有共享的硬件資源的架構(gòu)中,成本才會(huì)顯著降低。上帝是公平的,將數(shù)據(jù)放在您的服務(wù)器上,由其他某個(gè)人來管理整個(gè)設(shè)置也未嘗不可。但是,在大數(shù)據(jù)需求是間歇性的時(shí)候,這不是一個(gè)經(jīng)濟(jì)高效的業(yè)務(wù)模型。結(jié)果會(huì)產(chǎn)生更高的開支,因?yàn)楣緦榇罅靠臻e時(shí)間付費(fèi),尤其在實(shí)現(xiàn)第一個(gè)項(xiàng)目期間,在分析師探索、考慮和了解大數(shù)據(jù)的時(shí)候。
7、集成API并通過它們進(jìn)行擴(kuò)展
大數(shù)據(jù)是為供自定義應(yīng)用程序訪問而設(shè)計(jì)的。常見的訪問方法使用 RESTful應(yīng)用編程接口 (API)。這些 API 可用于大數(shù)據(jù)環(huán)境中的每個(gè)應(yīng)用程序,用于管理性控制、存儲(chǔ)數(shù)據(jù)和報(bào)告數(shù)據(jù)。因?yàn)榇髷?shù)據(jù)的所有基礎(chǔ)組件都是開源的,所以這些 API 經(jīng)過了全面地說明并且可以廣泛使用。希望基于云的大數(shù)據(jù)提供商允許訪問目前和未來的所有具有適當(dāng)安全保護(hù)的 API。
|