183.17.231.* 2020-05-28 10:48:31 |
隨著互聯(lián)網(wǎng)的不斷發(fā)展,越來越多的用戶和企業(yè)都開始接觸和學(xué)習(xí)大數(shù)據(jù)技術(shù),下面我們就一起來了解一下,大數(shù)據(jù)的特性都有哪些,希望通過對本文的閱讀,大家在學(xué)習(xí)大數(shù)據(jù)技術(shù)的時候有更精確的了解。
大數(shù)據(jù)的特性都有哪些
一、體量(Volume)
大數(shù)據(jù)由大量數(shù)據(jù)組成,從幾個TB到幾個ZB。這些數(shù)據(jù)可能會分布在許多地方,通常是在一些連入因特網(wǎng)的計算網(wǎng)絡(luò)中。一般來說,凡是滿足大數(shù)據(jù)的幾個V的條件的數(shù)據(jù)都會因?yàn)樘蠖鵁o法被單獨(dú)的計算機(jī)處理。單單這一個問題就需要一種不同的數(shù)據(jù)處理思路,這也使得并行計算技術(shù)(例如MapReduce)得以迅速崛起。
二、高速(Velocity)
大數(shù)據(jù)是在運(yùn)動著的,通常處于很高的傳輸速度之下。它經(jīng)常被認(rèn)為是數(shù)據(jù)流,而數(shù)據(jù)流通常是很難被歸檔的(考慮到有限的網(wǎng)絡(luò)存儲空間,單單是高速就已經(jīng)是一個巨大的問題)。這就是為什么只能收集到數(shù)據(jù)其中的某些部分。如果我們有能力收集數(shù)據(jù)的全部,長時間存儲大量數(shù)據(jù)也會顯得非常昂貴,所以周期性的收集數(shù)據(jù)遺棄一部分?jǐn)?shù)據(jù)以節(jié)省空間,僅保留數(shù)據(jù)摘要(如平均值和方差)。這個問題在未來會顯得更為嚴(yán)重,因?yàn)樵絹碓蕉嗟臄?shù)據(jù)正以越來越快的速度所產(chǎn)生。
三、多樣(Variety)
在過去,數(shù)據(jù)或多或少是同構(gòu)的,這種特點(diǎn)也使得它更易于管理。這種情況并不出現(xiàn)在大數(shù)據(jù)中,由于數(shù)據(jù)的來源各異,因此形式各異。這體現(xiàn)為各種不同的數(shù)據(jù)結(jié)構(gòu)類型,半結(jié)構(gòu)化以及完全非結(jié)構(gòu)化的數(shù)據(jù)類型。結(jié)構(gòu)化數(shù)據(jù)多被發(fā)現(xiàn)在傳統(tǒng)數(shù)據(jù)庫中,數(shù)據(jù)的類型被預(yù)定義在定長的列字段中。半結(jié)構(gòu)化數(shù)據(jù)有一些結(jié)構(gòu)特征,但不總是保持一致(舉例來說,看一看JSON文件),使得這種類型難以處理。更富于挑戰(zhàn)的是非結(jié)構(gòu)化數(shù)據(jù)(例如純文本文件)毫無結(jié)構(gòu)特征可言。在大數(shù)據(jù)中,更常見的是半結(jié)構(gòu)化數(shù)據(jù),而且這些數(shù)據(jù)源的數(shù)據(jù)格式還各不相同。
在過去的幾年里,半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)成為了大數(shù)據(jù)的主體數(shù)據(jù)類型。
四、準(zhǔn)確(Veracity)
這是一個在討論大數(shù)據(jù)時時常被忽略的一個屬性,部分原因是這個屬性相對來說比較新,盡管它與其他的屬性同樣重要。這是一個與數(shù)據(jù)是否可靠相關(guān)的屬性,也就是那些在數(shù)據(jù)科學(xué)流程中會被用于決策的數(shù)據(jù)。
五、精確性與信噪比(signal-to-noiseratio)
在大數(shù)據(jù)中發(fā)現(xiàn)哪些數(shù)據(jù)對商業(yè)是真正**的,這在信息理論中是個十分重要的概念。由于并不是所有的數(shù)據(jù)源都具有相等的可靠性,在這個過程中,大數(shù)據(jù)的精確性會趨于變化。如何增加可用數(shù)據(jù)的精確性是大數(shù)據(jù)的主要挑戰(zhàn)。注意,即使有些數(shù)據(jù)擁有這4種屬性中的一種或多種,也不能被歸類為大數(shù)據(jù)。大數(shù)據(jù)擁有以上全部4種特性。大數(shù)據(jù)是一個重要課題,因?yàn)樗⒉蝗菀滋幚,即使是對于一臺超級計算機(jī),也很難獨(dú)自**地展開分析。
大數(shù)據(jù)分析有哪些特點(diǎn).中琛魔方大數(shù)據(jù)分析平臺(www.zcmorefun.com)表示數(shù)據(jù)價值密度往往是衡量數(shù)據(jù)價值的重要基礎(chǔ),相對于傳統(tǒng)的信息系統(tǒng)來說,大數(shù)據(jù)當(dāng)中的數(shù)據(jù)價值密度是比較低的,這就需要有更快速和便捷的方式,來完成數(shù)據(jù)的價值化提取過程,而這也正是當(dāng)前大數(shù)據(jù)平臺所關(guān)注的核心能力之一。 |