大數據安全Hadoop數據倉庫具備以下基本特性:
查詢語言:由于SQL被廣泛地應用在數據倉庫中,因此,專門針對Hive的特性設計了類SQL的查詢語言HQL。熟悉SQL開發的開發者可以很方便地使用Hive進行開發。
數據存儲位置:Hive是建立在Hadoop之上的,所有Hive的數據都是存儲在HDFS中的。
數據格式:Hive中沒有定義專門的數據格式,數據格式可以由用戶指定,用戶定義數據格式需要指定三個屬性:列分隔符、行分隔符以及讀取文件數據的方法。由于在加載數據的過程中,不需要從用戶數據格式到Hive定義的數據格式的轉換,因此,Hive在加載的過程中不會對數據本身進行任何修改,而只是將數據內容復制或者移動到相應的HDFS目錄中。
執行:Hive中大多數查詢的執行是通過Hadoop提供的MapReduce來實現的。
執行延遲:之前提到,Hive在查詢數據的時候,由于索引功能還不夠完善,需要掃描整個表,因此延遲較高。另外一個導致Hive執行延遲高的因素是MapReduce框架。由于MapReduce本身具有較高的延遲,因此在利用MapReduce執行Hive查詢時,也會有較高的延遲。
可擴展性:Hive是建立在Hadoop之上的,因此Hive的可擴展性是和Hadoop的可擴展性一致的。
數據規模:由于Hive建立在集群上并可以利用MapReduce進行并行計算,因此可以支持很大規模的數據。
推薦文章