<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    SparkSQL 的特點有哪些


    發現錯別字 10個月前 提問
    回答
    1
    瀏覽
    482
    請勿發布不友善或者負能量的內容。與人為善,比聰明更重要!
    回答數量: 1
    風險管理(專業級)RM/PL CICSA

    SparkSQL的特點有以下這些:

    • SparkSQL可以讀取多種的結構化的數據源,如Json、Hive表、Parquet、ORC以及通過JDBC連接其他的關系數據庫。

    • 訪問方式即可以通過應用程序中通過SQLContext、HiveContext來連接各種數據源或者已存的Hive表,也可以將RDD轉換成Dataframe來進行DataFrame接口的訪問,也可以通過DSL的方式訪問;同樣也可以啟動一個Spark的JDBC服務器,提供JDBC的訪問方式。

    • 可以提供表的Cache機制,這樣針對一個表的多次處理的時候,可以非常高效,節省了讀取部分的時間,也是內存計算的亮點。

    • Streaming中也可以將其中的RDD轉換成DataFrame,進行SQL處理,這里體現了一站式方案的優點。

    • Hive的Metastore支持多版本,從0.12.0到最新的1.2.1版本,通過設置spark.sql.hive.metastore.version來指定。

    • 其中SparkSQL的API使用方式支持Scala、Java、Python和R這四種不同的方式,且在這個情況下,即使使用Python、R與Scala、Java此類JVM原生的方式,性能也會比較接近,因為都是DataFrame內部的catalyst統一優化。

    • 同時在最新版本1.5.x中的鎢絲計劃(ProjectTungsten)大幅提升了SparkSQL的性能,從最新版本的默認打開來看,這也意味著該功能的成熟,如之前版本的Codegen能夠帶來很大的性能提升,但是亦存在穩定性問題。而且SparkSQL也是Spark社區后續重點發展的一個方向。

    回答所涉及的環境:聯想天逸510S、Windows 10。

    10個月前 / 評論
    亚洲 欧美 自拍 唯美 另类