wlsherica
Spark 2.0 編程指南繁體中文版

Updated 2 years ago

Spark 2.0 編程指南繁體中文版

============================= 如果你是個讀者,這邊有更容易閱讀的Gitbook版本

貢獻方式

請有意願加入的同好參考 (https://github.com/TaiwanSparkUserGroup/spark-programming-guide-zh-tw/blob/master/CONTRIBUTING.rst)

大綱

  • 簡介

  • 快速上手

    • Spark Shell
    • 獨立應用程序
    • 開始翻滾吧!
  • 編程指南

    • 引入 Spark
    • 初始化 Spark
    • Spark RDDs

      • 並行集合
      • 外部資料集
      • RDD 的操作

        • 基本功
        • 傳遞函數到 Spark
        • 了解 closures
        • 使用鍵值對
        • 轉換
        • 行動
        • Shuffle操作
      • RDD持續化

    • 共享變數

    • 部署集群
    • 從Java/Scala發布Spark工作
    • 單元測試
    • 從這裡開始
  • Spark Streaming

    • 一個快速的例子
    • 基本概念

      • 連接
      • 初始化StreamingContext
      • 離散化串流
      • 输入DStreams
      • DStream中的轉換
      • DStream的輸出操作
      • Accumulators與Broadcast變數
      • DataFrame與SQL操作
      • MLlib操作
      • 暫存或持續化
      • Checkpointing
      • 部署應用程序
      • 監控應用程序
    • 性能優化

      • 減少處理時間
      • 設置正確的的批次大小
      • 記憶體優化
    • 容錯語意

    • 從這裡開始
  • Spark SQL, DataFrames 與 Datasets

    • 總覽

      • SQL
      • Datasets與DataFreame
    • 開始

    • 資料來源

      • 常見載入與儲存函數
      • Parquet文件

      • JSON資料集

      • Hive資料表
      • JDBC與其他資料庫
      • 疑難雜症
    • 性能優化

    • 分散式SQL引擎
  • MLlib

    • 聲明
    • 相依性
    • 移轉指引
  • GraphX編程指南

    • 開始
    • 屬性圖
    • 圖操作
    • Pregel API
    • 圖建立者
    • 頂點和邊RDDs
    • 圖算法
    • 範例
  • SparkR (R on Spark)

    • 總覽
    • SparkDataFrame
    • Machine Learning
    • R函數名稱的衝突

Copyright

本文翻譯自

  1. Spark 官方手冊

本文延伸自

  1. Spark 編程指南繁體中文版