2021-02-04
flink教程 好程序員大數(shù)據(jù)培訓(xùn) 大數(shù)據(jù)教程
在當(dāng)前數(shù)據(jù)量激增傳統(tǒng)的時(shí)代,不同的業(yè)務(wù)場(chǎng)景都有大量的業(yè)務(wù)數(shù)據(jù)產(chǎn)生,對(duì)于這些不斷產(chǎn)生的數(shù)據(jù)應(yīng)該如何進(jìn)行有效地處理,成為當(dāng)下大多數(shù)公司所面臨的問(wèn)題。企業(yè)需要能夠同時(shí)支持高吞吐、低延遲、高性能的流處理技術(shù)來(lái)處理日益增長(zhǎng)的數(shù)據(jù)。
相對(duì)于傳統(tǒng)的數(shù)據(jù)處理模式,流式數(shù)據(jù)處理則有著更高的處理效率和成本控制。Apache Flink就是近年來(lái)在開源社區(qū)發(fā)展不斷發(fā)展的能夠支持同時(shí)支持高吞吐、低延遲、高性能分布式處理框架。
Flink在近年來(lái)逐步被人們所熟知和使用,其主要原因不僅因?yàn)樘峁┩瑫r(shí)支持高吞吐、低延遲和exactly-once語(yǔ)義的實(shí)時(shí)計(jì)算能力,同時(shí)Flink還提供了基于流式計(jì)算引擎處理批量數(shù)據(jù)的計(jì)算能力,真正意義實(shí)現(xiàn)了批流統(tǒng)一,同時(shí)隨著Alibaba對(duì)Blink的開源,極大地增強(qiáng)了Flink對(duì)批計(jì)算領(lǐng)域的支持。
目前在全球范圍內(nèi),越來(lái)越多的公司開始使用Flink,在國(guó)內(nèi)比較出名的互聯(lián)網(wǎng)公司如Alibaba,美團(tuán),滴滴等,都在大規(guī)模的使用Flink作為企業(yè)的分布式大數(shù)據(jù)處理引擎。
到底什么Flink?今天圓圓就帶大家認(rèn)識(shí)一下:
一、什么是Flink?
Apache Flink是由Apache軟件基金會(huì)開發(fā)的開源流處理框架,其核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。
Flink以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序,F(xiàn)link的流水線運(yùn)行時(shí)系統(tǒng)可以執(zhí)行批處理和流處理程序。此外,F(xiàn)link的運(yùn)行時(shí)本身也支持迭代算法的執(zhí)行。
用圖表示就是這樣的:
上圖大致可以分為三塊內(nèi)容:左邊為數(shù)據(jù)輸入、右邊為數(shù)據(jù)輸出、中間為Flink數(shù)據(jù)處理。
Flink支持消息隊(duì)列的Events(支持實(shí)時(shí)的事件)的輸入,上游源源不斷產(chǎn)生數(shù)據(jù)放入消息隊(duì)列,F(xiàn)link不斷消費(fèi)、處理消息隊(duì)列中的數(shù)據(jù),處理完成之后數(shù)據(jù)寫入下游系統(tǒng),這個(gè)過(guò)程是不斷持續(xù)的進(jìn)行。
二、Flink都有哪些優(yōu)勢(shì)?
1.同時(shí)支持高吞吐、低延遲、高性能
Flink是一套集高吞吐,低延遲,高性能三者于一身的分布式流式數(shù)據(jù)處理框架。
非常成熟的計(jì)算框架Apache Spark也只能兼顧高吞吐和高性能特性,在Spark Streaming流式計(jì)算中無(wú)法做到低延遲保障;而Apache Storm只能支持低延遲和高性能特性,但是無(wú)法滿足高吞吐的要求。而對(duì)于滿足高吞吐,低延遲,高性能這三個(gè)目標(biāo)對(duì)分布式流式計(jì)算框架是非常重要的。
2.支持事件時(shí)間(Event Time)概念
在流式計(jì)算領(lǐng)域中,窗口計(jì)算的地位舉足輕重,但目前大多數(shù)計(jì)算框架窗口計(jì)算所采用的都是系統(tǒng)時(shí)間(Process Time),也是事件傳輸?shù)接?jì)算框架處理時(shí),系統(tǒng)主機(jī)的當(dāng)前時(shí)間,F(xiàn)link能夠支持基于事件時(shí)間(Event Time)語(yǔ)義的進(jìn)行窗口計(jì)算,就是使用事件產(chǎn)生的時(shí)間,這種時(shí)間機(jī)制使得事件即使無(wú)序到達(dá)甚至延遲到達(dá),數(shù)據(jù)流都能夠計(jì)算出精確的結(jié)果,同時(shí)保持了事件原本產(chǎn)生時(shí)的在時(shí)間維度的特點(diǎn),而不受網(wǎng)絡(luò)傳輸或者計(jì)算框架的影響。
3.支持有狀態(tài)計(jì)算
Flink在1.4版本中實(shí)現(xiàn)了狀態(tài)管理,所謂狀態(tài)就是在流式計(jì)算過(guò)程中將算子的中間結(jié)果數(shù)據(jù)的保存在內(nèi)存或者DB中,等下一個(gè)事件進(jìn)入接著從狀態(tài)中獲取中間結(jié)果進(jìn)行計(jì)算,從而無(wú)需基于全部的原始數(shù)據(jù)統(tǒng)計(jì)結(jié)果,這種做法極大地提升了系統(tǒng)的性能,同時(shí)也降低了計(jì)算過(guò)程的耗時(shí)。
對(duì)于數(shù)據(jù)量非常大且邏輯運(yùn)算非常復(fù)雜的流式運(yùn)算,基于狀態(tài)的流式計(jì)算則顯得非常使用。
4.支持高度靈活的窗口(Window)操作
在流處理應(yīng)用中,數(shù)據(jù)是連續(xù)不斷的,需要通過(guò)窗口的方式對(duì)流數(shù)據(jù)進(jìn)行一定范圍的聚合計(jì)算,例如統(tǒng)計(jì)在過(guò)去的1分鐘內(nèi)有多少用戶點(diǎn)擊了某一網(wǎng)頁(yè),在這種情況下,我們必須定義一個(gè)窗口,用來(lái)收集最近一分鐘內(nèi)的數(shù)據(jù),并對(duì)這個(gè)窗口內(nèi)的數(shù)據(jù)再進(jìn)行計(jì)算。
Flink將窗口劃分為基于Time、Count、Session,以及Data-driven等類型的窗口操作,窗口能夠用靈活的觸發(fā)條件定制化從而達(dá)到對(duì)復(fù)雜的流傳輸模式的支持,不同的窗口操作應(yīng)用能夠反饋出真實(shí)事件產(chǎn)生的情況,用戶可以定義不同的窗口觸發(fā)機(jī)制來(lái)滿足不同的需求。
5.基于輕量級(jí)分布式快照(Snapshot)實(shí)現(xiàn)的容錯(cuò)
Flink能夠分布式運(yùn)行在上千個(gè)節(jié)點(diǎn)之上,將一個(gè)大型計(jì)算的流程拆解成小的計(jì)算過(guò)程,然后將計(jì)算過(guò)程分布到單臺(tái)并行節(jié)點(diǎn)上進(jìn)行處理。
在任務(wù)執(zhí)行過(guò)程中,能夠自動(dòng)的發(fā)現(xiàn)事件處理過(guò)程中的錯(cuò)誤而導(dǎo)致數(shù)據(jù)不一致的問(wèn)題,常見(jiàn)的錯(cuò)誤類型例如:節(jié)點(diǎn)宕機(jī),或者網(wǎng)路傳輸問(wèn)題,或是由于用戶因?yàn)樯?jí)或修復(fù)問(wèn)題而導(dǎo)致計(jì)算服務(wù)重啟等。
在這些情況下,通過(guò)基于分布式快照技術(shù)的Checkpoints,將執(zhí)行過(guò)程中的任務(wù)信息進(jìn)行持久化存儲(chǔ),一旦任務(wù)出現(xiàn)異常宕機(jī),F(xiàn)link能夠進(jìn)行任務(wù)的自動(dòng)恢復(fù),從而確保數(shù)據(jù)在處理過(guò)程中的一致性。
6.基于JVM實(shí)現(xiàn)獨(dú)立的內(nèi)存管理
內(nèi)存管理是每套計(jì)算框架需要重點(diǎn)考慮的領(lǐng)域,尤其對(duì)于計(jì)算量比較大的計(jì)算場(chǎng)景,數(shù)據(jù)在內(nèi)存中該如何進(jìn)行管理,針對(duì)內(nèi)存管理這塊,F(xiàn)link實(shí)現(xiàn)了自身管理內(nèi)存的機(jī)制,盡可能減少Full GC對(duì)系統(tǒng)的影響。
另外通過(guò)自定義序列化/反序列化方法將所有的對(duì)象轉(zhuǎn)換成二進(jìn)制在內(nèi)存中存儲(chǔ),降低數(shù)據(jù)存儲(chǔ)的大小,更加有效的對(duì)內(nèi)存空間進(jìn)行利用,降低GC所帶來(lái)的性能下降或者任務(wù)停止的風(fēng)險(xiǎn),同時(shí)提升了分布式處理過(guò)數(shù)據(jù)傳輸?shù)男阅堋?/p>
因此Flink較其他分布式處理的框架則會(huì)顯得更加穩(wěn)定,不會(huì)因?yàn)镴VM GC等問(wèn)題而導(dǎo)致整個(gè)應(yīng)用宕機(jī)的問(wèn)題。
正是由于Flink的這些優(yōu)勢(shì),也吸引了眾多的企業(yè)參與研發(fā)和使用Flink這項(xiàng)技術(shù)。
因此,大家也都把Flink稱為:下一代大數(shù)據(jù)處理框架的標(biāo)準(zhǔn)。
既然Flink在大數(shù)據(jù)處理中那么重要,那么該如何入門學(xué)習(xí)呢?
圓圓今天就為大家?guī)?lái)了《好程序員2020全套Flink教程(共400集)》,教程中除了視頻之外,還配有全套源碼+筆記,讓大家學(xué)習(xí)無(wú)憂!
三、好程序員2020年Flink教程—課程介紹
1.課程內(nèi)容
本課程涵蓋Flink概念、Flink介紹、初識(shí)Flink代碼開發(fā)、Flink集群部署&運(yùn)行時(shí)架構(gòu)、Flink流處理API、Flink Connector、Flink高級(jí)特性、Flink window和time操作、Flink Tale API & SQL、Flink CEP等知識(shí)點(diǎn)。該套課程深度剖析了時(shí)下熱門的流處理框架之Flink ,你值得擁有。
2.通過(guò)本課程你可以學(xué)到哪些知識(shí)?
學(xué)完本課程,你可以完全掌握Flink批處理和流處理、掌握時(shí)間和窗口計(jì)算、掌握Flink常用的Connector、掌握延遲數(shù)據(jù)處理之WaterMark水位線機(jī)制、掌握Flink狀態(tài)管理和容錯(cuò)機(jī)制、掌握Flink的部署模式和高可用配置等。
3.適合哪些人學(xué)習(xí)?
本套課程適合有一定大數(shù)據(jù)基礎(chǔ)的同學(xué)學(xué)習(xí)。
4.好程序員2021年Flink學(xué)習(xí)路線
課程目錄
第1章-Flink介紹、初識(shí)Flink代碼開發(fā)
1.01 講師個(gè)人介紹
1.02 Flink課程內(nèi)容概述
1.03 Flink前世今生
1.04 Flink定義
1.05 Flink在全球的熱度
1.06 Flink在國(guó)內(nèi)企業(yè)中的應(yīng)用
1.07 為什么選擇Flink
1.08 哪些行業(yè)需要處理流式數(shù)據(jù)
1.09 傳統(tǒng)數(shù)據(jù)處理結(jié)構(gòu)之事務(wù)處理
1.10 傳統(tǒng)數(shù)據(jù)處理結(jié)構(gòu)之分析處理
1.11 Flink中有狀態(tài)的流式處理
1.12 流處理演變之Lamda架構(gòu)
1.13 流處理技術(shù)的演變
1.14 Flink的主要特點(diǎn)之事件驅(qū)動(dòng)型應(yīng)用
1.15 Flink的主要特點(diǎn)之基于流的世界觀
1.16 Flink的主要特點(diǎn)之分層API
1.17 Flink的其他特點(diǎn)
1.18 Flink vs Spark Streaming特點(diǎn)概述
1.19 Flink & Spark Streaming之?dāng)?shù)據(jù)模型以及運(yùn)行時(shí)架構(gòu)對(duì)比說(shuō)明
1.20 Flink的應(yīng)用場(chǎng)景之?dāng)?shù)據(jù)分析應(yīng)用
1.21 Flink的應(yīng)用場(chǎng)景之?dāng)?shù)據(jù)管道應(yīng)用
1.22 Flink之前版本(<1.9.0)的架構(gòu)圖
1.23 Flink當(dāng)前版本(≥1.9.0)的架構(gòu)圖
1.24 Flink中的流處理與批處理
1.25 Flink項(xiàng)目相關(guān)的maven依賴詳解
1.26 初識(shí)Flink代碼開發(fā)之pom依賴
1.27 有界流開發(fā)業(yè)務(wù)分解
1.28 有界流開發(fā)之代碼輪廓搭建
1.29 有界流開發(fā)詳解以及效果演示
1.30 有界流開發(fā)總結(jié)
第2章-初識(shí)Flink代碼開發(fā)、Flink集群部署以及運(yùn)行時(shí)架構(gòu)
2.31 上堂課知識(shí)點(diǎn)回顧
2.32 WordCount案例之源在本地目的地在hdfs前期準(zhǔn)備
2.33 WordCount案例之源在本地目的地在hdfs核心代碼書寫以及效果演示
2.34 WordCount案例之源在本地目的地在hdfs總結(jié)
2.35 WordCount案例之源在hdfs目的地在本地核心代碼書寫以及效果演示
2.36 WordCount案例之源在hdfs目的地在本地總結(jié)
2.37 WordCount案例之源在hdfs目的地在hdfs核心代碼書寫以及效果演示
2.38 WordCount案例之源在hdfs目的地在hdfs總結(jié)
2.39 WordCount案例之代碼優(yōu)化以及效果演示
2.40 WordCount案例之代碼優(yōu)化總結(jié)
2.41 無(wú)界流之WordCount案例說(shuō)明
2.42 無(wú)界流之WordCount案例源碼以及效果演示
2.43 無(wú)界流之WordCount案例總結(jié)
2.44 無(wú)界流之WordCount案例優(yōu)化以及效果演示
2.45 無(wú)界流之WordCount案例總結(jié)
2.46 Flink應(yīng)用部署模式介紹
2.47 Flink應(yīng)用部署之local模式實(shí)操
2.48 Flink應(yīng)用部署之local模式實(shí)操Ⅱ
2.49 Flink應(yīng)用部署之local模式實(shí)操Ⅲ
2.50 Flink應(yīng)用部署local模式之命令行方式總結(jié)
2.51 Flink應(yīng)用部署local模式之可視化部署方式說(shuō)明
2.52 Flink應(yīng)用部署local模式之可視化部署方式演示
2.53 Flink應(yīng)用部署local模式之可視化部署方式總結(jié)
2.54 Flink應(yīng)用部署之standalone方式說(shuō)明
2.55 Flink分布式集群搭建實(shí)操
2.56 Flink分布式集群搭建總結(jié)
2.57 flink應(yīng)用部署到Flink分布式集群之命令行方式實(shí)操
2.58 flink應(yīng)用部署到Flink分布式集群之命令行方式總結(jié)
2.59 flink應(yīng)用部署到Flink分布式集群之可視化方式演示
2.60 flink應(yīng)用部署到Flink分布式集群之可視化方式總結(jié)
第3章-Flink集群部署以及運(yùn)行時(shí)架構(gòu)
3.61 上堂課知識(shí)點(diǎn)回顧
3.62 Standalone模式任務(wù)調(diào)度原理
3.63 Flink Standalone HA說(shuō)明
3.64 Flink Standalone HA實(shí)操
3.65 Flink Standalone HA驗(yàn)證
3.66 Flink Standalone HA總結(jié)1
3.67 Flink Standalone HA總結(jié)2
3.68 Flink應(yīng)用部署模式之Flink On Yarn介紹
3.69 Flink On Yarn兩種具體實(shí)現(xiàn)方式之session、per job詳解
3.70 session方式實(shí)操
3.71 上午知識(shí)點(diǎn)回顧
3.72 將Flink應(yīng)用部署到session中實(shí)操
3.73 將Flink應(yīng)用部署到session中總結(jié)
3.74 session部署方式集群的停止
3.75 Per Job方式介紹
3.76 Per Job方式實(shí)操
3.77 Per Job方式總結(jié)
3.78 Flink On Yarn內(nèi)部實(shí)現(xiàn)
3.79 Flink On Yarn內(nèi)部實(shí)現(xiàn)之類比說(shuō)明
3.80 JobManager進(jìn)程的HA介紹
3.81 JobManager進(jìn)程的HA介紹
3.82 JobManager進(jìn)程的HA實(shí)操1
3.83 JobManager進(jìn)程的HA實(shí)操2
3.84 JobManager進(jìn)程的HA最終效果演示
第4章-Flink運(yùn)行時(shí)架構(gòu)以及Flink流處理API
4.085 上堂課知識(shí)點(diǎn)回顧
4.086 Flink On Yarn模式之運(yùn)行時(shí)組件
4.087 Flink運(yùn)行時(shí)組件之作業(yè)管理器JobManager
4.088 Flink運(yùn)行時(shí)的組件之任務(wù)管理器TaskManager
4.089 Flink運(yùn)行時(shí)的組件之資源管理器ResourceManager
4.090 Flink運(yùn)行時(shí)的組件之分發(fā)器Dispatcher
4.091 從高層級(jí)的視角詳解任務(wù)提交流程
4.092 Flink On Yarn任務(wù)提交流程總結(jié)
4.093 TaskManager和Slots
4.094 TaskManager和Slots深度剖析
4.095 Flink應(yīng)用并行度的設(shè)置
4.096 程序與數(shù)據(jù)流
4.097 程序與數(shù)據(jù)流詳解
4.098 DataFlow中的Oprator與程序中的Transformation關(guān)系實(shí)操
4.099 ataFlow中的Oprator與程序中的Transformation關(guān)系總結(jié)
4.100 堂課知識(shí)點(diǎn)回顧
4.101 執(zhí)行圖
4.102 執(zhí)行圖四層詳解
4.103 并行度
4.104 并行度圖解
4.105 Stream在算子之間傳輸數(shù)據(jù)的形式
4.106 任務(wù)鏈Oprator Chain
4.107 任務(wù)鏈Oprator Chain實(shí)操以及總結(jié)
4.108 任務(wù)鏈生成圖解
4.109 使用無(wú)界流API進(jìn)行離線計(jì)算實(shí)操
4.110 使用無(wú)界流API進(jìn)行離線計(jì)算總結(jié)
4.111 Flink 流處理API之Enviroment
4.112 DataStream API概述
4.113 DataSet API概述
4.114 DataStream Source API之從集合中讀取數(shù)據(jù)實(shí)操
4.115 DataStream Source API之從集合中讀取數(shù)據(jù)總結(jié)
第5章-Flink流處理API
5.116 上堂課知識(shí)點(diǎn)回顧1
5.117 上堂課知識(shí)點(diǎn)回顧2
5.118 Source案例之從文件讀取數(shù)據(jù)實(shí)操
5.119 Source案例之從文件讀取數(shù)據(jù)總結(jié)
5.120 以kafka消息隊(duì)列中的數(shù)據(jù)作為來(lái)源介紹
5.121 以kafka消息隊(duì)列中的數(shù)據(jù)作為來(lái)源案例之前期準(zhǔn)備
5.122 以kafka消息隊(duì)列中的數(shù)據(jù)作為Source案例實(shí)操
5.123 以kafka消息隊(duì)列中的數(shù)據(jù)作為Source案例效果演示以及總結(jié)
5.124 自定義Source介紹
5.125 自定義Source實(shí)操之代碼輪廓搭建
5.126 SourceFunction自定義子類核心源碼書寫以及效果演示
5.127 自定義Source案例總結(jié)
5.128 DataStream Transformation API之map、flatMap、filter和keyBy介紹
......
第18章-Window和Time操作、CEP
18.379 上堂課知識(shí)點(diǎn)回顧Ⅰ
18.380 上堂課知識(shí)點(diǎn)回顧Ⅱ
18.381 Watermark總結(jié)
18.382 Flink Table API 和 Flink SQL介紹
18.383 Flink Table API使用方式簡(jiǎn)介
18.384 Flink Table API簡(jiǎn)單案例實(shí)操
18.385 Flink Table API簡(jiǎn)單案例效果演示以及總結(jié)
18.386 給Flink Table API中相應(yīng)的字段取別名
18.387 使用鏈?zhǔn)骄幊谭绞綄?duì)Flink Table API編程方式進(jìn)行優(yōu)化
18.388 Flink Table API的窗口操作案例說(shuō)明
18.389 Flink Table API的窗口操作案例實(shí)操
18.390 Flink Table API窗口操作效果演示以及總結(jié)
18.391 Flink Table API中關(guān)于groupBy和時(shí)間窗口說(shuō)明
18.392 Flink Table API之toAppendStream和toRetractStream詳解之案例實(shí)操
18.393 Flink Table API之toAppendStream和toRetractStream總結(jié)
18.394 Flink SQL特點(diǎn)闡述以及使用方式說(shuō)明
18.395 Flink SQL使用方式案例實(shí)操以及效果演示
18.396 Flink SQL使用方式案例總結(jié)
18.397 使用Flink SQL API進(jìn)行窗口操作案例實(shí)操以及效果演示
18.398 使用Flink SQL API進(jìn)行窗口操作案例總結(jié)
18.399 使用Flink SQL API實(shí)時(shí)統(tǒng)計(jì)單詞出現(xiàn)的次數(shù)案例實(shí)操以及總結(jié)
18.400 Flink Table API 和Flink SQL總結(jié)
18.401 Flink CEP介紹
18.402 非確定有限自動(dòng)機(jī)(NFA)
18.403 Flink CEP Library介紹
18.404 Flink CEP案例介紹
18.405 Flink CEP案例之Event類設(shè)計(jì)
18.406 Flink CEP案例實(shí)操Ⅰ
18.407 Flink CEP案例實(shí)操Ⅱ之定制CEP Pattern
18.408 Flink CEP案例實(shí)操Ⅲ
18.409 Flink CEP案例最終效果演示
18.410 Flink CEP案例總結(jié)
18.411 Flink CEP案例優(yōu)化
18.412 Flink CEP個(gè)體模式的條件介紹
18.413 模式序列和模式檢測(cè)
18.414 匹配事件的提取和超時(shí)事件的提取說(shuō)明
18.415 超時(shí)事件處理案例實(shí)操Ⅰ
18.416 超時(shí)事件處理案例實(shí)操Ⅱ
18.417 超時(shí)事件處理案例總結(jié)
五、教程免費(fèi)領(lǐng)取方式
關(guān)注公眾號(hào):好程序員,回復(fù)“flink”,即可免費(fèi)獲得《好程序員2021年Flink全套教程(400集)》,想要的小伙伴抓緊時(shí)間!
掃碼回復(fù)“flink”
開班時(shí)間:2021-04-12(深圳)
開班盛況開班時(shí)間:2021-05-17(北京)
開班盛況開班時(shí)間:2021-03-22(杭州)
開班盛況開班時(shí)間:2021-04-26(北京)
開班盛況開班時(shí)間:2021-05-10(北京)
開班盛況開班時(shí)間:2021-02-22(北京)
開班盛況開班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開班時(shí)間:2020-09-21(上海)
開班盛況開班時(shí)間:2021-07-12(北京)
預(yù)約報(bào)名開班時(shí)間:2019-07-22(北京)
開班盛況Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號(hào)-5 京公網(wǎng)安備 11010802035720號(hào)