无码99久热只有精品视频在线 - 亚国产亚洲亚洲精品视频 - 99精品亚洲一区二区三区 - 精品精品国产理论在线

4006-360-163(咨詢電話)18354166215(7X24值班)

動(dòng)態(tài)推薦

當(dāng)前位置: >首頁(yè) >發(fā)展動(dòng)態(tài) >動(dòng)態(tài)推薦

從零到一,臻于至善|網(wǎng)易郵箱基于StarRocks 開(kāi)發(fā)大數(shù)據(jù)平臺(tái)的實(shí)踐

作者:網(wǎng)易郵箱 黃賢康?,F(xiàn)任職網(wǎng)易郵件事業(yè)部資深數(shù)據(jù)開(kāi)發(fā)工程師,作為主要開(kāi)發(fā)人員參與網(wǎng)易郵箱大數(shù)據(jù)平臺(tái)的建立、優(yōu)化、重構(gòu)等工作,并取得相當(dāng)?shù)某尚?。他長(zhǎng)期從事服務(wù)端應(yīng)用及大數(shù)據(jù)領(lǐng)域的架構(gòu)研發(fā)工作,對(duì)相關(guān)領(lǐng)域的底層架構(gòu)、開(kāi)發(fā)流程及技術(shù)細(xì)節(jié)等都有一定積累。(本文為作者在 StarRocks Summit Asia 2022 上的分享)從零到一,臻于至善,反映了網(wǎng)易人對(duì)于數(shù)據(jù)追求的不斷進(jìn)步,也反映了 StarRocks 在技術(shù)方面盡善盡美的追求。本次分享給大家介紹網(wǎng)易郵箱基于 StarRocks 開(kāi)發(fā)大數(shù)據(jù)平臺(tái)的實(shí)踐心得。

#01

網(wǎng)易郵箱業(yè)務(wù)背景 1網(wǎng)易郵箱發(fā)展史

網(wǎng)易郵箱作為國(guó)內(nèi)互聯(lián)網(wǎng)行業(yè)一個(gè)活化石級(jí)別的業(yè)務(wù),從誕生到現(xiàn)在已經(jīng)進(jìn)入第二十五個(gè)年頭:

  • 1997年:第一個(gè)國(guó)內(nèi)互聯(lián)網(wǎng)電子郵箱系統(tǒng)。
  • 2000年:VIP收費(fèi)郵箱和免費(fèi)郵箱齊頭并進(jìn)。
  • 2008年:桌面端的閃電郵面世。
  • 2009年:企業(yè)郵箱上線。
  • 2010年:擁抱移動(dòng)互聯(lián)網(wǎng)浪潮,手機(jī)號(hào)碼郵箱以及郵箱大師 APP 上線。
  • 2016年:從網(wǎng)易郵箱孵化的網(wǎng)易嚴(yán)選電商平臺(tái)上線。

     

網(wǎng)易郵箱見(jiàn)證了國(guó)內(nèi)互聯(lián)網(wǎng)行業(yè)從誕生到發(fā)展以及壯大的整個(gè)過(guò)程,相應(yīng)的數(shù)據(jù)處理架構(gòu)也發(fā)生了一系列變化:

  • 2005年至2017年:基于 Hadoop 生態(tài)構(gòu)建的大數(shù)據(jù)架構(gòu)。

  • 2018年到2020年:基于 Flink + ClickHouse 自研的批流合一的大數(shù)據(jù)平臺(tái)。

  • 2021年至今:基于StarRocks構(gòu)建的極速統(tǒng)一的大數(shù)據(jù)平臺(tái)。

     

 

2箱數(shù)據(jù)應(yīng)用場(chǎng)景業(yè)務(wù)日志數(shù)據(jù)存儲(chǔ):所有業(yè)務(wù)日志都要求永久冷備存儲(chǔ),同時(shí)在一些關(guān)鍵的業(yè)務(wù)上面,要求至少有半年以上的熱點(diǎn)數(shù)據(jù)的熱備存儲(chǔ)。不同的數(shù)據(jù)分別存儲(chǔ),離線數(shù)據(jù)存儲(chǔ)到 HDFS ,實(shí)時(shí)數(shù)據(jù)存儲(chǔ)到 ClickHouse。業(yè)務(wù)可用性保障:網(wǎng)易郵箱作為一個(gè)通信性質(zhì)的業(yè)務(wù),它的核心收發(fā)信鏈路以及用戶登錄驗(yàn)證機(jī)制對(duì)可用性要求非常高。核心指標(biāo)統(tǒng)計(jì):包括用戶的活躍度,用戶新增/流失/挽回等轉(zhuǎn)化率,APP的安裝率, Webmail 的登錄等數(shù)據(jù),會(huì)生成數(shù)據(jù)報(bào)表進(jìn)行數(shù)據(jù)展現(xiàn)。運(yùn)營(yíng)策略指引:包括直郵、推送等的轉(zhuǎn)化率的分析,以及引流用戶的留存率等方面的一些數(shù)據(jù)統(tǒng)計(jì)。反垃圾與風(fēng)控:郵箱需要具備反垃圾的能力以及風(fēng)控的能力,會(huì)對(duì)用戶的敏感行為做出判斷,通過(guò)數(shù)據(jù)的反饋來(lái)進(jìn)行捕捉,同時(shí)制定反垃圾策略。業(yè)務(wù)產(chǎn)品優(yōu)化:郵箱的數(shù)據(jù)產(chǎn)品會(huì)支持一些業(yè)務(wù)的優(yōu)化,包括對(duì)一些新業(yè)務(wù)的用戶使用數(shù)據(jù)的采集分析,以及諸如用戶支付和訂閱情況的分析等。3數(shù)據(jù)規(guī)模與業(yè)務(wù)現(xiàn)狀服務(wù)器方面。包括一些實(shí)體機(jī)和云上的一些虛機(jī),總的算力超過(guò)1萬(wàn)核,服務(wù)器分布在華北和華東等各個(gè) IDC 機(jī)房。數(shù)據(jù)比較分散,匯總處理的難度較高。用戶量方面。網(wǎng)易郵箱存量的注冊(cè)用戶達(dá)到10億級(jí)別,同時(shí)每天還在新增巨大的新注冊(cè)用戶量。存量和增量巨大,風(fēng)控的壓力較大。數(shù)據(jù)量方面。冷備的歷史壓縮數(shù)據(jù)已經(jīng)達(dá)到PB級(jí)別,同時(shí)每天新增的數(shù)據(jù)量也很大,內(nèi)外網(wǎng)的數(shù)據(jù)流量峰值達(dá)到每秒上G的級(jí)別。資源吃緊,維護(hù)成本高。業(yè)務(wù)線方面。核心的收發(fā)信數(shù)據(jù)鏈路和登錄服務(wù)的可用性要求都是 SLA 達(dá)到 99.99%,同時(shí)每天都有超過(guò)1000個(gè)的離線數(shù)據(jù)處理任務(wù),實(shí)時(shí)數(shù)據(jù)處理要求7×24小時(shí)無(wú)間斷運(yùn)行,下游支撐超過(guò)1萬(wàn)個(gè)數(shù)據(jù)服務(wù)。業(yè)務(wù)模型復(fù)雜,服務(wù)精度、可用性要求高。

 

#02

OLAP 引擎演進(jìn)與選型 1OLAP 平臺(tái)演進(jìn)網(wǎng)易郵箱作為國(guó)內(nèi)互聯(lián)網(wǎng)行業(yè)里面最早接觸大數(shù)據(jù)領(lǐng)域的互聯(lián)網(wǎng)廠商之一,從05年就開(kāi)始接觸 Hadoop 架構(gòu)作為大數(shù)據(jù)處理平臺(tái)。當(dāng)時(shí)主要功能是數(shù)據(jù)的存儲(chǔ)和采集,使用 MapReduce 進(jìn)行數(shù)據(jù)處理,使用 Hive 和 HBase 進(jìn)行離線和實(shí)時(shí)數(shù)據(jù)查詢?nèi)蝿?wù),數(shù)據(jù)輸出使用 Oracle 的 BI 系統(tǒng)實(shí)現(xiàn)。隨著技術(shù)的不斷發(fā)展,到18年逐漸過(guò)渡到基于 Flink + Kafka + ClickHouse 以及網(wǎng)易杭研自研的猛犸平臺(tái)組建的一個(gè)批流合一的數(shù)據(jù)平臺(tái)。ClickHouse 作為 ODS 基礎(chǔ)數(shù)倉(cāng),主要用來(lái)支持實(shí)時(shí)性的查詢?nèi)蝿?wù),猛犸平臺(tái)主要負(fù)責(zé)任務(wù)的編排和調(diào)度,自研的數(shù)據(jù)報(bào)表系統(tǒng)進(jìn)行數(shù)據(jù)的呈現(xiàn)。隨著業(yè)務(wù)深入的發(fā)展,現(xiàn)有的架構(gòu)在一些特殊的場(chǎng)合或需求下,有些力不從心。包括一些跨表的或者復(fù)雜度較高的查詢,以及一些高并發(fā)的場(chǎng)景,還有一些大數(shù)據(jù)的熱點(diǎn)更新的場(chǎng)景,現(xiàn)有的架構(gòu)都沒(méi)有辦法做到滿意。網(wǎng)易郵箱從21年開(kāi)始引入了 StarRocks,作為下一代數(shù)據(jù)引擎架構(gòu),解決高并發(fā)查詢輸出,復(fù)雜事務(wù)跨表查詢,數(shù)據(jù)熱更新支持等問(wèn)題。2為什么引入 StarRocks網(wǎng)易郵箱為什么會(huì)引入 StarRocks,這要從業(yè)務(wù)痛點(diǎn)說(shuō)起。首先,從資源方面來(lái)說(shuō),網(wǎng)易郵箱因?yàn)橛脩袅亢蛿?shù)據(jù)量都非常大,資源顯得有些不足,造成 Kafka 和 ClickHouse,以及運(yùn)算機(jī)器本身等,經(jīng)常會(huì)出現(xiàn)一些因?yàn)閴毫^(guò)大而產(chǎn)生的報(bào)警,影響數(shù)據(jù)業(yè)務(wù)的開(kāi)展和數(shù)據(jù)處理任務(wù)的開(kāi)發(fā)。其次,因?yàn)楝F(xiàn)有架構(gòu)里面會(huì)同時(shí)存在多個(gè)數(shù)據(jù)平臺(tái),每個(gè)平臺(tái)都要相應(yīng)的運(yùn)維人員介入,造成運(yùn)維成本和采購(gòu)費(fèi)用居高不下。再次,在數(shù)據(jù)需求方面,當(dāng)前的架構(gòu)與一些業(yè)務(wù)需求不匹配,主要體現(xiàn)在包括離線實(shí)時(shí),和一些高并發(fā)以及跨表的查詢,都沒(méi)有一勞永逸的方案。同時(shí),作為移動(dòng)互聯(lián)網(wǎng)的一個(gè)永恒不變的矛盾,產(chǎn)品對(duì)于數(shù)據(jù)需求的緊迫性,當(dāng)前的架構(gòu)沒(méi)有辦法很好的快速支持。另外,在數(shù)據(jù)開(kāi)發(fā)方面,由于郵箱的一些歷史原因,一些比較老舊的基礎(chǔ)服務(wù)的日志,開(kāi)發(fā)的時(shí)候并沒(méi)有考慮到數(shù)據(jù)統(tǒng)計(jì)方面的需求,這些日志的格式參差不齊,對(duì)數(shù)據(jù)清洗以及下游的數(shù)據(jù)存儲(chǔ)的技術(shù)迭代有一定影響。最后,系統(tǒng)的一些鏈路經(jīng)過(guò)多年的迭代之后有些臃腫,而數(shù)據(jù)需求經(jīng)常變化多端,導(dǎo)致開(kāi)發(fā)人員的人力資源不是很夠,造成開(kāi)發(fā)難度的增大。因?yàn)樯鲜鰡?wèn)題,我們迫切需要一個(gè)性能強(qiáng)悍、上手容易、部署簡(jiǎn)單、使用方便、適配性高、安全穩(wěn)定的 OLAP 系統(tǒng),而 StarRocks 剛好能滿足我們的需求,這是我們?yōu)槭裁匆?StarRocks 的根本原因。3OLAP 指標(biāo)維度對(duì)比我們對(duì)比了國(guó)內(nèi)外一些比較常見(jiàn)的 OLAP 系統(tǒng),包括 StarRocks、ClickHouse、Impala 以及最基礎(chǔ)的 Kylin。下圖是我們的對(duì)比結(jié)果。

 

我們對(duì)比的維度包括底層技術(shù)、查詢性能、維護(hù)難度、場(chǎng)景適配、兼容易用、安全穩(wěn)定和擴(kuò)展伸縮7個(gè)維度。ClickHouse 作為當(dāng)前比較流行的 OLAP 系統(tǒng),我們重點(diǎn)分析一下它跟 StarRocks 的一些區(qū)別。底層技術(shù)方面, StarRocks 與 ClickHouse 都是基于 MPP 架構(gòu)實(shí)現(xiàn)。查詢性能方面,StarRocks 的性能在單表查詢上表現(xiàn)良好,多表聯(lián)合查詢方面比 ClickHouse 更有優(yōu)勢(shì)。維護(hù)難度方面,StarRocks 沒(méi)有三方依賴,可以開(kāi)箱即用,而 ClickHouse 的維護(hù)難度在業(yè)界是出了名的高。場(chǎng)景適配方面,我們當(dāng)前的實(shí)際應(yīng)用是實(shí)時(shí)數(shù)倉(cāng),存儲(chǔ)海量的流水?dāng)?shù)據(jù)。StarRocks 提供了若干種數(shù)據(jù)模型,可以覆蓋大部分的業(yè)務(wù)場(chǎng)景。兼容易用方面,兩者的表現(xiàn)差不多。ClickHouse 支持 HTTP 接口,StarRocks 的優(yōu)勢(shì)則體現(xiàn)在提供多種 IO 的支持,以及對(duì)于 MySQL 協(xié)議的兼容。安全穩(wěn)定方面,分區(qū)分桶和多副本架構(gòu)兩者都支持,最大區(qū)別是 ClickHouse 的分布式高可用是基于ZooKeeper 實(shí)現(xiàn)的。我們?cè)趯?shí)際應(yīng)用中發(fā)現(xiàn),在高負(fù)載的情況下,ZooKeeper 的表現(xiàn)是比較差的,經(jīng)常出現(xiàn)一些諸如復(fù)制失敗、數(shù)據(jù)丟失的情況。StarRocks 則是基于自研的 BDBJE 來(lái)實(shí)現(xiàn),在我們的實(shí)際應(yīng)用過(guò)程中并沒(méi)有發(fā)現(xiàn)它出現(xiàn)類似 ClickHouse 那樣的數(shù)據(jù)異常的問(wèn)題。擴(kuò)展伸縮方面, StarRocks 的優(yōu)勢(shì)主要體現(xiàn)在它可以對(duì)每一個(gè)分區(qū)來(lái)靈活的定制它的數(shù)據(jù)擴(kuò)容的方案,同時(shí)它在擴(kuò)容之后,可以自動(dòng)實(shí)現(xiàn)數(shù)據(jù)均衡,相對(duì)來(lái)說(shuō) ClickHouse 則需要人工介入來(lái)處理。經(jīng)過(guò)以上7大方面的對(duì)比, StarRocks 在各方面的均衡表現(xiàn),都非常適合作為網(wǎng)易郵箱的下一代 OLAP 系統(tǒng)的選型。

 

#03

系統(tǒng)架構(gòu)

 

1系統(tǒng)架構(gòu)描述下圖左邊就是網(wǎng)易郵箱大數(shù)據(jù)處理系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖,從左到右,從下到上可以分為5個(gè)層次。

 

左下角是數(shù)據(jù)采集層,它主要的任務(wù)就是將分布在各個(gè)服務(wù)器上的日志數(shù)據(jù),通過(guò) Flume 采集匯總到數(shù)據(jù)處理層,按照不同的類型諸如離線的或者是實(shí)時(shí)的分別存儲(chǔ)到對(duì)應(yīng)的存儲(chǔ)介質(zhì)上。再上一層是數(shù)據(jù)加工層,對(duì)應(yīng)不同的數(shù)據(jù)類型,離線數(shù)據(jù)使用 MapReduce 任務(wù)處理,實(shí)時(shí)數(shù)據(jù)使用 Flink 任務(wù)處理,然后把數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)存儲(chǔ)層。再往上是數(shù)據(jù)存儲(chǔ)層,最原始的沒(méi)有經(jīng)過(guò)任何加工的 ODS 數(shù)據(jù)會(huì)存儲(chǔ)到 HDFS 上,經(jīng)過(guò)一定的清洗形成的結(jié)構(gòu)化數(shù)據(jù)會(huì)放到 ClickHouse 的實(shí)時(shí)數(shù)倉(cāng)里面。從21年開(kāi)始,數(shù)據(jù)存儲(chǔ)層引入了 StarRocks 把 ClickHouse 實(shí)時(shí)數(shù)倉(cāng)上的基礎(chǔ)數(shù)據(jù)進(jìn)行聚合提煉,以應(yīng)對(duì)更深層更復(fù)雜的查詢,和一些實(shí)時(shí)性的查詢。在數(shù)據(jù)存儲(chǔ)層上面就是數(shù)據(jù)應(yīng)用層了,應(yīng)用層主要包括了數(shù)據(jù)大盤報(bào)表的輸出,以及給下游業(yè)務(wù)提供的實(shí)時(shí)查詢的業(yè)務(wù)接口。右面綠色部分是數(shù)據(jù)治理框架,包括數(shù)據(jù)鏈路的監(jiān)控,實(shí)時(shí)和離線任務(wù)的配套 Sloth,以及 Azkaban 的模型,還有我們出于對(duì)數(shù)據(jù)血緣方面的考慮,自己研發(fā)的一套任務(wù)執(zhí)行框架,以及對(duì)應(yīng)的 Kibana 和 Promethues 的數(shù)據(jù)監(jiān)控系統(tǒng)。這5大部分共同組成了一個(gè)完整的大數(shù)據(jù)處理架構(gòu)。2StarRocks 使用場(chǎng)景StarRocks 在網(wǎng)易郵箱的實(shí)際業(yè)務(wù)中的使用場(chǎng)景,可以分為4個(gè)類型:
  • 多維度數(shù)據(jù)查詢:包括支付鏈路漏斗分析、活動(dòng)引流效果分析以及風(fēng)控用戶行為分析等。
  • 日常數(shù)據(jù)處理:在這方面是把 StarRocks 作為一個(gè)工具庫(kù)來(lái)使用,比如一些推廣或者一些用戶導(dǎo)流方面的用戶篩選,以及一些多元數(shù)據(jù)的合并處理如關(guān)聯(lián)過(guò)濾去重等。
  • 實(shí)時(shí)數(shù)倉(cāng)的聚合處理:用戶的存儲(chǔ)容量需要實(shí)時(shí)的疊加匯總,來(lái)生成一個(gè)最終的指標(biāo),另外還需要對(duì)用戶行為進(jìn)行分析、識(shí)別惡意用戶等。
  • 并發(fā)數(shù)據(jù)查詢接口:包括數(shù)據(jù)鏈路的告警,還有一些用戶行為機(jī)制的觸發(fā)等。
以上4種場(chǎng)景都是基于 StarRocks 提供的,包括跨表查詢的能力、聚合模型實(shí)現(xiàn)的數(shù)據(jù)熱更新以及高并發(fā)的數(shù)據(jù)查詢響應(yīng)能力等。這使得 StarRocks 能夠適應(yīng)網(wǎng)易郵箱大部分的使用場(chǎng)景,能夠做到以往要靠多個(gè)系統(tǒng)才能完成的工作。

 

3StarRocks 表現(xiàn)
  • 性能

     

下圖中的3是我們生產(chǎn)環(huán)境中的一個(gè) StarRocks 集群,包括三臺(tái)物理機(jī)。

圖中的1是一個(gè)跨表查詢的結(jié)果,在若干個(gè)數(shù)據(jù)規(guī)模超過(guò)億級(jí)的大表上進(jìn)行一個(gè)聯(lián)合查詢,大概兩分鐘左右能夠產(chǎn)生結(jié)果,這是比較強(qiáng)悍的一個(gè)跨表查詢,解決掉了我們以往的比較頭痛的問(wèn)題。

圖片

對(duì)于這些復(fù)雜的查詢,以往只能在數(shù)據(jù)規(guī)劃階段,把所有維度都合成一個(gè)大寬表來(lái)實(shí)現(xiàn),一來(lái)導(dǎo)致維護(hù)的難度較高,二來(lái)會(huì)造成數(shù)據(jù)冗余,實(shí)現(xiàn)不夠優(yōu)雅。有了 StarRocks 之后,可以充分利用它的跨表查詢的能力,把不同的數(shù)據(jù),按照各自的特性切分到最合適的維度,在查詢時(shí)根據(jù)各自的特性,組合成一個(gè)結(jié)果輸出。圖中的2是在一個(gè)高并發(fā)場(chǎng)景下的壓測(cè)結(jié)果,在100個(gè)并發(fā)以內(nèi),StarRocks 的響應(yīng)時(shí)間都可以控制在50毫秒以內(nèi),這樣的高并發(fā)的響應(yīng)效率,已經(jīng)足以媲美 HBase 或關(guān)系型數(shù)據(jù)庫(kù)的能力了。因此 StarRocks 其實(shí)已經(jīng)能夠取代關(guān)系型數(shù)據(jù)庫(kù)的部分應(yīng)用場(chǎng)景,從而不需要部署多種不同的業(yè)務(wù)架構(gòu),實(shí)現(xiàn)我們減少投入的目標(biāo)。圖中的4是數(shù)據(jù)的 IO 的壓測(cè)結(jié)果,基于文件的 Stream Load 來(lái)進(jìn)行壓測(cè),導(dǎo)入1.1億條數(shù)據(jù),耗時(shí)5分鐘左右。比較強(qiáng)大的交互式數(shù)據(jù)導(dǎo)入能力,保證了 StarRocks 作為基礎(chǔ)數(shù)倉(cāng)對(duì)接不同數(shù)據(jù)源的擴(kuò)展能力。
  • 運(yùn)維

對(duì)比 ClickHouse 和 Hadoop 這些比較傳統(tǒng)的大數(shù)據(jù)架構(gòu),StarRocks 的系統(tǒng)維護(hù)門檻相對(duì)較低,主要體現(xiàn)在它是一個(gè)沒(méi)有第三方依賴的系統(tǒng),能夠開(kāi)箱即用。StarRocks 的 FE/BE 的分離設(shè)計(jì),分區(qū)分桶的數(shù)據(jù)存儲(chǔ)方案,還有多副本機(jī)制,能夠最大程度的保證數(shù)據(jù)的可用性。StarRocks 分區(qū)分桶的設(shè)計(jì),保證了能夠支持在線擴(kuò)容、自動(dòng)數(shù)據(jù)均衡、自動(dòng)冷備等特性,很大程度上降低了維護(hù)人員的工作強(qiáng)度。StarRocks 還配備了覆蓋面比較廣的 Grafana 模板,提供集群性能指標(biāo)的全方位可視化監(jiān)控,使我們能夠隨時(shí)隨地監(jiān)控集群的運(yùn)行情況。
  • 使用

StarRocks 提供了多種數(shù)據(jù)模式來(lái)支持不同的業(yè)務(wù)場(chǎng)景,像明細(xì)、聚合以及主鍵更新等,可以選擇最貼切的數(shù)據(jù)模型來(lái)應(yīng)對(duì)業(yè)務(wù)場(chǎng)景的開(kāi)發(fā)。StarRocks 支持文件、流以及外部表等多種數(shù)據(jù)交互方式,還提供了 Flink Connector 來(lái)提供流數(shù)據(jù)的支持,可以直接對(duì)接 Flink 任務(wù)實(shí)現(xiàn)數(shù)據(jù)流的導(dǎo)入。StarRocks 的存儲(chǔ)可以靈活的配置,像分區(qū)分桶的策略、TTL 的自動(dòng)實(shí)現(xiàn)以及對(duì)外部表和物化視圖的支持等,這些設(shè)計(jì)都能更好的提升查詢性能。StarRocks 支持標(biāo)準(zhǔn)的 SQL95 語(yǔ)法,同時(shí)提供了豐富的函數(shù)以及 UDF 自定義函數(shù)的功能。另外 Bitmap 可以實(shí)現(xiàn)數(shù)據(jù)的過(guò)濾去重以及索引的管理等。StarRocks 在交互接口方面,它提供了 FE 多節(jié)點(diǎn)自動(dòng)輪巡的 HTTP 接口,能夠?qū)崿F(xiàn)負(fù)載均衡。同時(shí)它對(duì)于 MySQL 協(xié)議的全兼容,很大程度上方便了業(yè)務(wù)開(kāi)發(fā),可以直接使用 MySQL Client 或者 JDBC 的驅(qū)動(dòng)來(lái)開(kāi)發(fā)對(duì)接。StarRocks 有充分的技術(shù)團(tuán)隊(duì)支持,這也是它最重要的優(yōu)勢(shì)。鏡舟公司提供了強(qiáng)大的業(yè)務(wù)團(tuán)隊(duì),幫助解決我們?cè)陂_(kāi)發(fā)過(guò)程中遇到的問(wèn)題,對(duì)于一些數(shù)據(jù)處理的工作,也提供了強(qiáng)大的業(yè)務(wù)支持。

#04

應(yīng)用案例

 

1用戶登錄處理鏈路

 

左邊是數(shù)據(jù)鏈路的一個(gè)示意圖,用戶登錄的行為數(shù)據(jù),經(jīng)過(guò) Kafka 以及 Flink 的實(shí)時(shí)處理之后,存儲(chǔ)到 StarRocks 數(shù)倉(cāng),然后同時(shí)支持下游4個(gè)不同的數(shù)據(jù)需求。
  1. 數(shù)據(jù)的落盤存儲(chǔ)。

  2. 基于存儲(chǔ)之后的數(shù)據(jù),在 T+1 的時(shí)間窗口進(jìn)行數(shù)據(jù)的統(tǒng)計(jì),最終生成 OKR 指標(biāo),輸出到下游的數(shù)據(jù)報(bào)表系統(tǒng)。

  3. 實(shí)時(shí)的用戶登錄,我們要求進(jìn)行一些監(jiān)控,來(lái)保證用戶的敏感行為能夠自動(dòng)聚合疊加,到達(dá)一定閾值之后,觸發(fā)一些風(fēng)控處理。

  4. 針對(duì)需要實(shí)時(shí)查詢的數(shù)據(jù),提供一個(gè)查詢接口,供下游業(yè)務(wù)調(diào)用。

     

以上4個(gè)需求,正好分別對(duì)應(yīng) StarRocks 的4個(gè)特性
  • 明細(xì)模型可以很好的支持海量數(shù)據(jù)的落盤。
  • 聚合模型能夠最大程度的簡(jiǎn)化數(shù)據(jù)疊加的處理邏輯。
  • 跨表查詢能力能夠簡(jiǎn)化 OKR 指標(biāo)的生成。
  • 高并發(fā)的能力能夠最大程度的支持?jǐn)?shù)據(jù)接口的開(kāi)發(fā)。

 

2推廣活動(dòng)漏斗分析模型

 

左上角的圖是網(wǎng)易郵箱比較常見(jiàn)的推廣活動(dòng)的節(jié)點(diǎn)鏈路的示意圖,它包括6個(gè)數(shù)據(jù)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都會(huì)按照用戶的操作行為,將數(shù)據(jù)反饋到后臺(tái)的數(shù)倉(cāng)里面。

我們的任務(wù)就是根據(jù)這些反饋的素材數(shù)據(jù),建立如右圖這樣的漏斗模型,方便產(chǎn)品和推廣人員直觀的分析出推廣鏈路里面的短板是哪個(gè)環(huán)節(jié),用戶在每個(gè)環(huán)節(jié)里流失的具體原因是什么。在模型的建立過(guò)程中充分利用了 StarRocks 的跨表查詢的能力,能夠根據(jù)用戶ID以及一些時(shí)間參數(shù),對(duì)6個(gè)不同節(jié)點(diǎn)上反饋的數(shù)據(jù)進(jìn)行串聯(lián),最終生成大寬表來(lái)支持模型的建立。

#05

未來(lái)展望

 

1StarRocks 的優(yōu)勢(shì)和展望StarRocks 的優(yōu)勢(shì)包括開(kāi)箱即用、投入較少、功能強(qiáng)大、覆蓋的場(chǎng)景多、架構(gòu)先進(jìn)簡(jiǎn)潔、迭代迅速、支持到位等。這里重點(diǎn)說(shuō)一下我們的展望。首先,網(wǎng)易郵箱作為一個(gè)歷史比較久的業(yè)務(wù),有大量的數(shù)據(jù)存儲(chǔ)在一些比較老舊的數(shù)據(jù)架構(gòu)里面,如何快速并且低成本的將這些數(shù)據(jù)遷移到 StarRocks 平臺(tái)上,同時(shí)能夠保證遷移過(guò)程中數(shù)據(jù)的安全穩(wěn)定,并且不影響正常的數(shù)據(jù)鏈路,很希望能夠看到 StarRocks 有相應(yīng)的支持。其次,對(duì)于像AI算法之類的數(shù)據(jù)挖掘的需求,也希望看到 StarRocks 的支持。再者,網(wǎng)易郵件里面存儲(chǔ)了很多圖片文件視頻等非結(jié)構(gòu)化的內(nèi)容,如果要把它們?nèi)窟w移到 StarRocks 存儲(chǔ)系統(tǒng)里面來(lái),也希望能有一個(gè)類似數(shù)據(jù)湖的解決方案。最后,在可視化工具方面,也希望能夠看到 StarRocks 的有力支持。

 

2總結(jié)網(wǎng)易郵箱從21年開(kāi)始接觸 StarRocks,到現(xiàn)在一年多的時(shí)間里,作為一個(gè)剛剛嶄露頭角的 OLAP 系統(tǒng),StarRocks 在各方面的表現(xiàn)都很不錯(cuò),它在功能、性能以及覆蓋的場(chǎng)景方面的表現(xiàn),都讓我們相當(dāng)滿意,甚至超出了我們當(dāng)初的預(yù)期。后續(xù)網(wǎng)易郵箱會(huì)上線更多基于 StarRocks 的業(yè)務(wù)應(yīng)用,同時(shí)也會(huì)在網(wǎng)易集團(tuán)內(nèi)部推廣,希望能夠得到廠商更有力的支持。希望在廠商的不斷努力,以及 StarRocks 開(kāi)源之后的用戶反饋和積極參與下,StarRocks 能夠?qū)崿F(xiàn)更進(jìn)一步的能力發(fā)揮。最后也借此機(jī)會(huì)再次感謝鏡舟公司對(duì)于網(wǎng)易郵箱在大數(shù)據(jù)開(kāi)發(fā)方面的最體貼最有力的支持,謝謝大家!

聯(lián)系我們

  • 人事/財(cái)務(wù)部:0531-88554123
  • 企業(yè)服務(wù)部:010-86316763
  • 北京易至信:010-86316763
  • 客戶成功部18354166215(同微信)
  • 鄭州勝途:0371-61877562
  • 投訴舉報(bào):0531-88554123分機(jī)230
聯(lián)系郵箱:Support@Qiangbi.net
企業(yè)地址:濟(jì)南市歷下區(qū)大東路 30號(hào) T2 (科創(chuàng)金融中心明湖A座)1604室
免費(fèi)電話:4006-360-163
友情鏈接: 山東強(qiáng)比 網(wǎng)易互客 效果幫 網(wǎng)站建設(shè) 七魚云客服 企業(yè)郵箱 百度云 阿里云 騰訊云 微商城小程序開(kāi)發(fā) 微商城開(kāi)發(fā) CRM定制開(kāi)發(fā) 白菜網(wǎng)絡(luò) 易至信科技 勝途科技 企業(yè)上云 企業(yè)郵箱網(wǎng) 網(wǎng)易企業(yè)服務(wù) 華夏郵箱網(wǎng) wps云辦公 強(qiáng)比軟件 網(wǎng)易外貿(mào)通EDM軟件 集客戰(zhàn)記 易信云法務(wù) 網(wǎng)易企業(yè)郵箱 固定資產(chǎn)管理 百嗨 街頭老王 買必喜網(wǎng)絡(luò)軟件 山東票務(wù)網(wǎng) 天下無(wú)敵 高端企業(yè)郵箱申請(qǐng) 法務(wù)云百科 網(wǎng)易山東企業(yè)郵箱代理 濟(jì)南易信云科技 鄭州勝途科技 火山引擎
Copyright ? 2007-2022 ?山東強(qiáng)比信息技術(shù)有限公司 .ALL RIGHTS RESERVED   公司法務(wù):易信云法務(wù) 魯ICP備11021959號(hào)-11
Top