chinese直男口爆体育生外卖, 99久久er热在这里只有精品99, 又色又爽又黄18禁美女裸身无遮挡, gogogo高清免费观看日本电视,私密按摩师高清版在线,人妻视频毛茸茸,91论坛 兴趣闲谈,欧美 亚洲 精品 8区,国产精品久久久久精品免费

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Redis巧用數(shù)據(jù)類型實現(xiàn)億級數(shù)據(jù)統(tǒng)計!

倩倩 ? 來源:碼哥字節(jié) ? 作者:碼哥字節(jié) ? 2022-09-22 14:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


在移動應用的業(yè)務場景中,我們需要保存這樣的信息:一個 key 關聯(lián)了一個數(shù)據(jù)集合,同時還要對集合中的數(shù)據(jù)進行統(tǒng)計排序。

常見的場景如下:

  • 給一個 userId ,判斷用戶登陸狀態(tài);
  • 兩億用戶最近 7 天的簽到情況,統(tǒng)計 7 天內連續(xù)簽到的用戶總數(shù);
  • 統(tǒng)計每天的新增與第二天的留存用戶數(shù);
  • 統(tǒng)計網(wǎng)站的對訪客(Unique Visitor,UV)量
  • 最新評論列表
  • 根據(jù)播放量音樂榜單

通常情況下,我們面臨的用戶數(shù)量以及訪問量都是巨大的,比如百萬、千萬級別的用戶數(shù)量,或者千萬級別、甚至億級別的訪問信息。

所以,我們必須要選擇能夠非常高效地統(tǒng)計大量數(shù)據(jù)(例如億級)的集合類型。

如何選擇合適的數(shù)據(jù)集合,我們首先要了解常用的統(tǒng)計模式,并運用合理的數(shù)據(jù)來解決實際問題。

四種統(tǒng)計類型:

  1. 二值狀態(tài)統(tǒng)計;
  2. 聚合統(tǒng)計;
  3. 排序統(tǒng)計;
  4. 基數(shù)統(tǒng)計。

本文將用到 String、Set、Zset、List、hash 以外的拓展數(shù)據(jù)類型 BitmapHyperLogLog來實現(xiàn)。

今天我們來看下剩下的三種統(tǒng)計類型。

文章涉及到的指令可以通過在線 Redis 客戶端運行調試,地址:https://try.redis.io/,超方便的說。

基數(shù)統(tǒng)計

?

基數(shù)統(tǒng)計:統(tǒng)計一個集合中不重復元素的個數(shù),常見于計算獨立用戶數(shù)(UV)。

實現(xiàn)基數(shù)統(tǒng)計最直接的方法,就是采用集合(Set)這種數(shù)據(jù)結構,當一個元素從未出現(xiàn)過時,便在集合中增加一個元素;如果出現(xiàn)過,那么集合仍保持不變。

當頁面訪問量巨大,就需要一個超大的 Set 集合來統(tǒng)計,將會浪費大量空間。

另外,這樣的數(shù)據(jù)也不需要很精確,到底有沒有更好的方案呢?

這個問題問得好,Redis 提供了 HyperLogLog 數(shù)據(jù)結構就是用來解決種種場景的統(tǒng)計問題。

HyperLogLog 是一種不精確的去重基數(shù)方案,它的統(tǒng)計規(guī)則是基于概率實現(xiàn)的,標準誤差 0.81%,這樣的精度足以滿足 UV 統(tǒng)計需求了。

關于 HyperLogLog 的原理過于復雜,如果想要了解的請移步:

  • https://www.zhihu.com/question/53416615
  • https://en.wikipedia.org/wiki/HyperLogLog

網(wǎng)站的 UV

通過 Set 實現(xiàn)

一個用戶一天內多次訪問一個網(wǎng)站只能算作一次,所以很容易就想到通過 Redis 的 Set 集合來實現(xiàn)。

用戶編號 89757 訪問 「Redis 為什么這么快 」時,我們將這個信息放到 Set 中。

SADDRedis為什么這么快:uv89757

當用戶編號 89757 多次訪問「Redis 為什么這么快」頁面,Set 的去重功能能保證不會重復記錄同一個用戶 ID。

通過 SCARD 命令,統(tǒng)計「Redis 為什么這么快」頁面 UV。指令返回一個集合的元素個數(shù)(也就是用戶 ID)。

SCARDRedis為什么這么快:uv

通過 Hash 實現(xiàn)

?

還可以利用 Hash 類型實現(xiàn),將用戶 ID 作為 Hash 集合的 key,訪問頁面則執(zhí)行 HSET 命令將 value 設置成 1。

即使用戶重復訪問,重復執(zhí)行命令,也只會把這個 userId 的值設置成 “1"。

最后,利用 HLEN 命令統(tǒng)計 Hash 集合中的元素個數(shù)就是 UV。

如下:

HSETredis集群:uvuserId:897571
//統(tǒng)計UV
HLENredis集群

HyperLogLog 王者方案

?

Set 雖好,如果文章非?;鸨_到千萬級別,一個 Set 就保存了千萬個用戶的 ID,頁面多了消耗的內存也太大了。同理,Hash數(shù)據(jù)類型也是如此。咋辦呢?

利用 Redis 提供的 HyperLogLog 高級數(shù)據(jù)結構(不要只知道 Redis 的五種基礎數(shù)據(jù)類型了)。這是一種用于基數(shù)統(tǒng)計的數(shù)據(jù)集合類型,即使數(shù)據(jù)量很大,計算基數(shù)需要的空間也是固定的。

每個 HyperLogLog 最多只需要花費 12KB 內存就可以計算 2 的 64 次方個元素的基數(shù)。

Redis 對 HyperLogLog 的存儲進行了優(yōu)化,在計數(shù)比較小的時候,存儲空間采用系數(shù)矩陣,占用空間很小。

只有在計數(shù)很大,稀疏矩陣占用的空間超過了閾值才會轉變成稠密矩陣,占用 12KB 空間。

PFADD

將訪問頁面的每個用戶 ID 添加到 HyperLogLog 中。

PFADDRedis主從同步原理:uvuserID1userID2useID3

PFCOUNT

利用 PFCOUNT 獲取 「Redis主從同步原理」頁面的 UV值。

PFCOUNTRedis主從同步原理:uv

PFMERGE 使用場景

HyperLogLog 除了上面的 PFADDPFCOIUNT 外,還提供了 PFMERGE ,將多個 HyperLogLog 合并在一起形成一個新的 HyperLogLog 值。

語法

PFMERGEdestkeysourcekey[sourcekey...]

使用場景

比如在網(wǎng)站中我們有兩個內容差不多的頁面,運營說需要這兩個頁面的數(shù)據(jù)進行合并。

其中頁面的 UV 訪問量也需要合并,那這個時候 PFMERGE 就可以派上用場了,也就是同樣的用戶訪問這兩個頁面則只算做一次

如下所示:Redis、MySQL 兩個 Bitmap 集合分別保存了兩個頁面用戶訪問數(shù)據(jù)。

PFADDRedis數(shù)據(jù)user1user2user3
PFADDMySQL數(shù)據(jù)user1user2user4
PFMERGE數(shù)據(jù)庫Redis數(shù)據(jù)MySQL數(shù)據(jù)
PFCOUNT數(shù)據(jù)庫//返回值=4

將多個 HyperLogLog 合并(merge)為一個 HyperLogLog , 合并后的 HyperLogLog 的基數(shù)接近于所有輸入 HyperLogLog 的可見集合(observed set)的并集 。

user1、user2 都訪問了 Redis 和 MySQL,只算訪問了一次。

基于 Spring Boot + MyBatis Plus + Vue & Element 實現(xiàn)的后臺管理系統(tǒng) + 用戶小程序,支持 RBAC 動態(tài)權限、多租戶、數(shù)據(jù)權限、工作流、三方登錄、支付、短信、商城等功能

  • 項目地址:https://gitee.com/zhijiantianya/ruoyi-vue-pro
  • 視頻教程:https://doc.iocoder.cn/video/

排序統(tǒng)計

Redis 的 4 個集合類型中(List、Set、Hash、Sorted Set),List 和 Sorted Set 就是有序的。

  • List:按照元素插入 List 的順序排序,使用場景通??梢宰鳛?消息隊列、最新列表、排行榜;
  • Sorted Set:根據(jù)元素的 score 權重排序,我們可以自己決定每個元素的權重值。使用場景(排行榜,比如按照播放量、點贊數(shù))。

最新評論列表

?

我可以利用 List 插入的順序排序實現(xiàn)評論列表

比如公 眾號的后臺回復列表(不要杠,舉例子),每一公 眾號對應一個 List,這個 List 保存該公 眾號的所有的用戶評論。

每當一個用戶評論,則利用 LPUSH key value [value ...] 插入到 List 隊頭。

LPUSH碼哥字節(jié)123456

接著再用 LRANGE key star stop 獲取列表指定區(qū)間內的元素。

>LRANGE碼哥字節(jié)04
1)"6"
2)"5"
3)"4"
4)"3"
5)"2"

注意,并不是所有最新列表都能用 List 實現(xiàn),對于因為對于頻繁更新的列表,list類型的分頁可能導致列表元素重復或漏掉。

比如當前評論列表 List ={A, B, C, D},左邊表示最新的評論,D 是最早的評論。

LPUSH碼哥字節(jié)DCBA

展示第一頁最新 2 個評論,獲取到 A、B:

LRANGE碼哥字節(jié)01
1)"A"
2)"B"

按照我們想要的邏輯來說,第二頁可通過 LRANGE 碼哥字節(jié) 2 3 獲取 C,D。

如果在展示第二頁之前,產生新評論 E,評論 E 通過 LPUSH 碼哥字節(jié) E 插入到 List 隊頭,List = {E, A, B, C, D }。

現(xiàn)在執(zhí)行 LRANGE 碼哥字節(jié) 2 3 獲取第二頁評論發(fā)現(xiàn), B 又出現(xiàn)了。

LRANGE碼哥字節(jié)23
1)"B"
2)"C"

出現(xiàn)這種情況的原因在于 List 是利用元素所在的位置排序,一旦有新元素插入,List = {E,A,B,C,D}

原先的數(shù)據(jù)在 List 的位置都往后移動一位,導致讀取都舊元素。

5d6a28ea-3a3d-11ed-9e49-dac502259ad0.pngList最新列表

小結

只有不需要分頁(比如每次都只取列表的前 5 個元素)或者更新頻率低(比如每天凌晨統(tǒng)計更新一次)的列表才適合用 List 類型實現(xiàn)。

對于需要分頁并且會頻繁更新的列表,需用使用有序集合 Sorted Set 類型實現(xiàn)。

另外,需要通過時間范圍查找的最新列表,List 類型也實現(xiàn)不了,需要通過有序集合 Sorted Set 類型實現(xiàn),如以成交時間范圍作為條件來查詢的訂單列表。

排行榜

?

對于最新列表的場景,List 和 Sorted Set 都能實現(xiàn),為啥還用 List 呢?直接使用 Sorted Set 不是更好,它還能設置 score 權重排序更加靈活。

原因是 Sorted Set 類型占用的內存容量是 List 類型的數(shù)倍之多,對于列表數(shù)量不多的情況,可以用 Sorted Set 類型來實現(xiàn)。

比如要一周音樂榜單,我們需要實時更新播放量,并且需要分頁展示。

除此以外,排序是根據(jù)播放量來決定的,這個時候 List 就無法滿足了。

我們可以將音樂 ID 保存到 Sorted Set 集合中,score 設置成每首歌的播放量,該音樂每播放一次則設置 score = score +1。

ZADD

比如我們將《青花瓷》和《花田錯》播放量添加到 musicTop 集合中:

ZADDmusicTop100000000青花瓷8999999花田錯

ZINCRBY

《青花瓷》每播放一次就通過 ZINCRBY指令將 score + 1。

>ZINCRBYmusicTop1青花瓷
100000001

ZRANGEBYSCORE

最后我們需要獲取 musicTop 前十 播放量音樂榜單,目前最大播放量是 N ,可通過如下指令獲?。?/p>

ZRANGEBYSCOREmusicTopN-9NWITHSCORES

?

65哥:可是這個 N 我們怎么獲取呀?

ZREVRANGE

可通過 ZREVRANGE key start stop [WITHSCORES]指令。

其中元素的排序按 score 值遞減(從大到小)來排列。

具有相同 score 值的成員按字典序的逆序(reverse lexicographical order)排列。

>ZREVRANGEmusicTop00WITHSCORES
1)"青花瓷"
2)100000000

小結

即使集合中的元素頻繁更新,Sorted Set 也能通過 ZRANGEBYSCORE命令準確地獲取到按序排列的數(shù)據(jù)。

在面對需要展示最新列表、排行榜等場景時,如果數(shù)據(jù)更新頻繁或者需要分頁顯示,建議優(yōu)先考慮使用 Sorted Set。

推薦下自己做的 Spring Cloud 的實戰(zhàn)項目:

https://github.com/YunaiV/onemall

聚合統(tǒng)計

指的就是統(tǒng)計多個集合元素的聚合結果,比如說:

  • 統(tǒng)計多個元素的共有數(shù)據(jù)(交集);
  • 統(tǒng)計兩個集合其中的一個獨有元素(差集統(tǒng)計);
  • 統(tǒng)計多個集合的所有元素(并集統(tǒng)計)。

?

什么樣的場景會用到交集、差集、并集呢?

Redis 的 Set 類型支持集合內的增刪改查,底層使用了 Hash 數(shù)據(jù)結構,無論是 add、remove 都是 O(1) 時間復雜度。

并且支持多個集合間的交集、并集、差集操作,利用這些集合操作,解決上邊提到的統(tǒng)計問題。

交集-共同好友

比如 QQ 中的共同好友正是聚合統(tǒng)計中的交集。我們將賬號作為 Key,該賬號的好友作為 Set 集合的 value。

模擬兩個用戶的好友集合:

SADDuser:碼哥字節(jié)R大Linux大神PHP之父
SADDuser:大佬Linux大神Python大神C++菜雞

5d8cc40e-3a3d-11ed-9e49-dac502259ad0.png交集

統(tǒng)計兩個用戶的共同好友只需要兩個 Set 集合的交集,如下命令:

SINTERSTOREuser:共同好友user:碼哥字節(jié)user:大佬

命令的執(zhí)行后,「user:碼哥字節(jié)」、「user:大佬」兩個集合的交集數(shù)據(jù)存儲到 user:共同好友這個集合中。

差集-每日新增好友數(shù)

比如,統(tǒng)計某個 App 每日新增注冊用戶量,只需要對近兩天的總注冊用戶量集合取差集即可。

比如,2021-06-01 的總注冊用戶量存放在 key = user:20210601 set 集合中,2021-06-02 的總用戶量存放在 key = user:20210602 的集合中。

5dad4b98-3a3d-11ed-9e49-dac502259ad0.pngset差集

如下指令,執(zhí)行差集計算并將結果存放到 user:new 集合中。

SDIFFSTOREuser:newuser:20210602user:20210601

執(zhí)行完畢,此時的 user:new 集合將是 2021/06/02 日新增用戶量。

除此之外,QQ 上有個可能認識的人功能,也可以使用差集實現(xiàn),就是把你朋友的好友集合減去你們共同的好友即是可能認識的人。

并集-總共新增好友

還是差集的例子,統(tǒng)計 2021/06/01 和 2021/06/02 兩天總共新增的用戶量,只需要對兩個集合執(zhí)行并集。

SUNIONSTOREuserid:newuser:20210602user:20210601

此時新的集合 userid:new 則是兩日新增的好友。

小結

Set 的差集、并集和交集的計算復雜度較高,在數(shù)據(jù)量較大的情況下,如果直接執(zhí)行這些計算,會導致 Redis 實例阻塞。

所以,可以專門部署一個集群用于統(tǒng)計,讓它專門負責聚合計算,或者是把數(shù)據(jù)讀取到客戶端,在客戶端來完成聚合統(tǒng)計,這樣就可以規(guī)避由于阻塞導致其他服務無法響應。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:實戰(zhàn)!Redis 巧用數(shù)據(jù)類型實現(xiàn)億級數(shù)據(jù)統(tǒng)計!

文章出處:【微信號:芋道源碼,微信公眾號:芋道源碼】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    安寶特產品丨FME:為您的決策提供最接近準確的空間數(shù)據(jù)支撐

    安寶特 FME 是目前市面上唯一一款 ?“幾乎支持你能遇到的全部數(shù)據(jù)類型、并可一鍵接入任意AI模型” 的空間數(shù)據(jù)處理平臺,可將日常數(shù)據(jù)轉化為可落地的洞察。 今天,我們將帶你詳細解析FME的 數(shù)
    的頭像 發(fā)表于 12-08 10:59 ?117次閱讀
    安寶特產品丨FME:為您的決策提供最接近準確的空間<b class='flag-5'>數(shù)據(jù)</b>支撐

    電能質量在線監(jiān)測裝置支持的數(shù)據(jù)推送頻率是多少?

    1 秒~24 小時 的自定義周期,部分高端設備可實現(xiàn) 毫秒實時推送 。 一、按數(shù)據(jù)類型劃分的推送頻率 數(shù)據(jù)類型 典型推送頻率 應用場景 標準 / 行業(yè)建議 實時基礎參數(shù) (電壓 /
    的頭像 發(fā)表于 12-05 15:07 ?99次閱讀
    電能質量在線監(jiān)測裝置支持的<b class='flag-5'>數(shù)據(jù)</b>推送頻率是多少?

    C語言自動類型轉換

    是通過定義類型轉換運算來實現(xiàn)的。其一般形式為: (數(shù)據(jù)類型) (表達式) 其作用是把表達式的運算結果強制轉換成類型說明符所表示的類型
    發(fā)表于 11-25 08:04

    C語言強制類型轉換

    強制類型轉換是通過定義類型轉換運算來實現(xiàn)的。其一般形式為: (數(shù)據(jù)類型) (表達式) 其作用是把表達式的運算結果強制轉換成類型說明符所表
    發(fā)表于 11-24 06:32

    不同類型的自動化工具在評估數(shù)據(jù)緩存效果時有哪些優(yōu)缺點?

    在評估數(shù)據(jù)緩存效果時,不同類型的自動化工具(實時監(jiān)控類、性能測試類、深度分析類、云原生專屬類)因設計目標和技術特性不同,存在顯著的優(yōu)缺點差異。以下結合工具類型與具體場景,系統(tǒng)對比其核心優(yōu)劣勢,并給出
    的頭像 發(fā)表于 09-25 17:48 ?509次閱讀
    不同<b class='flag-5'>類型</b>的自動化工具在評估<b class='flag-5'>數(shù)據(jù)</b>緩存效果時有哪些優(yōu)缺點?

    御控工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)解決方案:排水設備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng)

    御控工業(yè)物聯(lián)網(wǎng)推出排水設備遠程監(jiān)控與大數(shù)據(jù)統(tǒng)計系統(tǒng),通過物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等技術構建“感知-傳輸-分析-決策”閉環(huán)管理體系,助力排水行業(yè)數(shù)字化轉型。
    的頭像 發(fā)表于 09-12 10:04 ?498次閱讀

    SQL 通用數(shù)據(jù)類型

    SQL 通用數(shù)據(jù)類型 數(shù)據(jù)庫表中的每個列都要求有名稱和數(shù)據(jù)類型。Each column in a database table is required to have a name and a
    的頭像 發(fā)表于 08-18 09:46 ?576次閱讀

    Redis集群部署配置詳解

    Redis集群是一種分布式Redis解決方案,通過數(shù)據(jù)分片和主從復制實現(xiàn)高可用性和橫向擴展。集群將整個數(shù)據(jù)集分割成16384個哈希槽(has
    的頭像 發(fā)表于 07-17 11:04 ?594次閱讀

    【幸狐Omni3576邊緣計算套件試用體驗】Redis最新8.0.2版本源碼安裝及性能測試

    的結果進行對比。 一、Redis是什么 維基百科的介紹是: Redis是一個使用ANSI C編寫的開源、支持網(wǎng)絡、基于內存、分布式、可選持久性的鍵值對存儲數(shù)據(jù)庫。 Redis官網(wǎng)的
    發(fā)表于 06-03 01:28

    IEC101協(xié)議可以傳輸什么類型數(shù)據(jù)

    IEC101協(xié)議作為電力系統(tǒng)遠動通信的核心標準,其核心能力在于支持多種類型數(shù)據(jù)的傳輸,滿足調度端與場站端(如變電站、發(fā)電廠)的實時監(jiān)控、控制及狀態(tài)感知需求。以下從數(shù)據(jù)類型、傳輸模式及典型應用場景三個
    的頭像 發(fā)表于 05-21 11:37 ?705次閱讀

    labview數(shù)據(jù)類型與PLC 數(shù)據(jù)類型之間的轉換(來自于寫入浮點數(shù)到匯川 PLC中的數(shù)據(jù)轉換關鍵的修改)

    為32位無符號整型U32 2、將U32拆分為兩個U16,分高低位寫入PLC 3、在PLC中,將低位寄存器設置為浮點數(shù)數(shù)據(jù)類型 4、結果:PLC中一直無法正確轉換。 原因及解決方法: 1、labview
    發(fā)表于 02-24 19:01

    Redis Cluster之故障轉移

    1. Redis Cluster 簡介 Redis Cluster 是 Redis 官方提供的 Redis 集群功能。 為什么要實現(xiàn)
    的頭像 發(fā)表于 01-20 09:21 ?1256次閱讀
    <b class='flag-5'>Redis</b> Cluster之故障轉移

    請問ADS1299使用Test Signals ,獲取到的數(shù)據(jù)類型是什么?

    請問ADS1299使用Test Signals ,獲取到的數(shù)據(jù)類型是什么?使用什么公式可以還原?據(jù)了解,外部信號轉換完成后是浮點型的,但是沒有看到這塊的說明。
    發(fā)表于 01-06 07:14

    Redis緩存與Memcached的比較

    Redis和Memcached都是廣泛使用的內存數(shù)據(jù)存儲系統(tǒng),它們主要用于提高應用程序的性能,通過減少對數(shù)據(jù)庫的直接訪問來加速數(shù)據(jù)檢索。以下是對Re
    的頭像 發(fā)表于 12-18 09:33 ?920次閱讀

    nginx+lua+redis實現(xiàn)灰度發(fā)布

    作者:馬仁喜 前言: 授人以魚不如授人以漁 .先學會用,在學原理,在學創(chuàng)造,可能一輩子用不到這種能力,但是不能不具備這種能力。這篇文章主要是沉淀使用nginx+lua+redis實現(xiàn)灰度,當我們具備
    的頭像 發(fā)表于 12-17 10:01 ?748次閱讀