博客
关于我
布隆过滤器,Redis之 bitmap,场景题【如果微博某个大V发了一条消息,怎么统计有多少人看过了】
阅读量:832 次
发布时间:2019-03-26

本文共 3269 字,大约阅读时间需要 10 分钟。

如何统计微博大V的消息阅读人数?从技术实现的角度浅析

在一次面试中,面试官提出了一个看似简单却颇具挑战性的技术问题:“如何统计微博大V发布的消息有多少人阅读?”面对这个问题,我一时间有些无所适从,但经过老干部的指导,我逐渐找到了答案。这篇文章将详细讲述我思考过程中的重点内容,以及相关技术实现的方法。

问题分析

每一个访问记录自然会被采集,但在页面展示时直接从数据库统计显然是不可行的。最初想到使用Redis的Set数据结构存储用户ID,但这会导致内存占用过大,难以承受。虽然解决方案本身正确,但并未充分优化。

Bitmap数据结构:高效的解决方案

Redis中的Bitmap数据结构是一个高效的选择。它通过二进制位存储布尔值信息,非常适合这种统计场景。其工作原理为:每条消息生成一个唯一ID作为键,对应的用户ID作为偏移量存储在二进制位中,1表示阅读,0表示未阅读。

基本命令

  • 插入数据

    setbit bitmap001 10000 1

    这个命令将用户ID偏移量10000位置的值设置为1。

  • 查询数据

    getbit bitmap001 10000

    获取指定位置的值,默认返回0。

  • 统计数据

    bitcount bitmap001
    bitcount bitmap001 0 100000

    返回指定范围内1的数量,支持默认全局统计。

与Set的对比

虽然Set可以实现同样的功能,但从内存消耗和运行效率上看,Bitmap优于Set。具体对比如下:

  • 内存消耗

    Bitmap占用的内存与其偏移量的数量有关,而Set则存储所有元素,这在大量数据时尤为明显。

  • 性能对比

    基于 Redis 提供的测试,Set在特定查询场景下表现稍好,但笼统对比并不足以说明问题。

布隆过滤器:解决大规模数据存储问题

布隆过滤器(Bloom Filter)是一种优化数据存储的技术,常用于大数据场景。其核心思想为:通过多次哈希计算生成虚拟索引,这样可以在批量增删改时减少实存操作的次数,从而提升系统性能。

技术原理

布隆过滤器的核心参数包括哈希函数和存储大小。哈希函数需要尽可能防止冲突,存储大小决定了虚拟索引的范围。如何搭建布隆过滤器?简单来说,首先定义哈希函数,将输入数据转换为多个虚拟索引,存储到前一定大小的Bitmap中。

代码实现

以下是Java实现的布隆过滤器示例代码:

import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.data.redis.core.ValueOperations;
public class BloomFilter {
private RedisTemplate redisTemplate;
private final String filterKey;
private final int size;
private final int[] hashFunctions;
public BloomFilter(String filterKey, int size, int numHashFunctions) {
this.filterKey = filterKey;
this.size = size;
this.hashFunctions = new int[numHashFunctions];
initializeHashFunctions();
}
private void initializeHashFunctions() {
for (int i = 0; i < hashFunctions.length; i++) {
hashFunctions[i] = (int) (Math.random() * Integer.MAX_VALUE);
}
}
public void add(String element) {
for (int hashFunction : hashFunctions) {
int index = Math.abs(hashFunction % size);
redisTemplate.opsForValue().setBit(filterKey, index, true);
}
}
public boolean contains(String element) {
for (int hashFunction : hashFunctions) {
int index = Math.abs(hashFunction % size);
if (!redisTemplate.opsForValue().getBit(filterKey, index)) {
return false;
}
}
return true;
}
public void test() {
BloomFilter bloomFilter = new BloomFilter("bloomFilter", 10000, 3);
bloomFilter.add("element1");
bloomFilter.add("element2");
bloomFilter.add("element3");
System.out.println(bloomFilter.contains("element1")); // true
System.out.println(bloomFilter.contains("element4")); // false
}
}

哈希函数的选择

在实际应用中,选择好的哈希函数尤为重要。现实中常用Murmur Hash算法,这种算法不仅一致性好,还能显著减少冲突概率。以下是Murmur3算法的Java实现示例:

// 32位哈希函数
public static long hash_x86_32(byte[] data, int length, int hash) {
return murmurHash32(data, length, hash);
}
// 64位哈希函数
public static long[] hash_x64_128(byte[] data, int length, int hash) {
return murmurHash64_128(data, length, hash);
}

结论

通过上述分析,我们可以清晰地看出:在统计微博大V消息阅读人数这一场景下,Redis的Bitmap数据结构是一个理想的选择。它既保证了高效性,又有效控制了内存占用。尽管在某些场景下,Set数据结构也能接受,但经过性能对比,Bitmap的优势更加明显。

需要注意的是,布隆过滤器虽然在这里未直接应用,但它为类似的问题提供了灵感。此外,选择合适的哈希算法对于提高布 lodash过滤器的性能至关重要。

通过这次思考,我对解决类似网络流量统计问题有了更深入的理解,也对Redis的高级数据结构有了更全面的认识。这次经历让我意识到,在面对技术难题时,首先要明确需求,其次要熟悉可能用到的工具,最后要领悟其背后的原理。希望未来能有更多类似的挑战,持续提升自己的技术水准。

转载地址:http://gfmyk.baihongyu.com/

你可能感兴趣的文章
mysql中kill掉所有锁表的进程
查看>>
mysql中like % %模糊查询
查看>>
MySql中mvcc学习记录
查看>>
mysql中null和空字符串的区别与问题!
查看>>
MySQL中ON DUPLICATE KEY UPDATE的介绍与使用、批量更新、存在即更新不存在则插入
查看>>
MYSQL中TINYINT的取值范围
查看>>
MySQL中UPDATE语句的神奇技巧,让你操作数据库如虎添翼!
查看>>
Mysql中varchar类型数字排序不对踩坑记录
查看>>
MySQL中一条SQL语句到底是如何执行的呢?
查看>>
MySQL中你必须知道的10件事,1.5万字!
查看>>
MySQL中使用IN()查询到底走不走索引?
查看>>
Mysql中使用存储过程插入decimal和时间数据递增的模拟数据
查看>>
MySql中关于geometry类型的数据_空的时候如何插入处理_需用null_空字符串插入会报错_Cannot get geometry object from dat---MySql工作笔记003
查看>>
mysql中出现Incorrect DECIMAL value: '0' for column '' at row -1错误解决方案
查看>>
mysql中出现Unit mysql.service could not be found 的解决方法
查看>>
mysql中出现update-alternatives: 错误: 候选项路径 /etc/mysql/mysql.cnf 不存在 dpkg: 处理软件包 mysql-server-8.0的解决方法(全)
查看>>
Mysql中各类锁的机制图文详细解析(全)
查看>>