Redis布隆过滤器

摘要:
我们可以得出一个结论:布隆过滤器可以判断某个数据一定不存在,但不能判断它一定存在。接下来,我们将使用Redisson构造Bloon过滤器。

一、布隆过滤器使用场景

比如有如下几个需求:

①、原本有10亿个号码,现在又来了10万个号码,要快速准确判断这10万个号码是否在10亿个号码库中?

解决办法一:将10亿个号码存入数据库中,进行数据库查询,准确性有了,但是速度会比较慢。

解决办法二:将10亿号码放入内存中,比如Redis缓存中,这里我们算一下占用内存大小:10亿*8字节=8GB,通过内存查询,准确性和速度都有了,但是大约8gb的内存空间,挺浪费内存空间的。

②、接触过爬虫的,应该有这么一个需求,需要爬虫的网站千千万万,对于一个新的网站url,我们如何判断这个url我们是否已经爬过了?

解决办法还是上面的两种,很显然,都不太好。

③、同理还有垃圾邮箱的过滤。

那么对于类似这种,大数据量集合,如何准确快速的判断某个数据是否在大数据量集合中,并且不占用内存,布隆过滤器应运而生了。

二、布隆过滤器简介

带着上面的几个疑问,我们来看看到底什么是布隆过滤器。

布隆过滤器:一种数据结构,是由一串很长的二进制向量组成,可以将其看成一个二进制数组。既然是二进制,那么里面存放的不是0,就是1,但是初始默认值都是0

如下所示:

Redis布隆过滤器第1张

①、添加数据

介绍概念的时候,我们说可以将布隆过滤器看成一个容器,那么如何向布隆过滤器中添加一个数据呢?

如下图所示:当要向布隆过滤器中添加一个元素key时,我们通过多个hash函数,算出一个值,然后将这个值所在的方格置为1。

比如,下图hash1(key)=1,那么在第2个格子将0变为1(数组是从0开始计数的),hash2(key)=7,那么将第8个格子置位1,依次类推。

Redis布隆过滤器第2张

②、判断数据是否存在?

知道了如何向布隆过滤器中添加一个数据,那么新来一个数据,我们如何判断其是否存在于这个布隆过滤器中呢?

很简单,我们只需要将这个新的数据通过上面自定义的几个哈希函数,分别算出各个值,然后看其对应的地方是否都是1,如果存在一个不是1的情况,那么我们可以说,该新数据一定不存在于这个布隆过滤器中。

反过来说,如果通过哈希函数算出来的值,对应的地方都是1,那么我们能够肯定的得出:这个数据一定存在于这个布隆过滤器中吗?

答案是否定的,因为多个不同的数据通过hash函数算出来的结果是会有重复的,所以会存在某个位置是别的数据通过hash函数置为的1。

我们可以得到一个结论:布隆过滤器可以判断某个数据一定不存在,但是无法判断一定存在。

③、布隆过滤器优缺点

优点:优点很明显,二进制组成的数组,占用内存极少,并且插入和查询速度都足够快。

缺点:随着数据的增加,误判率会增加;还有无法判断数据一定存在;另外还有一个重要缺点,无法删除数据。

三、Redis实现布隆过滤器

Redis 实现布隆过滤器的底层就是通过 bitmap 这种数据结构。业界比较好用的一个客户端工具——Redisson。

Redisson 是用于在 Java 程序中操作 Redis 的库,利用Redisson 我们可以在程序中轻松地使用 Redis。

下面我们就通过 Redisson 来构造布隆过滤器。

import org.redisson.Redisson;
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;
import org.redisson.config.Config;

public class RedissonBloomFilter {

    public static void main(String[] args) {
        Config config = new Config();
        config.useSingleServer().setAddress("redis://192.168.14.104:6379");
        config.useSingleServer().setPassword("123");
        //构造Redisson
        RedissonClient redisson = Redisson.create(config);

        RBloomFilter<String> bloomFilter = redisson.getBloomFilter("phoneList");
        //初始化布隆过滤器:预计元素为100000000L,误差率为3%
        bloomFilter.tryInit(100000000L,0.03);
        //将号码10086插入到布隆过滤器中
        bloomFilter.add("10086");

        //判断下面号码是否在布隆过滤器中
        System.out.println(bloomFilter.contains("123456"));//false
        System.out.println(bloomFilter.contains("10086"));//true
    }
}

这是单节点的Redis实现方式,如果数据量比较大,期望的误差率又很低,那单节点所提供的内存是无法满足的,这时候可以使用分布式布隆过滤器,同样也可以用 Redisson 来实现。

四、guava 工具实现布隆过滤器

guava 工具包相信大家都用过,这是谷歌公司提供的,里面也提供了布隆过滤器的实现。

import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnel;
import com.google.common.hash.Funnels;

public class GuavaBloomFilter {
    public static void main(String[] args) {
        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),100000,0.01);

        bloomFilter.put("10086");

        System.out.println(bloomFilter.mightContain("123456"));
        System.out.println(bloomFilter.mightContain("10086"));
    }
}

转自:https://www.cnblogs.com/ysocean/archive/2004/01/13/12594982.html

免责声明:文章转载自《Redis布隆过滤器》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Python3 tkinter基础 Label justify 多行字符串左对齐Android Service和广播下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Spring boot配置Dubbo三种方式

方式一使用注解的方式导入dubbo-starter在application.properties配置属性使用@Service暴露服务使用@Reference引用服务使用@EnableDubbo开启注解Dubbo功能或者配置包扫描dubbo.scan.base-packages=com.atguigu.gmall1开启注解、包扫描,配置一个即可这种方式可以在...

解决redis占用c盘空间问题

1  在redis的配置文件redis.windows.conf找到# heapdir <directory path(absolute or relative)>   在下面添加heapdir D:/temp/redis_heapdir/ 其中heapdir后面是自定义路径 2  到C:WindowsServiceProfilesNetwor...

深入理解Spring Redis的使用 (一)、Spring Redis基本使用

关于spring redis框架的使用,网上的例子很多很多。但是在自己最近一段时间的使用中,发现这些教程都是入门教程,包括很多的使用方法,与spring redis丰富的api大相径庭,真是浪费了这么优秀的一个框架。这里,我们就对比之前对spring orm中对hibernate的使用,来理解使用spring redis的使用。(本文章不做redis基本命...

android build.prop详解

# begin build properties开始设置系统性能 # autogenerated by buildinfo.sh{通过设置形成系统信息} ro.build.id=MIUI(版本ID) ro.build.display.id=oyang06_MIUI(版本号) ro.build.version.incremental=2.2.1(版本增量)...

网络_01 基本配置

一.交换机工作模式的进入与退出 Switch>enable进入特权模式 Switch#configure terminal 进入全局配置模式 Switch(config)#interface fastEthernet 0/1 进入接口模式 退出:exit(e) 二.基本配置信息 Switch(config)# hostname s1 配置主机名 Sw...

debian 中安装 phpmyadmin 并启用多服务器配置

更新系统 & 安装 $> su $> apt update && apt install phpmyadmin 配置 安装时,phpMyAdmin 一般至少会有两个地方需要用户干预: root 密码,这个可以留空,让它生成一个随机密码。特别是在debian 系统中:mysql的root帐号只能通过系统root帐号启用...