字符串转数字的hash函数-布隆过滤器

摘要:
优点与其他数据结构相比,布隆过滤器在空间和时间上具有很大的优势。此外,哈希函数之间没有任何关系,便于硬件并行实现。布隆过滤器不需要存储元素本身,并且在某些保密要求非常严格的场合具有优势。布隆过滤器可以表示整个集合,而不是任何其他数据结构。此外,通常不能从Bloon过滤器中删除元素。在减少误判率方面,已经做了大量工作,导致了布隆滤波器的许多变化。

布隆过滤器(Bloom Filter)

是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。

基本概念

编辑
如果想要判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路. 但是随着集合中元素的增加,我们需要的存储空间越来越大,检索速度也越来越慢(O(n),O(logn))。不过世界上还有一种叫作散列表(又叫哈希表,Hash table)的数据结构。它可以通过一个Hash函数将一个元素映射成一个位阵列(Bit array)中的一个点。这样一来,我们只要看看这个点是不是1就可以知道集合中有没有它了。这就是布隆过滤器的基本思想。

优点

编辑
相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势。
布隆过滤器可以表示全集,其它任何数据结构都不能。

缺点

编辑
但是布隆过滤器的缺点和优点一样明显。误算率是其中之一。随着存入的元素数量增加,误算率随之增加。常见的补救办法是建立一个小的白名单,存储那些可能被误判的元素。但是如果元素数量太少,则使用散列表足矣。
另外,一般情况下不能从布隆过滤器中删除元素。我们很容易想到把位列阵变成整数数组,每插入一个元素相应的计数器加1, 这样删除元素时将计数器减掉就可以了。然而要保证安全的删除元素并非如此简单。首先我们必须保证删除的元素的确在布隆过滤器里面. 这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造成问题。
在降低误算率方面,有不少工作,使得出现了很多布隆过滤器的变种。

基本的介绍到这,下面是介绍字符串转数字的一些hash函数,

算法大概有如下几种:

  • BKDRHash
  • APHash
  • DJBHash
  • JSHash
  • RSHash
  • SDBMHash
  • PJWHash
  • ELFHash

nodejs的安装包地址:https://www.npmjs.com/package/bling-hashes

使用方法如下

var bling = require("bling-hashes");
var hash = bling.bkdr("Hello world!"); ///< 501511565

免责声明:文章转载自《字符串转数字的hash函数-布隆过滤器》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇javap -v没有显示LocalVaribleTableautowire异常的三个情况下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

十一、散列表(一)

一、散列思想 散列表的英文叫“Hash Table”,也叫它“哈希表”或者“Hash表”。 散列表用的是数组支持按照下标随机访问数据的特性,所以散列表其实就是数组的一种扩展,由数组演化而来。可以说,如果没有数组,就没有散列表。 举个例子: 假如有89名选手参加学校运动会。为了方便记录成绩,每个选手胸前都会贴上自己的参赛号码。这89名选手的编号依次是1...

MySQL索引详解——full-text,b-tree,hash,r-tree

一、MySQL索引类型 mysql里目前只支持4种索引分别是:full-text,b-tree,hash,r-tree b-tree索引应该是mysql里最广泛的索引的了,除了archive基本所有的存储引擎都支持它. 1. full-text索引 full-text在mysql里仅有myisam支持它,而且支持full-text的字段只有char、var...

HashMap

一、HashMap底层实现 简单的可以从以下两个纬度去理解HashMap的底层实现原理。 数组:充当索引 链表:处理碰撞 HashMap用一个指针数组table,离散化key的作用,当加入一个 key 的时候,通过Hash算法,计算出 key所在的数组下标 i,如果table[i]位置的对象元素为null的时候,则直接将<key, value&...

集合与多线程面试

 集合 Java中集合和数组的区别? 一、集合和数组的区别区别1:数组既可以存储基本数据类型,又可以存储引用数据类型,基本数据类型存储的是值,引用数据类型存储的是地址值。 集合只能存储引用数据类型(对象)。集合也能存储基本数据类型(有点矛盾,看后句),但是在存储的时候会自动装箱变成对象。 区别2:数组长度是固定的,不能自动增长。 集合的长度是可变的,可以根...

JS iframe 跨域

转自:wujiajun1020 方案一、剪贴板 原理:IE本身依附于windows平台的特性为我们提供了一种基于iframe,利用内存来“绕行”的方案,在这里我称之为,本地存储原理。 缺点:不支持非IE浏览器,并且影响到用户对剪贴板的操作,用户体验非常不好,特别是在IE7下,受安全等级影响,会弹出提示框。 子页面在子域:demo.ioldfish.cn下...

java中BloomFilter(布隆过滤器)简单使用

简介 布隆过滤器适合大数据判重的场景,如网络爬虫中判断一个URL是否已经爬取过,判断一个用户是否在黑名单中,判断一个邮件是否是垃圾邮件,等等。优点:占用空间小,效率高,简而言之,就是以正确率换空间和时间。缺点:有一定的误判率,一个URL经过布隆过滤器判断没爬取过,那么一定没爬取过,一个URL经过布隆过滤器判断爬取过,可能并没有爬取过,这种情况会有误判。布隆...