hashset 是一种很是高效的数据结构,插入和查询的复杂度都是 O(1),基本上能知足大部分场景的性能需求,但在一些特殊的场景下,频次很是高的调用依然会成为性能瓶颈(用 pprof 分析),好比广告里面的定向逻辑,在一次请求中过滤逻辑可能会执行上千次,而其中有些过滤恰好都是一些枚举值,好比性别定向,年龄定向等等,对于这种能够用枚举表示的值能够用 bitset 优化,能有20多倍的性能提高git
bitset 的本质也是一种 hashset,只不过哈希桶用一个 uint64 来表示了,uint64 中的每一位用来表明一个元素是否存在,若是为1表示存在,为0表示不存在,而插入和查询操做就变成了位运算github
bitset 实现
bitset 的实现比较容易,下面这个是一个只支持枚举值不超过64的版本,固然也能够拓展到任意长度,使用一个 uint64 数组做为 hash 桶便可golang
type BitSet struct { bit uint64 } func (bs *BitSet) Add(i uint64) { bs.bit |= 1 << i } func (bs *BitSet) Del(i uint64) { bs.bit &= ^(1 << i) } func (bs BitSet) Has(i uint64) bool { return bs.bit&(1<<i) != 0 }
性能测试
func BenchmarkSetContains(b *testing.B) { bitset := NewBitSet() hashset := map[uint64]struct{}{} for _, i := range []uint64{1, 2, 4, 10} { bitset.Add(i) hashset[i] = struct{}{} } b.Run("bitset", func(b *testing.B) { for i := 0; i < b.N; i++ { for i := uint64(0); i < uint64(10); i++ { _ = bitset.Has(i) } } }) b.Run("hashset", func(b *testing.B) { for i := 0; i < b.N; i++ { for i := uint64(0); i < uint64(10); i++ { _, _ = hashset[i] } } }) }
BenchmarkSetContains/bitset-8 500000000 3.81 ns/op 0 B/op 0 allocs/op BenchmarkSetContains/hashset-8 20000000 89.4 ns/op 0 B/op 0 allocs/op
能够看到 bitset 相比 hashset 有20多倍的性能提高数组