介绍

共享数据竞争问题是并发系统中常见且难排查的问题.

什么是数据竞争?

当两个协程goroutine同时访问相同的共享变量,其中有一个执行了写操作,或两个都执行了写操作,就会出现数据竞争问题,导致数据异常.详情请参考Go内存模型详解:https://golang.org/ref/mem

如以下代码由于并发访问同一个map,存在数据冲突,一定概率导致数据异常,程序崩溃:

package mainimport "fmt"func main(){   c := make(chan bool)   m := make(map[string]string)   go func(){      m["1"] = "a"  //运行时,这里有个协程对m进行写操作      c 

多次执行后出现,程序崩溃,提示map并发写错误:

怎么使用数据冲突检测器?

在go中,已经内置数据冲突检测器,直接在go命令行添加参数-race即可,如以下4种方式:

  • go test -race mypkg //测试mypkg包
  • go run -race main.go //带冲突检测调试运行源代码main.go
  • go build -race main.go //带冲突检测编译源代码
  • go install -race mypkg//安装mypkg包

冲突报告格式

检测到冲突时,会按照以下格式打印冲突报告,它包含堆栈跟踪信息,以及协程编号,如:

➜  dataRace git:(master) ✗ go run -race main.go==================WARNING: DATA RACE  //警告: 数据冲突Write at 0x00c000124180 by goroutine 7:  //普通协程写操作  runtime.mapassign_faststr()      /usr/local/go/src/runtime/map_faststr.go:202 +0x0  main.main.func1()      /Users/xb/gitlab/go/go_core_program/sync/dataRace/main.go:9 +0x5dPrevious write at 0x00c000124180 by main goroutine:  //主协程写操作  runtime.mapassign_faststr()      /usr/local/go/src/runtime/map_faststr.go:202 +0x0  main.main()      /Users/xb/gitlab/go/go_core_program/sync/dataRace/main.go:13 +0xcbGoroutine 7 (running) created at:  main.main()      /Users/xb/gitlab/go/go_core_program/sync/dataRace/main.go:8 +0x9c==================2 b1 aFound 1 data race(s)  //找到一处数据冲突exit status 66

运行选项

GORACE环境变量用于设置数据冲突检测选项, 在执行go程序前设置该值即生效,格式如下:

GORACE="选项1=值1 选项2=值2 ..."

包含以下常用选项:

  • log_path (default stderr): 日志文件前缀,冲突检测结果存入log_path.pid. 特别的,如果配置为stdout则输出到标准输出,配置为stderr则输出到错误输出
  • exitcode (default 66): 检测到冲突时,程序的退出状态码,可以自定义,默认为66
  • strip_path_prefix (default ""): 为了使报告简洁,该选项用于去除文件路径中这些前缀
  • history_size (default 1): 每个协程goroutine内存访问历史大小为32K*2**history_size 个元素,增加该选项值可以避免在报告中出现"恢复堆栈失败错误",但是会增加内存开销
  • halt_on_error (default 0): 用于控制程序遇到数据竞争时,是否退出,默认不会退出,只打印错误信息.
  • atexit_sleep_ms (default 1000): 在主线程goroutine中等待多少毫秒后退出,默认1秒

排除单元测试

当你使用-race参数构建时,go命令定义了更多的构建标记,当你运行冲突检测时,你可以使用这些标记排除代码和单元测试,比如:

// +build !race   构建约束,用于排除有冲突的测试package foo// The test contains a data race. See issue 123. func TestFoo(t *testing.T) {// ... 包含数据冲突}// The test fails under the race detector due to timeouts.func TestBar(t *testing.T) {// ... 包含冲突检测超时导致失败的代码}// The test takes too long under the race detector. func TestBaz(t *testing.T) {// ...  包含在冲突检测下执行耗时太长的代码}

使用冲突检测时注意事项

当使用go test -race做冲突检测时,检测器只会检测运行时的冲突,没有执行的代码块不会进行检测,如果你的单元测试是不完全覆盖,你需要使用go build -race构建一个完整的二进制包进行检测

典型数据冲突场景

  • Race on loop counter 循环计数器冲突
package mainimport (   "fmt"   "sync")func main() {   //以下代码由于并发,同时获取值,存在冲突,所以i不会按照预期(012345)打印,比如打印55555,   var wg sync.WaitGroup   wg.Add(5)   for i := 0; i < 5; i++ {      go func() {         fmt.Println(i) // Not the 'i' you are looking for.         wg.Done()      }()   }}

解决办法:对变量拷贝一份出来,新的变量指向不同的内存地址

package mainimport (   "fmt"   "sync")func main() {   //读取本地拷贝值j,与i指向不同的地址,解决冲突   var wg sync.WaitGroup   wg.Add(5)   for i := 0; i < 5; i++ {      go func(j int) {         fmt.Println(j) // Good. Read local copy of the loop counter.         wg.Done()      }(i)   }   wg.Wait()}
  • 由于意外,共享了变量导致冲突
func ParallelWrite(data []byte) chan error {   res := make(chan error, 2)   f1, err := os.Create("file1")   if err != nil {      res 

解决办法: 重新分配err变量

..._, err := f1.Write(data)..._, err := f2.Write(data)...
  • 未加保护的全局变量
var service map[string]net.Addrfunc RegisterService(name string, addr net.Addr) {   service[name] = addr}func LookupService(name string) net.Addr {   return service[name]}

以上代码中,map在多个协程中并发中读写会导致冲突

解决方法: 使用互斥锁,保证同时只能读或者写

var (   service   map[string]net.Addr   serviceMu sync.Mutex)func RegisterService(name string, addr net.Addr) {   serviceMu.Lock()   defer serviceMu.Unlock()   service[name] = addr}func LookupService(name string) net.Addr {   serviceMu.Lock()   defer serviceMu.Unlock()   return service[name]}
  • 使用了不受保护的基本数据类型

基本数据类型,如bool, int, int64等也存在数据冲突,这种问题难以排查,一般都是由于非原子的内存访问引起的,如:

type Watchdog struct{ last int64 }func (w *Watchdog) KeepAlive() {   w.last = time.Now().UnixNano() // First conflicting access. 写操作,与下面的读操作构成冲突}func (w *Watchdog) Start() {   go func() {      for {         time.Sleep(time.Second)         // Second conflicting access. 这里是读操作         if w.last < time.Now().Add(-10*time.Second).UnixNano() {            fmt.Println("No keepalives for 10 seconds. Dying.")            os.Exit(1)         }      }   }()}

解决方法:使用通道或者互斥锁mutex, 也可以使用无锁的sync/atomic包,如:

type Watchdog struct{ last int64 }func (w *Watchdog) KeepAlive() {   atomic.StoreInt64(&w.last, time.Now().UnixNano()) //使用原子包存储方法}func (w *Watchdog) Start() {   go func() {      for {         time.Sleep(time.Second)         if atomic.LoadInt64(&w.last) < time.Now().Add(-10*time.Second).UnixNano() {  //使用原子包的读取方法            fmt.Println("No keepalives for 10 seconds. Dying.")            os.Exit(1)         }      }   }()}
  • 未同步的发送和关闭操作,如:
c := make(chan struct{}) // or buffered channel 这里也可以使用带缓冲的通道演示// The race detector cannot derive the happens before relation// for the following send and close operations. These two operations 下面的通道发送和关闭操作没有进行同步,导致冲突// are unsynchronized and happen concurrently.go func() { c 

解决方法:通道关闭前,增加一个读取操作,完成同步

c := make(chan struct{}) // or buffered channelgo func() { c 
  • 单例模式场景也使用锁避免冲突
package mainimport (   "fmt"   "sync"   "sync/atomic")//定义单例结构体type singleton struct {}var(   instance *singleton   initialized uint32  //初始化标志,用于标识是否已经被初始化   mu sync.Mutex  //互斥锁对象)func Instance() *singleton{   if atomic.LoadUint32(&initialized)==1{  //如果实例已经初始化,直接返回      return instance   }   //如果没有实例化,则用锁同步执行下面的代码,即同一时间只能有一个协程进入执行以下代码块   mu.Lock()   defer mu.Unlock()   if instance==nil{   defer atomic.StoreUint32(&initialized, 1)   instance = &singleton{}   }   return instance}func main(){   mySingleton := Instance()   fmt.Printf("单例模式得到的对象:%v", mySingleton)}
  • 与单例模式类似的,用锁实现某个方法只调用一次(DoOnce)
package mainimport (   "sync"   "sync/atomic")type Once struct{   m sync.Mutex   done uint32}//传入一个回调函数,保证只执行一次该回调函数func(o *Once)Do(f func()){   if atomic.LoadUint32(&o.done) == 1 {      return   }   o.m.Lock()   defer o.m.Unlock()   if o.done == 0 {      defer atomic.StoreUint32(&o.done, 1)      f()  //回调函数   }}

数据冲突检测器当前支持的系统

  • linux/amd64
  • linux/ppc64le
  • linux/arm64
  • freebsd/amd64
  • netbsd/amd64
  • darwin/amd64
  • windows/amd64

运行时开销

开启冲突检测,通常程序的内存使用会增加5~10倍,执行耗时增加2~20倍.

注意事项: 数据冲突检测器为每个defer和recover语句分配额外8字节,该内存直到协程退出才会释放,这意味着如果你有一个长时间运行的协程goroutine,它会周期性的调用defer和recover,导致程序内存使用持续增长,且这些内存分配不会显示在runtime.ReadMemStats(运行时读内存统计)和runtime/pprof(运行时性能调试工具pprof统计)中.

参考文档:

https://golang.org/doc/articles/race_detector.html

Go语言高级编程 (Advanced Go Programming)