当我们需要从一串很长的字符串中获取一部分时,是不是有点恼火,特别是有中文在里面的时候,就是那些一个字符占几个字节的数据。

字节切片截取的方式

我们可能会常做的事就是像这样:

s := "abcdefghijk"
fmt.Println(s[1:4])

这样获取字符串部分数据傻没毛病,正常情况下,golang中字符串是不变的,我们直接采取这种方式可以达到我们的目的。
我们知道这是按字节截取,在处理 ASCII 单字节字符串截取,没有什么比这更完美的方案了,但是当我们的字符串中出现了中文数据,中文往往占多个字节,在 utf8 编码中是3个字节,如下程序我们将获得乱码数据:

s := "Go 你好呀!"
fmt.Println(s[1:4])

类型转换 []rune

上面中文乱码的情况,我们可以使用golang内置的rune,将字符串转为[]rune,然后按切片语法截取,再把结果转成字符串。

s := "Go 你好呀!"
rs := []rune(s)
fmt.Println(strings(rs[1:4]))

这种方式相信大家都知道它的弊端,因为类型转换带来了内存分配,这产生了一个新的字符串,并且类型转换需要大量的计算,不仅耗时多了,而且还分配了内存。

好方法

我们知道字符串底层是有一个字节数据保存实际数据的,我们想要达到截取含多字节的字符串时,只需要知道截取的范围中,起始字节索引和结束字节的索引,就可以继续采用字节切片的方式截取字符串啦!
utf8 包中,它提供了多字节计算相关的工具,其中就有,utf8.DecodeRuneInString 函数可以转换单个字符,并给出字符占用字节的数量,
我们写一个方法:

func SubStrDecodeRuneInString(s string, length int) string {
	 var size, n int
	 for i := 0; i < length && n < len(s); i++ {
		  _, size = utf8.DecodeRuneInString(s[n:])
		  n += size
	 }
 	return s[:n]
}

写个性能测试来检测一下效果:

var str = "Go语言是Google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的编程语言。为了方便搜索和识别,有时会将其称为Golang。"
var subLen= 20
func BenchmarkSubStrDecodeRuneInString(b *testing.B) {
	for i := 0; i < b.N; i++ {
	 	SubStrDecodeRuneInString(str, subLen)
	}
}
goos: darwin
goarch: amd64
pkg: test/utf8/benchmark
BenchmarkSubStrDecodeRuneInString-8     10874723               100 ns/op               0 B/op          0 allocs/op
PASS
ok      test/utf8/benchmark     1.050s

有点小激动,效果还不错
当然,还有一种方法,就是利用rang,range 是按字符迭代的,并非字节。使用 range 迭代字符串时返回字符起始索引和对应的字符,这样,我们就也可以写出一个方法出来啦!

func Str(str string, length int) string {
	var i,n int
	for i = range str {
		if length == n{
			break
		}
		n++
	}
	return str[:i]
}

知识是死的,方法是活,加油学习每一天!!!