Go进阶训练营 – 微服务概览与治理三：gRPC & 服务发现

什么是gRPC？

A high-performance, open-source universal RPC framework。
语言中立，公司里可能存在不同语言的服务需要交互。
- 统一采用gRPC作为服务之间的通信协议，可能存在其他性能更好的解决方案，但不要过早关注性能问题，先标准化更重要。
轻量级、高性能，序列化比JSON性能好
可插拔，支持插件，例如gRPCGetway插件可以生成http接口，默认只生成gRPC接口。协议可插拔，支持JSON、xml等。
IDL：代码即文档，避免接口文档未更新的情况。
快速生成接口服务端、客户端代码，服务端已定义好接口，自己实现下就行。
移动端：基于标准的 HTTP2 设计，支持双向流、消息头压缩、单 TCP 的多路复用、服务端推送等特性，这些特性使得 gRPC 在移动端设备上更加省电和节省网络流量。
- 数据库连接池产生的原因是协议设计缺陷，具体参照下面的http协议演进
负载无关的：支持 protocol buffers、JSON、XML 和 Thrift。
流：Streaming API，一边传输，一边读取，不用等大文件传输完再读取。
阻塞式和非阻塞式：支持异步和同步处理在客户端和服务端间交互的消息序列。
元数据交换：类似http header，常见的横切关注点，如认证或跟踪，依赖数据交换。
标准化状态码：客户端通常以有限的方式响应 API 调用返回的错误。约束状态码名称空间，以使这些错误处理决策更加清晰。
相对于直接定义restful接口的优势：接口定义更加明确，请求体、响应体通过message定义出来，而直接定义restful接口，体现方式不统一，接口文档（维护性差）？第三方平台？服务端直接定义+swagger？

gRPC - HealthCheck

gRPC 有一个标准的健康检查协议，默认提供用于设置运行状态的功能。

使用示例

client

server

健康检查的应用

服务发现双保险

消费者可以直接感知提供者的状态，保障消费者和注册中心网络不稳定的情况下，也能及时将异常服务提供者从本地负载均衡池中移除。同理，提供者正常运行后，也能被消费者感知，重新加入负载均衡池。

应用平滑发布

老版本注销

k8s向注册中心发起注销请求
k8s向容器发送SIGTERM信号，相当于kill命令。
应用将gRPC服务状态设置为不健康，并等待两个心跳周期，保障那些没有被注册中心通知到的消费者感知到，避免流量进入。
等待正在处理的请求处理完毕，k8s可以做个兜底，2分钟没退出就强制干掉容器，相当于kill -9 。
进入优雅退出过程，断开连接之类的。
退出容器

新版本创建

创建容器
通过外挂的方式，检查应用状态。
应用启动完毕后，设置gRPC服务状态设置为健康。
外挂的辅助脚本检测到应用健康，进行注册到注册中心。

为什么不是应用自己去注册？

剥离注册功能，下沉到辅助脚本里。避免所有应用（不同语言）都需要配置、提供注册功能。

为什么不直接使用k8s的探针来检测应用健康？

因为k8s 1.23以前不支持检测gRPC服务，只能发送http请求，或者是检测TCP端口的连通性。

k8s 1.23 以前如何检测 gRPC 服务状态？

服务发现 - 客户端发现

由注册中心做服务发现，并下发服务注册表到消费者，负载均衡在客户端完成。

去中心化——微服务核心理念
直连，性能更好
缺点：需要所有应用内置本地负载均衡组件，不同语言的应用，使用的负载均衡组件还不同。可使用service mesh优化，在k8s中使用sidecar来做负载均衡，从应用中独立出来，下沉为单独组件。
ribbon就是这么干的，之前有写过博客：【SpringCloud】五、Ribbon

服务发现 - 服务端发现

由注册中心做服务发现，并提供一个负载均衡器，从注册中心查询服务注册信息，客户端统一请求负载均衡器。

lvs+nginx集群Consul Template+Nginxkubernetes+etcd

服务发现

各注册中心对比

B站为什么从zookeeper切换到eureka？

zk保证了写操作一致性、分区容错。但leader节点挂掉后，会进行选举新的leader节点。期间整个zk是不能对外提供服务，大概会持续几十秒。从而失去可用性。并且大量服务长连接导致性能瓶颈。

而使用gRPC的服务发现这个场景下，一致性是可以弱一点的，带来的影响是：1、消费者没能拿到新注册的提供者地址，那就等一会呗。2、消费者拿到已注销的提供者地址，由于做了gRPC健康检查，并不会去调用该服务，会选择存活的服务。

而eureka就属于AP阵营，保证可用性，没有主节点，其他节点都挂掉，只剩一个节点也能对外提供服务。

服务发现架构

通过 Family(appid) 和 Addr(IP:Port) 定位实例，除此之外还可以附加更多的元数据：权重、染色标签、集群等。
- appid: 使用三段式命名，business.service.xxx
Provider 注册后定期(30s)心跳一次，注册，心跳，下线都需要进行同步，注册和下线需要进行长轮询推送。
- 新启动节点，需要 load cache，JVM 预热。
- 故障时，Provider 不建议重启和发布。
  - 某个eurak挂了，不要马上主动重启，因为新启动的enuraka里没有任何服务注册信息，这时候有服务来拉取服务注册信息，就会导致该服务无法访问其他服务。如果立即重启，需要做控制，例如启动后等待数据同步完毕才对外提供服务。
  - 全部eureka节点都挂了，全部重启后，需要等待2、3个心跳周期，等服务都注册好后，在对外提供查询服务。
Consumer 启动时拉取实例，发起30s长轮询。故障时，需要 client 侧 cache 节点信息。
- 长轮询：客户端发送请求拉取数据，如果此时服务端没有产生的数据，就不暂时不响应，等有数据或者达到超时时间（例如30秒），再响应。也就是这个请求会挂起。有效减少轮询场景下的请求数量。
Server 定期(60s) 检测失效(90s)的实例，失效则剔除。短时间里丢失了大量的心跳连接(15分钟内心跳低于期望值*85%)，开启自我保护，保留过期服务不删除。

B站是重写了eureka，做了这些改进，不清楚这是eureka本身的特性还是B站改进后的。

其他

分布式系统的 CAP 定理

分布式系统的三大指标

Eric Brewer 说，这三个指标不可能同时做到。这个结论就叫做 CAP 定理。

Partition tolerance

分区容错性，多数分布式系统都分布在多个子网络，每个子网络就是一个区。分区容错的意思是，允许区间通信失败，也就是节点之间通信失败。强调节点的独立性。

分布式系统中，网络异常是很难避免的，因此可以认为 CAP 的 P 总是成立。CAP 定理告诉我们，剩下的 C 和 A 无法同时做到。

Consistency

一致性，由于是分布式系统，多节点设计，就得考虑一致性问题，即访问分布式系统，和访问单体应用一样，下一次读操作一定能读到上一次的写操作结果。是不是有点像多线程并发，只是将线程换成了节点。

Availability

可用性，整个分布式系统能正常对外提供服务。

为什么一致性和可用性不能同时满足？

假如节点之间数据同步失败，整个系统还是要对外提供服务，也就是以分区容错为基础。

如果要保证一致性，那么同步失败的节点就不能对外提供服务，得等到数据同步成功才能恢复，失去可用性。
如果保证可用性，那么访问到未同步数据的节点，就会得到脏数据，失去一致性。

所以得结合实际使用场景，在设计阶段，对一致性和可用性进行取舍。

http协议演进

Http 1.0

存在的问题

无法复用链接：每个请求都需要建立TCP链接。
对头阻塞：第二个请求必须等第一个请求响应后才能发起。

Http 1.1

特性

默认使用长连接，可配置Keep-alive来控制连接时间
支持请求管道化，客户端可以发送多个请求，而不用等待前一个请求响应。

存在的问题

为了让客户端识别请求对应的响应，服务端响应时，必须按照请求的顺序进行响应，哪怕第二个响应准备好了，也得等第一个响应先返回。

Http 2.0

特性

采用二进制格式传输数据，而非Http 1.x的文本格式，解析更高效。
HTTP 1.x的请求和响应报文，都是由起始行，首部和实体正文（可选）组成，各部分之间以文本换行符分隔。HTTP2.0 将请求和响应数据分割为更小的帧，并且它们采用二进制编码，乱序发送，最终组装。
压缩header，并缓存header。
同个域名只需要占用一个TCP连接，使用一个连接并行发送多个请求和响应。
多个请求之间、多个响应之间互不影响，实现并发。

存在的问题

由于复用一个TCP链接，一旦出现丢包，就得重传，后面所有请求都被阻塞。

Http 3.0

特性

谷歌基于UDP 协议来定义的 QUIC 协议，应用到Http 3.0上。
不需要链接，所以没有额外的链接时间。
一个连接上的多个stream之间没有依赖，如果某个Stream丢了一个包，是不影响后续的Stream。
向前纠错：每个数据包除了它本身的内容之外，还包括了部分其他数据包的数据，因此少量的丢包可以通过其他包的冗余数据直接组装而无需重传。
加密认证的报文： TCP协议头部没有经过任何加密和认证，所以在传输过程中很容易被中间网络设备篡改。QUIC 所有报文头部都是经过认证的，报文Body都是经过加密的。
QUIC在移动端的表现也会比TCP好。因为TCP是基于IP和端口去识别连接的，这种方式在多变的移动端网络环境下是很脆弱的。但是QUIC是通过ID的方式去识别一个连接，不管你网络环境如何变化，只要ID不变，就能迅速重连上。

如何衡量网络的质量？

带宽

单位时间内传输的数据量。

时延

发送数据到就收数据总共花费的时间，包含发送时延，处理时延（网络设备），排队时延（网络设备），传播时延。

抖动

最大时延与最小时延的差值。

丢包

某些原因下会出现丢包，例如网络阻塞：某个网络设备处理不了这么多数据，有的数据包排队很久了，就可能会被丢掉。

多个微服务共享db

微服务中大部分是独占db，也有sharedatabase的情况，例如：具有高级权限的admin服务和面向用户的服务共享db

网关层如何收敛客户端多版本？

可通过请求的header进行路由

微服务之间的服务调用理论上是有向无环图（DAG, Directed Acyclic Graph），如何避免闭环调用？

通过链路追踪得到服务调用关系图，并在服务调用申请权限时进行阻止。

简单接口也要在BFF层定义吗？

BFF支持直接透传，例如一些简单的接口，不需要在BFF做什么，只需调用业务中台的服务就行。但流量还是不能直接从网关层到业务中台，需要在BFF配置路由，让流量经过BFF再到业务中台。

Go进阶训练营 – 微服务概览与治理三：gRPC & 服务发现

什么是gRPC？

gRPC - HealthCheck

使用示例

client

server

健康检查的应用

服务发现双保险

应用平滑发布

老版本注销

新版本创建

为什么不是应用自己去注册？

为什么不直接使用k8s的探针来检测应用健康？

k8s 1.23 以前如何检测 gRPC 服务状态？

服务发现 - 客户端发现

服务发现 - 服务端发现

服务发现

各注册中心对比

B站为什么从zookeeper切换到eureka？

服务发现架构

其他

分布式系统的 CAP 定理

Partition tolerance

Consistency

Availability

为什么一致性和可用性不能同时满足？

http协议演进

Http 1.0

存在的问题

Http 1.1

特性

存在的问题

Http 2.0

特性

存在的问题

Http 3.0

特性

如何衡量网络的质量？

带宽

时延

抖动

丢包

多个微服务共享db

网关层如何收敛客户端多版本？

微服务之间的服务调用理论上是有向无环图（DAG, Directed Acyclic Graph），如何避免闭环调用？

简单接口也要在BFF层定义吗？

参考