背景

最近公司一个服务有上千台机器之前做了mesh化(部署了我们自研的sidecar)，业务方使用的是php，需要调用一个第三方的https接口，由于php是短连接的模型，导致每次请求都需要经过ca认证和tls握手，耗时大概在100+ms，而整个请求耗时平均200+ms，业务方只能忍受100ms的延迟(设置了100ms的超时)，导致整个业务逻辑不可用。
业务方找到我们，开始我们在sidecar上面配置了这个第三方接口的路由，帮助php维持了长连接，效果很不错，延迟降低到了平均60ms左右，0.3%左右的100+ms的超时，业务方能忍受这个比率。于是业务方非常高兴的上线了~
然而到了第二天早上6点多开始，100+ms超时导致的499比率持续上升，报警电话惊醒了我(mesh之后已经成了半个运维了)。
于是开始了各种常规排查，发现连接池中的连接被大量断开，于是询问第三方接口方，得到回复是他们把tengine的keepalive_timeout改短了，原因是我们的集群出口ip对他们接口建立了大量的连接(1000台机器*每台32个连接)，他们为了保护服务修改了网关的配置参数。
这样的回复。。。让我们意识到了需要收敛集群对外的连接数，我们想到了egress出口网关，于是，咔咔咔一顿配置修改和部署，我们把sidecar直接部署成了网关模式并配置好内部服务发现，转移各个微服务的流量路径(sidecar的魅力体现出来了，业务方完全无感知)，于是上线后通知第三方服务方改回原来的配置，惊喜的发现平均延迟降低到了20ms，99延迟达到了70ms，成功满足了业务方最大100ms延迟的需求(否则业务方就要去告诉产品实现不了这个需求了~)

梳理

开始php https短连接ca认证检查大概需要100ms，tls握手耗时在70ms左右，第一步的sidecar让连接次数变得很少，把平均延迟降低到了60ms，但是由于存在大量线上节点，而每个节点调用这个第三方接口qps只有0.x，导致连接池利用率很低，还是会存在比较高的连接重建(空闲连接都断开了)，所以需要引入一个统一的出口网关，把大量连接池收敛到了集中的网关，使得网关连接利用率提高，重建连接次数急剧减少，把平均延迟降低到了20ms，当然还有一个好处是可以不给三方接口带来比较大的连接压力~
基本思想就是用内网的低延迟建立连接换取外网高延迟建立连接(n个连接池每个连接池m个平均连接的情况，比统一收敛到一个连接池使用的连接会大很多，收敛后可以选择的空连接池大了，连接利用率也就上升了)

《对servicemesh 出口egress网关的一些理解(如何做到降低了10倍的外部接口延迟)》有18个想法

Pingback： minoxidil onset clinical data
Pingback： ivermectin systemic exposure
Pingback： ivermectin scabies FAQ
Pingback： terbinafine side effects medical reference
Pingback： tadalafil tablet female
Pingback： metronidazole 0.75 gel brand name
Pingback： rogaine solution ingredients
Pingback： topamax for migraines
Pingback： semaglutid receptfritt tabletter apoteket
Pingback： semaglutide ozempic doses
Pingback： avanafil pills price
Pingback： xenical instructions
Pingback： doxycycline 100 mg
Pingback： nexium otc generic
Pingback： fluconazole 100 mg tablet for yeast infection
Pingback： what is misoprostol
Pingback： tadalafil without prescription
ZHOU说道：

2019年7月5日下午9:25

虽然看不懂，但就是觉得学长很强

回复

┢玩━乐━园┧

dawxy

对servicemesh 出口egress网关的一些理解(如何做到降低了10倍的外部接口延迟)

背景

梳理

《对servicemesh 出口egress网关的一些理解(如何做到降低了10倍的外部接口延迟)》有18个想法

发表回复取消回复

背景

梳理

《对servicemesh 出口egress网关的一些理解(如何做到降低了10倍的外部接口延迟)》有18个想法

发表回复 取消回复

发表回复取消回复