首页 > 经验 > 关键词  > DNS缓存中毒最新资讯  > 正文

记一次惊心动魄的 DNS 缓存引发的惨案

2017-09-01 09:40 · 稿源:ityouknow
文章目录

时间 2015 年的某个周六凌晨 5 点,公司官方的 QQ 群有用户反馈官网打不开了,但有的用户反馈可以打开,客服爬起来自己用电脑试了一下没有问题,就给客户反馈说,可能是自己网络的问题,请过会在试试。

但是到了早上点 8 点,越来越多的用户反馈官网无法打开,并且有部分用户开始反馈 App 也打不开了,客服打电话叫起了还在梦乡中的我。

分析定位

被客服叫起来之后,我一脸懵逼,不知道什么情况。然后给客服回复,知道了,立刻排查,待会有消息及时沟通。

用凉水洗了一把脸清醒了一下,立刻根据经验回忆这两天生产投产的情况:上线了 XX 模块,不影响;修复了 XXBug,应该也不影响;刚给服务器配置了 https,看起来好像有点关系,但是 App 暂时没有投产 https,不会出现问题,排除之。

打开电脑核查了最近的投产记录应该都不至于发生这么严重的问题,随之怀疑是不是网络方面有问题,立刻打电话叫起来运维经理以及相关人等一起排查。

一边让网络和运维排除问题,一边再次核查了 Web 服务器、数据库服务器、业务日志、数据库日志,以及其它的一些监控数据,各项皆正常。

试着在本机 ping 了一下域名确实不通,更加怀疑是网络问题,尝试着直接使用外网访问,可以打开没有问题,可以基本确认服务没有问题,但运维部反馈网络设备什么都正常,肯定是你们投产代码出问题了,各方硬着头皮继续在排查。

9 点,群里开始有大规模的用户反馈官网和 App 都打不开了,更有部分用户煽动,XXX 公司跑路了(2015 年很多 P2P 公司跑路,导致用户都成了惊弓之鸟,稍微有问题便害怕公司跑路,个个都锻炼成了监控高手,天天看,实时刷,凌晨起来尿尿也都顺便看一下 App 上的今日收益),客服 400 热线基本被打爆了。

一边继续排查问题,一边上报此问题给总监、公司各高管,给客服建议,给用户解释,IDC 机房网络抖动,技术正在紧急解决,资金和数据都没有任何影响,稍安勿躁。

10 点,开发和运维反复的检查后,开始怀疑 DNS 解析有问题,但具体是什么问题还不清楚。

于是 CTO 决定:

  • 大家都打车往公司走,来公司集体解决。

  • 在各 QQ 群、微信群给用户群发解释 xxx 问题,安抚客户。

在车上的时候重新梳理了一下用户的整个访问流程,如下图:

到公司后,根据这个思路大家在一起验证了一下,通过外网 IP 和内网 IP 访问公司所有服务都正常,但是通过域名访问不行,另外监控服务器、防火墙、网络设备日志都正常,因此断定是 DNS 解析出现问题。

攻坚问题

既然确实是 DNS 解析问题,那么问题又来了?为什么 DNS 解析会出现问题?如何去解决这个问题?

一边给万网提工单,我们也自己测试一下电信、移动、联通在不同的网络运营商下面的访问情况,发现只有在联通网络的环境下 DNS 解析不了。

根据客服得到的反馈也验证了这个情况,电信和移动用户反馈很少,联通用户反馈最多。

于是我们又开始给联通打电话,刚开始联通不受理我们的这个请求,于是又开始以用户的身份打电话给联通公司让立刻解决不能上网的问题。

于是就开始了万网和联通的扯皮大战,万网说从他们那边查看 DNS 解析都正常,一切指标都正常。我们又给联通打电话,联通说我们已经知道了,待会由专业的人给我们回复。

过了一会联通的网络工程师回复说,像这种情况一般都是域名解析的问题。早上 10:30 到公司开始短短的 6 个小时内,我们几个轮流给联通公司合计共打了近 50、60 通电话,给万网提了 N 个工单,接了 N 个电话。

期间领导也开始动用各种关系,联通内部的朋友、网络运维界的大拿帮忙来定位解决,我们也尝试了很多的办法。

比如,使用 ipconfig/flushdns 命令清除本机的 DNS 缓存、在万网的官网把 DNS 解析重新更新一遍、删除再重新添加等等,也不是完全没有收获。

我们一直想找一个可以测试各个地方、运营商网络的办法,终于在各方推荐和搜索的情况下找了 17ce 和  360 奇云测 两个网站,感觉非常实用。

在以后的网络定位中,成了我必备使用的工具,可以非常方便的监控各个运营商、各个地区网站的访问通不通、访问的速度快不快等问题,截图如下:

我们也发现,公司的其它域名也都访问正常,就是官网的这个域名和相关的子域名不通。

期间很多人都问了一个问题就是你们的域名有没有忘了缴费,刚开始大家也问了运维这边说是没有这个问题,直到中午 12:30 的时候在我们再三的追问下才说 8 点多的时候登录上万网的时候显示这个域名是欠费状态,但是他已经立刻把费用补了上去了。

哎呀!差点把我们气死,问了不是域名到期有提示的吗?才知道因为上一个运维经理走后,他们没有及时的更新万网的电话和邮箱,导致提示邮件和短信也没有收到。

通过和万网、联通公司、领导的相关朋友沟通以及我们的测试观察,初步明白了这个事情的原因:域名忘记缴费导致万网的 DNS 解析被停止,用户本机或者 DNS 服务器有缓存,所以部分用户可以访问,部分用户不能访问。

缴费过后,万网的 DNS 已经进行了更新和推送,但是 DNS 解析有很多的层级需要一级一级的往下面发送更新,有的层级并没有更新到,导致部分没有更新到的 DNS 服务商下面的用户不能访问官网。

和万网进行了沟通,问最延迟的情况所有的 DNS 更新到最新的时间,回答是 48 小时内肯定都会好的,但是我们等不起呀。

随着时间的推移越来越多的用户发现问题,QQ 群、微信群已经沸腾,董事长也开始关注此问题,有的客户直接在群里面说,你们的技术太不给力了(像这种还是委婉的,有的直接打电话骂人)…

  • 相关推荐
  • 大家在看
  • 微信内测「深度清理」功能 开启可清理缓存数据

    微信对很多人来说有这样的一个烦恼,那就是占据了手机大量的存储空间。日前,有消息称,微信正在内测「深度清理」功能,而这将方便大家释放手机存储空间。

  • 西数推出WD Red SN700系列固态红盘:主打NAS缓存应用

    在收购闪迪(SanDisk)几年后的 2019 年 4 季度,西部数据开始推出面向网络附加存储(NAS)市场的 WD Red SSD 产品线。针对特定的缓存应用场景,这些 SATA / M.2 SATA 固态硬盘选用了 Marvell 的 88SS1074 主控。随着分层存储的日益普及,以及非易失性主机存储控制器(NVMe)接口规范的普及,西数现又为 WD Red 产品线带来了一个新成员。它就是本文的主角 —— WD Red SN700 系列 PCIe 3.0 x4 M.2 NVMe 固态红盘。容量方面,其提供

  • Windows 11将于本月晚些时候修复AMD锐龙CPU L3缓存性能问题

    上周,WCCFTech 报道了 AMD 锐龙 CPU 在 Windows 11 操作系统中可能面临性能跳水 15% 的问题,后续调查发现其与 L3 缓存延迟和 UEFI CPPC2 配置文件有关。最新消息是,AMD 将于下周二(10 月 19 日)提供 L3 缓存性能修复补丁,且 Windows 11 用户会在两天后(10 月 21 日)迎来新版 CPPC 驱动程序。某位锐龙 R5-5600X 用户躺枪(图自:微软官网社区)AMD 表示,那些对内存子系统访问时间较为敏感的应用程序,更易受到 L3 缓存延迟

  • 微信占用上百GB空间?官方内测深度清理功能:一键清理缓存

    腾讯的微信团队时不时会折腾一些被网友吐槽的新功能,不过也有一些功能值得期待,能解决痛点。针对微信占用大量存储空间的问题,现在微信正在内测深度清理功能,可以一键清理缓存,释放空间。微信是现代人使用最频繁的手机APP之一,日积月累会占用大量存储空间,很多人的手机中最占空间的就是微信,少则几十GB,多的有上百GB空间。对于空间清理,第三方应用可以清理微信的缓存及文件,只不过大家不太放心,生怕删错文件。现在微信?

  • 移动云智能DNS云解析服务,秒级部署安全可靠

    2017年11月,国家印发《推进互联网协议第六版(IPv6)规模部署行动计划》,明确提出未来5到10年我国基于IPv6下一代互联网发展的总体目标、路线图、时间表和重点任务。河北易县人民政府积极响应国家要求,携手移动云推进政府网站IPv6的改造工作。要使用IPv6服务,首先需要DNS支持IPv6解析,移动云云解析产品,通过设置A或AAAA记录,实现网站域名到IP地址的智能权威解析,同时提供抗DDoS攻击能力,保证了访问线路的安全性,最终成功?

  • Facebook大规模服务中断事件调查:BGP与DNS服务器离线所致

    BGP 是“边界网关协议”的缩写,作为一套允许在互联网上的自治系统(AS)之间交换路由信息的机制,其在刚刚过去的 Facebook 大规模服务中断事件中也扮演了重要的角色。Cloudflare 指出,BGP 使得互联网上工作的大型路由器能够拥有庞大的、不断更新的可能路由列表,从而将各个挽留过数据包送达最终的目的地。(图自:Cloudflare)若缺乏 BGP,互联网路由器将不知如何正确工作。毕竟 Internet 的本意,就是在 BGP 绑定之下、一个套着

  • 美图秀秀被罚关闭网站

    近日,益阳市网信办根据《中华人民共和国网络安全法》,对美图秀秀网作出行政处罚。

  • Linux Mint全新网站已上线

    全新的 Linux Mint 网站已经上线。Mint 的开发人员表示,近期正在进行主页的改版工作,甚至还邀请社区对拟议的设计提供反馈。所有这些合作努力都得到了回报,新的 Linux Mint 主页已经上线。除了给潜在新用户提供有吸引力的第一印象之外,全新的 Linux Mint 网站还传达了“为何这个特别的 Linux 发行版本是其他系统(例如 Windows)的可靠替代者”的核心原因。

  • AirTag“丢失模式”漏洞可以将用户重定向到恶意网站

    根据KrebsOnSecurity发布的新报告,AirTag的丢失功能,允许任何人用智能手机扫描丢失AirTag找到主人的联系信息,并且可以被滥用于网络钓鱼诈骗。

  • Dedecms系统网站如何免费一键转移,导入建宝盒?

    「建站宝盒」作为国内知名的智能建站工具,发展至今15年了,作为老牌建站系统,一直不断迭代更新中,9月30日推出了「Dedecms网站免费一键转移的功能」 。据说在国庆假期期间,已经有十几个客户转移导入成功了,看到他们有一位客户在10月6日一次性导入了700多篇文章。有图有真相,看下图。从Dedecms网站之前发布的公告上可以看到,Dedecms产品截止到10月25日需要完成转移或取得相关授权,简单点说,也就是留给各位站长的时间不多了?

这篇文章对你有价值吗?

  • 热门标签

热文

  • 3 天
  • 7天