今年2月22日、AT&Tはネットワークアップデートの失敗により大規模な障害に見舞われました。それから数ヶ月が経ち、障害の全容が明らかになりました。そして、その規模は当時私たちが考えていたよりもはるかに大規模でした。
連邦通信委員会(FCC)は報告書の中で、「AT&Tの無線通信顧客向けのすべての音声サービスと5Gデータサービスが利用できなくなり、1億2500万台以上のデバイスが影響を受け、9200万件以上の音声通話がブロックされ、911コールセンターへの2万5000件以上の通話が妨げられた」と述べた。
おすすめ動画
911への接続障害は、ここで最大の問題となっていますが、その理由は容易に理解できます。緊急時に911に連絡しようとして繋がらないことほど最悪なことはありません。FCCの報告書には、AT&Tが一般家庭や法人のAT&Tユーザーよりも先に、FirstNet(First Responder Network Authority)の復旧を試みたことが示されています。これは正しい対応策のように思えます。

しかし、FCCは、ネットワーク変更の実装テストを怠ったことに加え、AT&Tが複数の不具合を起こしたことを批判しました。FCCは、プロセスが遵守されているか、あるいはプロセス自体が不十分であるかを検証するための監督と管理が不十分だったと指摘しました。また、AT&Tは、複数のユーザーデバイスが同時にネットワークに再接続しようとすることで発生する輻輳への備えも不十分でした。AT&Tのネットワークは、輻輳を緩和するのに十分な堅牢性を備えていませんでした。
この障害は、ワシントンD.C.、プエルトリコ、米領バージン諸島を含む全50州と準州に影響を及ぼしました。FCCは報告書の中で、AT&Tがベストプラクティスに従っていないことを批判しました。ベストプラクティスでは、すべてのネットワーク変更は実施前に徹底的にテスト、レビュー、承認を受けることが求められています。AT&Tが障害を解決し、サービスを完全に復旧させるまでには12時間以上かかりました。
もしこの出来事に少し見覚えがあるとしたら、それは先週世界中でMicrosoftデバイスが停止し、欠陥のあるコードを含む未テストのアップデートが展開されたCrowdstrikeの障害と非常によく似ているからです。また、Verizonも2022年12月に欠陥のあるアップデートファイルによる同様の障害に見舞われ、FCCから罰金を科せられ、同意判決を受ける事態となったため、かなり馴染み深いものとなっています。
AT&Tの功績として、同社は少なくとも障害の責任を認め、影響を受けた顧客に5ドルのクレジットを提供した。これは、ほとんどの人にとっては電話料金のほんの一部にも満たない金額だっただろう。プラス面としては、FCC(連邦通信委員会)による処分はより厳しくなる可能性が高い。連邦公安・国土安全保障局は、FCC規則違反の可能性を調査するため、FCC執行局にこの件を付託するだろう。

責任があると判断された場合、AT&Tはより多額の罰金を科せられ、コンプライアンス計画の実施を義務付けられる可能性があります。これは、2022年12月に発生したサービス停止でベライゾンが先月105万ドルの罰金を支払わされたのと同じです。対策としては、AT&Tはサービス停止から2日以内に新たな技術的制御を実施しました。
FCCは、「これには、ネットワークをスキャンし、障害を防ぐための制御が不足しているネットワーク要素を特定し、速やかにそれらの制御を導入することが含まれていました。AT&Tは継続的なフォレンジック調査を実施し、ネットワークの堅牢性と回復力を高めるための追加機能強化を実施しました」と述べています。同社はまた、「ピアレビューのための追加手順を導入し、必要なピアレビューの完了が確認されない限り、メンテナンス作業を実施できないようにする手順を導入しました」と述べています。
これは、少なくともAT&Tにとっては、今後の障害を防ぐのに役立つはずです。しかし、テストされていないアップデートがリリースされる原因となる障害は業界全体に蔓延しているようですので、今回の件が企業にとって警鐘となることを期待します。