助けてください!インターネットのページが見れなくなったんです!

 会社勤めをされている方なら、パソコンやネットワークの調子が悪くなった時、システム管理者に電話で助けを求めたことが一度ならずあるかと思います。「このくそ忙しい時にパソコントラブルかよ!勘弁してよ~!」といらいらしながらかけたその電話先で、システム管理者が何を考え、何をしているのか、サンプル事例をご紹介したいと思います。

スポンサーリンク

prologue それは一本の電話から始まった~インターネットが見れません~

「はい、○○です。」
「○×事務所の○○です。インターネットのページが見れません。」
「それはお困りですね。すぐに原因を調べますので安心してください。まず、具体的な症状をお伺いしたいのですが、5分ほど時間をいただけますか?」
「大丈夫です。」

 この段階で、問い合わせのあった拠点ルータへpingを打ち、反応があるようなら更にリモートログインを行います。障害の原因が自社内にあるのか自社外にあるのかを切り分けるために、境目のルータの動作を確認します。
ルータping OK
ルータログイン OK

 システム障害が発生しているユーザさんは怒っている、戸惑っている、困っている、苛立っているなどなど複雑な感情をお持ちですので、ゆっくり・はっきりした口調で安心させると同時に、手元では慌ただしく情報収取を始めています。

 間違っても「インターネットのページが見れないの意味がわかりません。ひょっしてブラウザ上から、特定URLのwebページが閲覧できない、ということですか?」などとやってはいけません。

mission1 事件がいつ起きたのか特定せよ!

「ありがごうとざいます。「インターネットのページが見れない」とのことでしたが、それはいつからですか?」
「昼休みから帰ってきたら、見れなくなっていました。」
「午前中は問題なく見れましたか?」
「はい」

 障害発生日時を大まかに特定しています。手元では、ルータのステータスをざっと確認した後に、ログを収集し聞き取った時間近辺に異常がないかざっくり確認しています。また、自席の管理PCおよび障害発生拠点ルータから、対象ユーザのPCに対してpingを打ちLAN内に異常がないか確認作業を始めています。ルータおよびルータの内側(自社側)の経路に異常がないか確認しています。
ルータステータス OK
ログ おおむねOK
対象ユーザへのping NG

mission2 現場で何が起きているのか!事件の具体像を洗い出せ!

「わかりました。それでは表示されないページのアドレスを教えてください。」
「www.○○○」

 障害対象の確認です。URLを聞き取り、自席およびルータ上からpingを打ち、ipアドレスの特定および疎通確認、さらに自席ブラウザから対象URLが正常に表示されるか確認していきます。ルータの外側に異常がないか確認しています。
対象webページの表示(自席) OK
対象webページへのping(ルータ) OK

「復唱します。www.○○○ですね。それでは、ブラウザ上にエラー内容が書かれているかと思うのですが、何と書かれていますか?」
「○○はこのページを表示することができませんでした」と書いています。

 障害内容の確認です。状況によっては、最初に聞き取ったほうがいいケースもありますが、ここではルータ内外の経路異常の当たりをつけてから聞き取っています。

mission3 他に被害者がいないか確認せよ!

「ありがとうございます。次に、ほかのページが表示されるか調べたいと思いますので、ブラウザのホームボタンをクリックしてみてください。」
「はい、クリックしました。でも、やはり表示されません。」
「エラーの内容は先ほどと同じですか?」
「はい、同じです。」

 障害の範囲の確認です。特定のwebサイトのみに限定されているか、不特定のwebサイトでも障害が発生しているかの確認です。ここでは、見慣れたホーム画面で確認してもらっています。ただし、キャッシュが表示されているケースもあり得るので要注意です。

「ありがとうございます。次に、メールが正常に受信できているか確認したいと思いますので、メールソフトの○○を起動していただき、メールを受信してみてください。」
「メールも受信できません。」

 引き続き障害の範囲の確認です。今度はアプリケーションレベルでの範囲を確認しています。ここでも、わかりやすいメールクライアントを使って確認しています。

mission4 凄惨な事件現場の外にも目を向けろ!

「わかりました。次に、近くの席の方で同じような障害が発生していないか聞いていただけますか?」
「特に問題はないようです。」

 更に障害の範囲の確認、今度は物理的な範囲の確認です。たとえばハブの障害が発生しているケースですと、シマ内の限局的な範囲で同様の障害が発生します。

mission5 急転直下!犯人を確保せよ!

「ありがとうございます。それでは、少し詳しく見ていきたいと思います。LANケーブルは入っていますか?」
「あ!」
「入っていないようでしたら差し込んでいただき、先ほど見ることのできなかったwebページをもう一度表示させてください。」
「見れました!」
「よかったです!念のためメールの送受信も試してみてください。」
「新しいメールが入ってきました!」
「OKです。これで問題なさそうですので、少し様子を見てください。また何かおかしなところがありましたらお知らせください。」
「ありがとうございました!」

epilogue そして平和な日々が訪れた

「LANケーブル刺さってないじゃん!」

というオチでしたが、最近wifiが色々なところで使えますので結構盲点になります。

 拠点ルータに異常がなく、ユーザさんの端末にpingが当たらない時点で、「パソコンのイーサネットまわりが怪しい」と見当はつけているのですが、障害原因が複合していることもありますので、一応丁寧に聞き取りを行っています。

 いかがでしたでしょうか?ある程度経験を積んだ技術者なら障害内容を聞いた瞬間、原因となる箇所の数十個は頭の中に浮かびます。その中から真の原因をユーザさんの話を元に絞り込んでいきます。本編でもご紹介したように、話を聞きながらも手元では別方向から原因を特定すべく、キーボードを叩きまくっています。仕事が止まっていらいいらされている中、「いつから?」「何が起こった?」など根掘り葉掘り聞かれてムカっとされるのはよくわかります。よくわかりますが、速やかな復旧のためにも冷静かつ正確に質問に回答していただけると、皆さんの会社のシステム管理者も大助かりだと思います。

今日のまとめ

速やかに
直したいなら
むかつかないで答えてね(字余り)

コメント