Storage Automated Diagnostic Environment 2.x (StorADE)
 管理の概要

まとめ :

このマニュアルでは、全体的な StorADE 環境について説明します。これには、daemon と cron の使用方法、デバイスの監視に使用する調査テクニック、通知プロバイダとイベント生成構造が含まれます。このマニュアルは、システム管理者を対象としており、Unix (Solaris) に関する知識が必要です。グラフィカルユーザーインタフェースの機能について詳しく説明している『ユーザーガイド』と一緒に使用できます。このマニュアルでは、Sun のストレージ製品を述べる際、省略形を使用しています。付録 A にある省略形リストに正しい製品名を示します。



StorADE とは :

StorADE は、Sun のストレージ製品、Sun がサポートするスイッチ、および Sun の仮想化製品の監視と診断に使用する分散アプリケーションです。StorADE の主要機能は、デバイスの監視、イベントの生成、トポロジの検出と表示、診断、バージョンチェック、デバイス / FRU レポート、および構成 (システムエディション) です。StorADE は、帯域内 (データパス上) と帯域外 (Ethernet から) にインストールされているエージェントによって監視を実行します。 サーバーに StorADE パッケージをインストールすると、そのサーバーに cron エントリが追加されます。また、この同じサーバー上の inetd が処理するサービスのリストに StorADE 固有の http サービスも追加されます。cron は定期的 (調整可能) に StorADE エージェントを起動し、デバイスを調査してログファイルを監視します。 StorADE グラフィカルユーザーインタフェース (GUI) で保持する構成ファイルを使用して、エージェントが監視するデバイスのリストを保持します。エージェントの 1 つは、マスターエージェントになります。すべてのスレーブエージェントは、それぞれの検出 (警告やイベント) をマスターエージェントにレポートし、マスターエージェントはそれらを処理します。イベントは、考えられる原因や推奨される対応などの Service Advisor の内容と一緒に生成されるため、単一の FRU を特定するのに役立ちます。

マスターエージェントの主要機能は、この監視データベース (構成、計測レポート、イベント、状態、トポロジなどを含む) を GUI で表示し、すべてのメッセージを SRS などのイベントコンシューマ (GUI では通知プロバイダと呼ばれる) に送信することです。マスター GUI には、マスターとスレーブエージェントの両方のすべての設定機能が集約されています。ブラウザでスレーブサーバーを表示して、そのスレーブエージェントを設定する必要はありません。 イベントは、サイトの管理者にローカル電子メールとして、または警告として送信できます。また、SRS、NetConnect、Sun Network Storage Command Center (NSCC) に返すことができます。NSCC は、Sun の技術者が Sun のストレージ製品に関する傾向や問題を検出するために使用する統計データベースです。また、 電子メールやプロバイダの設定は、StorADE で実行され、構成ファイルに保存されます。

次の図は、2 つの Sun T3 パートナーグループ、1 つのスイッチ、および 3 つの Sun A5000 を監視するために、マスターとスレーブが連携している構成例を示します。

 


 

StorADE には 2 つのバージョンがあります。すべての StorADE 機能を含む (Sun-Solution 固有のいくつかの機能を除く) デバイスエディションと 3900/6900/6320 製品のサービスプロセッサで使用する Sun-Solution エディションです。デバイスエディション (パッケージ名 SUNWstade) は、StorADE の すべてのトポロジと SAN 集合機能を含むため、本当の意味で「San」エディションです。Sun-Solution エディション (パッケージ名 SUNWstads) は、ソリューション製品のサービスプロセッサにあらかじめインストールされており、デバイスエディションにはない機能が含まれています。 3900/6900 の構成機能など、特別な管理機能も含まれています。 この 2 つのパッケージのベースとなっているコードは同じです。

StorADE インストールライフサイクル :

通常の StorADE インストールは、次の手順からなります。

  1. StorADE を一連のサーバーにインストールし、いずれか 1 つをマスターエージェントに選択します。通常マスターエージェントは、すでに管理ステーションとして機能しているため、または電子メールにアクセスし、ネームサーバーに登録されているため簡単にアクセスできるといった理由で選択します。 マスターエージェントは、ユーザーインタフェースを提供するものであり、たとえスレーブが存在しなくても、「マスター」と呼ばれます。エージェントの各インスタンスは、マスターであろうとスレーブであろうと、デバイスを監視できます。デバイスは帯域内 (通常は、適切なサーバーにインストールされているスレーブエージェントで) でも、帯域外 (いずれかのエージェントから) でも監視できます。ログファイルが利用できる場合 (t3/t4 と 3310 Minnow の場合のように)、これらのログファイルを複製したサーバーにエージェントをインストールし、このエージェントから帯域外のデバイスを監視するのが最も良い方法です。この構成では、同じエージェントでログファイル情報を表示し、デバイスの調査と見つかった情報の関連付けができます。pkgadd の後に /opt/SUNWstade/bin/ras_install を実行して、inetd サービスと cron をセットアップします。 ras_install は、「これはマスターかスレーブか」、「マスターはどこか」、「SSL セキュリティが必要か」などの基本的ないくつかの質問を行います。

  2. 構成を初期化します。適切なポート番号を含むホストにブラウザをポイントし、StorADE にアクセスします。StorADE ポート番号は、 7654 (セキュリティなし) と 7443 (セキュリティあり) です。 注 : 最初のログインでは、常にユーザー名は ras、パスワードは agent です。これらは、最初にログインした後に変更できます。さまざまな権限、ロケール、ブラウザ初期設定を持つ追加ユーザーも作成できます。最初の構成では、サイト情報の入力、デバイスの検出、手作業による StorADE 構成へのストレージデバイスの追加、イベントを受信するローカルの電子メールアドレスの追加、イベントを SRS、SSRR、NetConnect などに転送する通知プロバイダの追加を行います。これらの機能のほとんどは、CLI コマンドからも自動的に実行できるため便利です。「構成の確認」レポートを GUI から実行すれば、構成に対して健全性をチェックできます。

  3. デバイスの検出StorADE は、その構成ファイル (/opt/SUNWstade/DATA/rasagent.conf) に含まれているデバイスを監視します。このファイルにデバイスを追加するには、[デバイスの追加]、[デバイスの検出] または ras_admin' CLI コマンド (/opt/SUNWstade/bin/ras_admin) を使用します。[デバイスの追加] は、直接的なもので、通常はデバイスの IP を入力します。 StorADE で構成にデバイスを追加するには、まずそのデバイスにアクセして識別できる必要があります。 通常識別とは、デバイスのポート WWN とエンクロージャー ID を見つけることを意味します。 デバイスの検出は、/etc/deviceIP.conf ファイルを使用して自動化できます。 . このファイルは、/etc/hosts と同様の構文を持ち、システム管理者が管理します。 また、StorADE が監視するすべてのデバイスのリストが含まれます。このファイルの例は、付録 D を参照してください。CLI (ras_admin discover_deviceIP) と GUI は、どちらも /etc/deviceIP.conf ファイルに基づいたデバイスの検出に使用できます。

  4. トポロジの検出. これは、さらに実行する構成手順の 1 つにすぎませんが、少々複雑です。StorADE トポロジの検出を完了するために、すべてのエージェント (マスターとスレーブ) は、それぞれの帯域内と帯域外の両方の SAN セクションを検出してその情報を単一のトポロジに統合し、このトポロジをマスターエージェントに送信してさらに集合させる必要があります。マスターエージェントは、受け取ったすべてのトポロジをそれぞれのトポロジとマージし、StorADE の単一の「マスター」トポロジを作成します。StorADE で作成するトポロジは、主に物理的トポロジです。エンクロージャー情報、パートナーグループ情報、帯域内パス情報、www などが含まれます。このトポロジは、現在の SAN の「スナップショット」として保存され、新しい SAN トポロジのスナップショットが作成されるまでの間、すべての SAN 関連の操作で使用されます。 これは、[管理] -> [トポロジ保守] -> [トポロジのスナップショット] から利用できます。

  5. エージェントを起動します。StorADE がインストールされており、ras_install が実行されている場合、各デバイスのエージェントは実行していないことがあります。通常エージェントは、デバイスを検出して通知プロバイダを初期化した後、GUI から起動します。エージェントの起動とは、StorADE corn がすべてのエージェント (マスターとスレーブ) でアクティブであることを意味します。この機能は、[管理] -> [一般保守] -> [start_agents] から利用できます (site_map、図 1 を参照)。 デバイスとプロバイダの初期化に関する詳細は、『StorADE ユーザーガイド』を参照してください。

  6. デバイスの警告が発生すると、StorADE は電子メール (設定されている場合) を使用してサイトの管理者に通知します。また、元々設定されていたリモートサービス (SRS、SSRR など) のいずれかを使用して、Sun にも通知を送信します。多くの場合、管理者に送信された電子メールによって、問題を特定することができます。これは電子メールには、考えられる原因と推奨される対応が含まれているためです。問題の全体像をより詳しく取得するために、サイトの管理者や Sun の技術者は、StorADE GUI (または CLI) にアクセスし、前後の電子メール情報をレビューしたい場合があります。これは、デバイス自体 ([監視] -> [デバイス])、 トポロジ ([監視] -> [トポロジ])、すべての StorADE イベントログ ( [監視] -> [イベントログ]) を表示すれば実行できます。これらの機能の例は、図 2、3、4 を参照してください。図 5 は、サンプルの電子メールを示します。 この情報をレビューしてから診断を実行すれば、問題の原因をさらに特定できます。

  7. 問題を特定します。診断は、CLI または GUI から実行できます。StorADE GUI によって、ユーザーはスレーブエージェントを使用してリモートからテストを実行できます。この機能を使用すれば、実際の診断テストがスレーブサーバー上で実行されていても、ユーザーはマスターサーバー上に集約された 1 つの GUI からテストを開始して制御できます。

  8. 問題が解決すると、ユーザーは StorADE GUI でデバイスの状態をクリアし、新しいストレージデバイスが追加されている場合はトポロジを作成しなおして、手順 5 に戻ります。

監視計画 :

監視は、一連のサーバーにインストールされているマスターとスレーブエージェントで実行されます。これらのサーバーは、次の理由で選択します。

  1. 帯域内のストレージデバイスにアクセスするサーバー (たとえば、Sun StorEdge A5K)。

  2. /var/adm/messages などのログファイル、または /var/adm/messages.t3 などのストレージデバイスログファイルにアクセスするサーバー。

  3. Sun T3 と Sun Switches などの帯域外で監視できるストレージデバイスに帯域外からアクセスするサーバー。

  4. 監視の負荷分散に使用する複数のサーバー。たとえば、すべての Sun StorEdge T3 アレイを同じエージェントから監視する必要はありません。 多くの場合、Sun StorEdge T3 はまとめてインストールされ、それぞれのログファイル (messages.t3) を複数のサーバーに複製します。この場合、同じエージェントからログファイルおよび対応する t3 にアクセスするには、各サーバーにスレーブをインストールするのが最も良い方法です。StorADE 構成の詳細については、『Installation and Configuration Planning ガイド』を参照してください。



監視サイクル :

エージェントの実行は、各サーバーの cron daemon によって制御します。監視サイクルの主要な手順は次のとおりです。

  1. エージェントの前の実行が終了していない場合、そのエージェントが 1 つのみであることを確認し、それを終了させます。一度に実行できるのは、監視エージェントの 1 つのインスタンスのみです (./opt/SUNWstade/bin/rasagent)。

  2. 計測レポートの生成と健全性関連のイベントの生成に使用する適切なデバイスモジュールをロードして実行します。計測レポートは、すべての関連情報についてデバイスを調査し、/var/opt/SUNWstade/DATA のレポートに情報を保存して生成されます。 これらのレポートで、あるエージェントの実行から次のエージェントの実行までを比較し、健全性関連のイベントを生成します。またイベントは、ログファイルで見つかった情報をリレーして作成されます。たとえば、/var/adm/messages.t3 で見つかったすべてのエラーと警告は、さらに分析されることなく、「LogEvent」イベントに変換されます。 ほとんどのイベントは、StorADE のルールやポリシーによって問題が存在すると判断された場合に生成されますが、T3 が syslog ファイルで問題を指摘している場合は、即座にイベントが生成されます。デバイスの監視に使用するコマンドの詳細は、付録 C を参照してください。

  3. スレーブによってイベントが生成された場合、マスターエージェントにこれらのイベントを送信します。 エージェントがマスターエージェントの場合、対象となるすべてのパーティにイベントを送信します。 マスターエージェントは、それぞれのイベント生成とスレーブからのイベント収集の責任を担います。 また、イベントは、分散させる前にマスターに集められます。

  4. DATA ディレクトリに、計測レポートを保存します。注 :イベントログは、[監視] -> [ログ] で GUI からアクセスできます (/opt/SUNWstade/DATA/Events.log)。StorADE は、必要な統計値で状態データベースを更新します。一部のイベントは、イベントの生成に一定のしきい値に達する必要があります。たとえば、スイッチポートの CRC カウントが 1 つ上がっても、一定のしきい値に達していなければ、イベントは生成されせん。 別の例として、電子メールがあります。StorADE は、電子メールのしきい値をサポートしています。これを使用すれば、同じデバイスの同じコンポーネントについて複数の電子メールが生成されるのを回避できます。指定した時間帯の送信済みのイベント数を追跡して記録することで、冗長な電子メール警告を回避できます。注 : 他のプロバイダ (電子メール以外) は、送信されるすべての指示を記録することが重要であるため、この機能をサポートしていません。ほとんどのイベントは、初期状態の変更が発生した場合のみ送信されるため、このような問題はありません。たとえば、バッテリ電源が失われた場合、この変化に関する警告が送信されますが (たとえば、電源の故障)、この状態が良好な状態 (たとえば、電源の回復) に変化するまで、あるいは別の状態に変わるまで(たとえば、電源の取り外し)、イベントは何も送信されません。

  5. 管理者にとって必要なイベントを送信します。すべてのイベントが、全員に送信されるわけではありません。たとえば、ローカルの管理者は、必要なイベントのみを選択できます。管理者は、必要なデバイスタイプ、イベントタイプ (たとえば、通信の切断)、および受け取る警告のレベル (たとえば、警告とエラーのみ) を選択できます。 注 : Sun SRS プロバイダは、実行イベント (イベント構造を参照) のみを受け取りますが、Sun Network Storage Command Center (NetConnect を介した NSCC) は、すべてのイベントを受け取ります。



イベントのライフサイクル :

ほとんどの StorADE イベントは、健全性の変化に基づいています。たとえば、デバイスの状態が「オンライン」から「オフライン」になると、健全性の変化が起こります。イベントを生成するのは、「オフライン」から「オンライン」の変化であり、「オフライン」という実際の値ではありません。イベントの生成にステートのみを使用した場合、同じイベントが常に生成されます。 LogEvent は反復性が高いため、ログファイルを監視するときに健全性の変化を使用することはできません。この問題は、ログファイルのエントリにしきい値を設定すれば最小化できます。 しきい値によって設定された最少ログファイルエントリ数が一定期間内に発生した場合のみ、イベントが生成されるようになります。また、StorADE には、「イベントの最大数」データベースも含まれているため、8 時間のうちに同じ問題で生成されたイベントの数が記録されます。他に方法がない場合、このデータベースを使用して反復性イベントの生成を停止します。 たとえば、スイッチのポートが数分おきにオフラインとオンラインを切り替えていた場合、イベントの最大値データベースによって、5 分おきではなく、8 時間おきにのみこの切り替えがレポートされます。

通常イベントは、次のルールに従って生成されます。

  1. あるデバイスをまったく初めて監視するときに、検出イベントが生成されます。これは、実行イベントではなく、主に NSCC の監視基準を設定するために使用します。このイベントは、ストレージデバイスのコンポーネントを詳細に報告します。検出後は毎週、監査イベントが生成されます。このイベントの内容は、検出イベントの内容と同じです。

  2. LogEvent は、関心のある情報がホストやストレージのログファイルに見つかった場合に生成できます。通常この情報は、可能であれば該当するストレージデバイスに関連付けられ、すべてのデバイスユーザーに送信されます。これらのイベントは、しきい値に基づいて実行イベントとして生成できるため、SRS、SSRR、NetConnect などに送信できます。

  3. デバイスを調査して生成された計測レポートを、最後の計測レポート (通常は、x 分前のもの) と比較して内容に変化が見られた場合、イベントが生成されます。ほとんどの StorADE イベント、 stateChangeEvent、TopologyEvent、alarmEvent などはここで生成されます。デバイスによるイベントの全リストは、付録 B を参照してください。StorADE GUI では、[レポート] -> [Service Advisor] -> [Event Advisor] を使用すれば、イベントの詳細が分かります。

  4. 可能であれば、StorADE マスターエージェントで関連するイベントを結合し、AggregatedEvents を生成します。注: イベントの集合は、デフォルトでは無効ですが、複数のイベントを単一の電子メールに自動的に集合させるために使用できます。この電子メールでは、集合したイベントに加えて、この結果に達するために使用された元々のイベントも示します。

すべてのイベントに、次のフィールドがあります。



代替マスター :

StorADE は、代替マスターという概念をサポートしています。代替マスターはスレーブですが、cron のすべての実行で、本来のマスターが実行されているかどうか確認し、その本来のマスターが応答していない場合には、その責任を引き継ぎます。代替マスターを含むすべてのスレーブには、StorADE 構成のコピーがあります。 この構成には、すべてのエージェントの場所が説明されています (IPアドレスなど)。この情報によって、代替マスターはスレーブを呼び出すことができるほか、一時的にイベントのフローを本来のマスターから代替マスターにリダイレクトできます。

本来のマスターはイベントや電子メールを送信する責任を担っているため、代替マスターの主要機能の 1 つは、マスターサーバーが動作していないことを管理者に警告することです。代替マスターが通知しない限り、このイベントは決して送信されません。 代替マスターは、本来のマスターになることはありません。どのエージェントが本来のマスターであるかを覚えているため、本来のマスターとの通信が回復されれば、一時マスターとしての役割を放棄します。このアーキテクチャは、マスターエージェントが一時的に失われることに対処するためのものです。マスターエージェントをサイトから削除する場合、 別のサーバーを永続マスターにする必要があります (ras_Install を再度実行)。



製品の容量 :

StorADE は設計上非常に容量が小さいため、使用していない場合は気になりません。これには、cron 、およびブラウザ / スレーブ / マスターの通信で必要に応じて使用される http サービスが含まれます。

StorADE ソフトウェアには、5 分ごとに実行する cron が含まれています。 cron プログラムは開始するたびに、エージェントを実行する時間かどうか、StorADE 構成ファイルを確認します。 実際のエージェント頻度は、エージェントごとに GUI から変更できます。たとえば、エージェント頻度を 30 分に変更した場合、cron は 6 回の内 5 回をアボートします。この cron エージェント (/opt/SUNWstade/bin/rasagent) は、マスターとスレーブの両方のエージェントで実行される Perl プログラムで、約 15 メガバイトメモリまで大きくなります。 StorADE に Perl は含まれていないため、 機能させるためには StorADE のサーバー上にいずれかのバージョンの Perl が必要です (Perl のバージョンは 5.005 以上)。実行時、cron エージェントはデバイス固有の情報を /opt/SUNWstade/DATA ディレクトリに保存します。また、そのプロセスサイズは、監視するデバイスの数による影響を受けません。いったんデバイスの監視が完了すると、計測データはディスクに保存され、メモリからは消去されます。

cron エージェントは、デバイスの調査とイベントの生成にのみ使用されます。StorADE GUI へのアクセスは提供しません。通常これは、ポート 7654 と 7443 (セキュリティあり) にインストールされている http サービスで実行されます。/opt/SUNWstade/rashttp と呼ばれるこのプログラムは、inetd から開始され、ユーザーが GUI を必要とする限り、メモリに置かれます。 rashttp にはタイムアウト (デフォルトは 30 秒) があるため、この時間を経過すると終了します。これは、サーバーに存在するプロセス数を最小化するために行われていました。この http サービスもまた Perl プログラムであり、cron エージェントと同様の容量です。ブラウザやスレーブからの http リクエストに応答するために使用されます。マスターとスレーブは、http を使用して、構成情報、トポロジ情報、新しいイベントなどを共有します。

セキュリティオプション :

StorADE は、ras_install を実行し、セキュリティの質問で「Yes」を選択すると、セキュリティ機能をオンにしてインストールできます。これは、SSL (Secure Socket Layer) を使用して、マスターエージェントとブラウザ間、およびマスターエージェントとスレーブエージェント間の情報のやりとりを行うことを意味します。StorADE パッケージには、2008 年に期限が切れるデフォルトの証明書 (/opt/SUNWstade/System/certificate.pem にあります) が含まれています。これは、最高グレードの暗号化技術 (128 ビットの暗号化キーを使用する RC4) を使用します。セキュリティモードを使用する場合、マスターエージェントへのアクセスに使用する URL は、https://hostname:7443 です。セキュリティなしの URL は http://hostname:7654 です。 openssl ユーティリティを (パブリックドメインの一部、OpenSSL 製品) 使用して、サイト固有の証明書を作成できます。次に示すようなコマンドを使用します。 /usr/local/ssl/bin/openssl req -days 200 -new -nodes -x509 -out new_certificate.pem -keyout new_certificate.pem2. 証明書の詳細については、付録 C を参照してください。

その他のセキュリティ機能として、StorADE は複数ログインをサポートしています。これらのログインは、特定の権限 (guest、admin、expert、test) と一緒に、「root」ログイン (ログイン「ras」、デフォルトのパスワード「agent」) で追加できます。これにより、異なるユーザーがそれぞれのログイン / パスワードでログインできるようになるとともに、GUI で利用できる機能セットが制限されます。

 

Sun-Solution :

Sun 3900/6900 (Indy) や Sun 6320 (Maserati ミッドレンジ) を含む Sun Storage ソリューション製品は、Sun Switches、Sun T3/6120、Sun 仮想化エンジン、および Service Processor からなる論理的なストレージデバイスです。これらのコンポーネントは、サービスプロセッサ (StorADE システムエディション) 上にいずれかの StorADE を持つ単体の製品に、あらかじめ構成されています。 ソリューションラックにあるいずれかのバージョンの StorADE は、その他の StorADE マスターエージェントのように、サービスプロセッサの IP アドレスをブラウザでポイントしてアクセスできます。 注 : 外部では (StorADE の外部インスタンスを含む)、このソリューションラックは単一のデバイスとして扱われます。

これまでのリリースでは、Sun Solution ラックのエージェントをスレーブエージェントとして構成できましたが、このオプションは、拡張性と保守性を得るために StorADE 2.2 ではなくなりました。 ラック外にインストールされた StorADE エージェントでこのラックを監視する必要がある場合、Sun Solution ラックは、固有のアイコンを持つ単一デバイスとして検出されます。次の図では、Sun Solution ラックの 2 つのスイッチの両方に現在エラーがあります (赤色)。 これらのエラーは、それぞれがスイッチスロットを示す、2 つの赤い小さなボックスのラックアイコンで表示されています。ラック内の詳細なトポロジを表示するには、ユーザーは 3900 のサービスプロセッサの StorADE を見る必要があります。または、マスターエージェント (ラック外) で利用できるリンクランチ機能を使用する必要があります。単一アイコンで示す Sun のソリューションのトポロジの例は、図 3 を参照してください。



通知プロバイダ :

StorADE は、ローカル電子メール、SRS、NetConnect、トラップ、および SSRR を含むさまざまな通知プロバイダをサポートします。これらのプロバイダは手動でアクティブにする必要があり、GUI または ras_admin cli を使用して実行できます。エージェントが処理サイクルを完了するたびに、情報がプロバイダに送信されます。注 : スレーブは「マスター」にイベントを送信し、「マスター」はプロバイダにイベントを送信します。



図1 : サイトマップ :

このページでは、利用可能なすべての機能を示します。このページは動的に生成され、StorADE のエディションやアプリケーションにログインしているユーザーの機能によって変更できます。(つまり、診断テストを実行する権限を持たないユーザーには、診断に関するヘルプ情報は表示されません。)

図2 :デバイスの監視 :

このページは、3 フレームを使用する StorADE の内容を示します。トップフレームは、ナビゲーションに使用します。 左フレームは、それぞれの健全性レベル (重要度の場合は「Sev」) で監視されるデバイスのリストを表示します。右フレームは、5 つのページ ([概要|健全性|ログ|レポート|グラフ]) を表示できます。グラフページには、選択したデバイスのアイコン (この場合は、スイッチ) とSan にあるこのデバイスのすぐ側のアイコンも表示されます (png グラフィックファイル)。 このグラフの後には、このスイッチの現在の健全性に関する問題もリストされます。


 

図 3 :トポロジグラフ :

このページには、各スレーブとマスターごとに生成されるトポロジ、または結合されたトポロジ (MASTER と呼ばれます) が表示されます。トポロジは、フィルタリングとグループ化ができるため、簡単にアクセスできます。トポロジのアイコンは、移動して新しい場所で保存し、分かりやすいレイアウトを作成できます。アイコンを右クリックすると、このアイコンに実行できる機能メニューが表示されます。(右マウスボタンを使用すると、デバイスレポートの表示や診断の実行が可能です。)アイコンから離れたところで右クリックすると、図の拡大レベルを変更できます。シフトキーを押したままにすると、同時に複数のアイコンをハイライトできるため、アイコンを移動させるときに便利です。このグラフでは、デバイスとリンクの両方をマークしてクリックできます。デバイスのように、リンクを選択しても (右クリック)、リンク状態の詳細を表示できます。 このトポロジグラフは、アプレットで作成できますが、[印刷] 機能を使用すれば、png 表示 (gif などのグラフフォーマット) を作成できるため、簡単に印刷できます。

図 3a : Sun Solution の内部 :

Sun Solution のサービスプロセッサから見えるこのトポロジには、SP 自身と一緒に、外部のスイッチ、仮想化エンジン、内部スイッチ、ストレージアレイ (この場合は 3 T3) が表示されます。また、ラックのコンポーネント間の S 接続も表示されます。この図では、Sun Solution は「'wst31」と呼ばれていますが、前の図では「sp87」と呼ばれていた別のラックでした。Sun Solution にはさまざまなモデルがあるため、コンポーネントのタイプや番号もさまざまです。

図 4 :監視ログ :

このイベントログページを使用すれば、DATA/Events.log に保存されているイベントログのサブセットを表示できます。イベントは、Service Advisor へのリンクと一緒に表示されるため、そのイベントに関する詳細な情報が得られます。


 

図 6 :ローカル電子メール通知 :

電子メールは、マスターエージェントで生成され、GUI を使用して StorADE 構成に入力されたアドレスに送信されます。電子メールアドレスごとに、異なるイベントフィルタを設定できます。電子メール情報には、「説明」、「情報」、「考えられる原因」、「推奨される対応」を含むことができます。この例では、「考えられる原因」は示していません。


 

 

付録 A :省略形リスト :

 

付録 B :監視に使用するコマンド :

このセクションでは、StorADE がサポートするストレージデバイスを監視するのに使用するコマンドとテクニックについて説明します。

付録 C : 証明書の詳細







付録 D: /etc/deviceIP.conf

このファイルは、IP 番号を使用してアクセスできる帯域外のデバイスのみに使用できます。現在、スイッチ、Sun T3、Sun 6120、Sun 3510 および Sun Solution がサポートされています。



#IPNO NAME TYPE(optional)

10.10.10.1 t3-b1

10.10.10.2 t3-b2

10.10.10.3 switch-s1

10.10.10.4 switch-s2

10.10.10.5 minnow1 3510

10.10.10.6 indy-1 rack

10.10.10.7 6120-1

10.10.10.8







付録 E: イベントリスト

############################
3310.grid: Sun 3310/3510 
############################
3310       AlarmEvent                     Revision
3310       AlarmEvent                     channel
3310       AlarmEvent                     enclosure
3310       AlarmEvent                     fan
3310       AlarmEvent                     firmware_version
3310       AlarmEvent                     part
3310       AlarmEvent                     power
3310       AlarmEvent                     raid_level
3310       AlarmEvent                     size
3310       AlarmEvent                     temperature
3310       AlarmEvent                     volume
3310       CommunicationEstablishedEvent  ib
3310       CommunicationEstablishedEvent  oob
3310       CommunicationLostEvent         e
3310       CommunicationLostEvent         ib
3310       ComponentInsertEvent           disk
3310       ComponentInsertEvent           power
3310       ComponentRemoveEvent           disk
3310       DeviceLostEvent                aggregate
3310       DiscoveryEvent                 enclosure
3310       LocationChangeEvent            enclosure
3310       LogEvent                       cpu
3310       QuiesceEndEvent                enclosure
3310       QuiesceStartEvent              enclosure
3310       StateChangeEvent+              disk
3310       StateChangeEvent+              volume
3310       StateChangeEvent-              disk
3310       StateChangeEvent-              volume
############################
6120.grid: StorEdge 6120 
############################
6120       AlarmEvent+                    power.temp
6120       AlarmEvent-                    disk.pathstat
6120       AlarmEvent-                    disk.port
6120       AlarmEvent-                    disk.temperature
6120       AlarmEvent-                    interface.loopcard.cable
6120       AlarmEvent-                    power.battery
6120       AlarmEvent-                    power.fan
6120       AlarmEvent-                    power.output
6120       AlarmEvent-                    power.temp
6120       AlarmEvent                     cacheMode
6120       AlarmEvent                     cacheModeBehind
6120       AlarmEvent                     initiators
6120       AlarmEvent                     log
6120       AlarmEvent                     lunPermission
6120       AlarmEvent                     revision
6120       AlarmEvent                     system_reboot
6120       AlarmEvent                     sysvolslice
6120       AlarmEvent                     time_diff
6120       AlarmEvent                     volCount
6120       AlarmEvent                     volOwner
6120       AuditEvent                     enclosure
6120       CommunicationEstablishedEvent  ib
6120       CommunicationEstablishedEvent  oob
6120       CommunicationLostEvent         ib
6120       CommunicationLostEvent         oob
6120       ComponentInsertEvent           controller
6120       ComponentInsertEvent           disk
6120       ComponentInsertEvent           interface.loopcard
6120       ComponentInsertEvent           power
6120       ComponentRemoveEvent           controller
6120       ComponentRemoveEvent           disk
6120       ComponentRemoveEvent           interface.loopcard
6120       ComponentRemoveEvent           power
6120       DeviceLostEvent                aggregate
6120       DiagnosticTest-                6120ofdg
6120       DiagnosticTest-                6120test
6120       DiagnosticTest-                6120volverify
6120       DiscoveryEvent                 enclosure
6120       LocationChangeEvent            enclosure
6120       LogEvent                       array_error
6120       LogEvent                       array_warning
6120       LogEvent                       controller.port
6120       LogEvent                       disk
6120       LogEvent                       disk.log
6120       LogEvent                       disk.senseKey
6120       LogEvent                       driver.SSD_WARN
6120       LogEvent                       power
6120       LogEvent                       power.refreshBattery
6120       LogEvent                       power.replaceBattery
6120       LogEvent                       temp_threshold
6120       QuiesceEndEvent                enclosure
6120       QuiesceStartEvent              enclosure
6120       StateChangeEvent+              controller
6120       StateChangeEvent+              disk
6120       StateChangeEvent+              interface.loopcard
6120       StateChangeEvent+              power
6120       StateChangeEvent+              volume
6120       StateChangeEvent-              controller
6120       StateChangeEvent-              disk
6120       StateChangeEvent-              interface.loopcard
6120       StateChangeEvent-              power
6120       StateChangeEvent-              volume
6120       Statistics                     enclosure
############################
a3500fc.grid: Sun A3500FC 
############################
a3500fc    AlarmEvent-                    battery
a3500fc    AuditEvent                     enclosure
a3500fc    CommunicationEstablishedEvent  ib
a3500fc    CommunicationLostEvent         ib
a3500fc    ComponentInsertEvent           controller
a3500fc    ComponentInsertEvent           disk
a3500fc    ComponentRemoveEvent           controller
a3500fc    ComponentRemoveEvent           disk
a3500fc    DeviceLostEvent                aggregate
a3500fc    DiagnosticTest-                a3500fctest
a3500fc    DiscoveryEvent                 enclosure
a3500fc    LocationChangeEvent            enclosure
a3500fc    StateChangeEvent+              disk
a3500fc    StateChangeEvent-              controller
a3500fc    StateChangeEvent-              disk
############################
a5k.grid: Sun A5000 
############################
a5k        AlarmEvent-                    backplane
a5k        AlarmEvent-                    backplane.fan
a5k        AlarmEvent-                    disk
a5k        AlarmEvent-                    interface.gbic
a5k        AlarmEvent-                    interface.iboard
a5k        AuditEvent                     enclosure
a5k        CommunicationEstablishedEvent  ib
a5k        CommunicationLostEvent         ib
a5k        ComponentInsertEvent           disk
a5k        ComponentRemoveEvent           disk
a5k        DeviceLostEvent                aggregate
a5k        DiagnosticTest-                a5ksestest
a5k        DiagnosticTest-                a5ktest
a5k        DiscoveryEvent                 enclosure
a5k        LocationChangeEvent            enclosure
a5k        StateChangeEvent+              disk
a5k        StateChangeEvent+              interface.iboard
a5k        StateChangeEvent+              power
a5k        StateChangeEvent-              disk
a5k        StateChangeEvent-              interface.iboard
a5k        StateChangeEvent-              power
a5k        logEvent                       driver
############################
agent.grid:
############################
agent      AgentDeinstallEvent            enclosure
agent      AgentInstallEvent              enclosure
agent      AlarmEvent                     system_errors
agent      AlternateMaster+               enclosure
agent      AlternateMaster-               enclosure
agent      CommunicationEstablishedEvent  oob
agent      CommunicationLostEvent         ntc
agent      CommunicationLostEvent         oob
agent      HeartbeatEvent                 enclosure
############################
brocade.grid: Brocade スイッチ
############################
brocade    AlarmEvent                     sensor.fan
brocade    AlarmEvent                     sensor.power
brocade    AlarmEvent                     sensor.temperature
brocade    AlarmEvent                     system_reboot
brocade    AuditEvent                     enclosure
brocade    CommunicationEstablishedEvent  oob
brocade    CommunicationLostEvent         oob
brocade    ConnectivityLostEvent          aggregate
brocade    DeviceLostEvent                aggregate
brocade    DiagnosticTest-                switchtest
brocade    DiscoveryEvent                 enclosure
brocade    LocationChangeEvent            enclosure
brocade    LogEvent                       PhysState
brocade    LogEvent                       port.statistics
brocade    StateChangeEvent+              port
brocade    StateChangeEvent-              port
brocade    Statistics                     enclosure
############################
d2.grid: Sun D2 
############################
d2         AlarmEvent-                    fan
d2         AlarmEvent-                    power
d2         AlarmEvent                     esm.revision
d2         AlarmEvent                     midplane.revision
d2         AlarmEvent                     slot_count
d2         AlarmEvent                     temperature
d2         AuditEvent                     enclosure
d2         CommunicationEstablishedEvent  ib
d2         CommunicationLostEvent         ib
d2         ComponentRemoveEvent           esm
d2         ComponentRemoveEvent           midplane
d2         DeviceLostEvent                aggregate
d2         DiagnosticTest-                d2test
d2         DiscoveryEvent                 enclosure
d2         LocationChangeEvent            enclosure
d2         StateChangeEvent+              disk
d2         StateChangeEvent-              disk
############################
host.grid: Host 
############################
host       AlarmEvent+                    hba
host       AlarmEvent-                    hba
host       AlarmEvent-                    lun.T300
host       AlarmEvent-                    lun.VE
host       AlarmEvent                     disk_capacity
host       AlarmEvent                     disk_capacity_okay
host       DiagnosticTest-                ifptest
host       DiagnosticTest-                qlctest
host       DiagnosticTest-                socaltest
host       LogEvent                       array_error
host       LogEvent                       array_warning
host       LogEvent                       driver.ELS_RETRY
host       LogEvent                       driver.Fabric_Warning
host       LogEvent                       driver.Firmware_Change
host       LogEvent                       driver.LOOP_OFFLINE
host       LogEvent                       driver.LOOP_ONLINE
host       LogEvent                       driver.MPXIO
host       LogEvent                       driver.MPXIO_offline
host       LogEvent                       driver.PFA
host       LogEvent                       driver.QLC_LOOP_OFFLINE
host       LogEvent                       driver.QLC_LOOP_ONLINE
host       LogEvent                       driver.SCSI_ASC
host       LogEvent                       driver.SCSI_TRAN_FAILED
host       LogEvent                       driver.SCSI_TR_READ
host       LogEvent                       driver.SCSI_TR_WRITE
host       LogEvent                       driver.SFOFFTOWARN
host       LogEvent                       driver.SF_CRC_ALERT
host       LogEvent                       driver.SF_CRC_WARN
host       LogEvent                       driver.SF_DMA_WARN
host       LogEvent                       driver.SF_OFFLALERT
host       LogEvent                       driver.SF_OFFLINE
host       LogEvent                       driver.SF_RESET
host       LogEvent                       driver.SF_RETRY
host       LogEvent                       driver.SSD_ALERT
host       LogEvent                       driver.SSD_WARN
host       LogEvent                       error
host       LogEvent                       warning
host       PatchInfo                      enclosure
host       backup                         enclosure
host       patchInfo                      enclosure
############################
internal.grid:
############################
internal   AuditEvent                     enclosure
internal   CommunicationEstablishedEvent  ib
internal   CommunicationLostEvent         ib
internal   ComponentInsertEvent           disk
internal   ComponentRemoveEvent           disk
internal   DiagnosticTest-                fcdisktest
internal   DiscoveryEvent                 enclosure
############################
mcdata.grid: McData スイッチ
############################
mcdata     AlarmEvent                     fan
mcdata     AlarmEvent                     power
mcdata     AlarmEvent                     system_reboot
mcdata     AuditEvent                     enclosure
mcdata     CommunicationEstablishedEvent  oob
mcdata     CommunicationLostEvent         oob
mcdata     ConnectivityLostEvent          aggregate
mcdata     DeviceLostEvent                aggregate
mcdata     DiscoveryEvent                 enclosure
mcdata     LocationChangeEvent            enclosure
mcdata     LogEvent                       PhysState
mcdata     LogEvent                       port.statistics
mcdata     StateChangeEvent+              port
mcdata     StateChangeEvent-              port
mcdata     Statistics                     enclosure
############################
san.grid:
############################
san        LinkEvent_CRC                  Any|Any
san        LinkEvent_CRC                  host|storage
san        LinkEvent_CRC                  host|switch
san        LinkEvent_CRC                  switch|a3500fc
san        LinkEvent_CRC                  switch|a5k
san        LinkEvent_CRC                  switch|storage
san        LinkEvent_CRC                  switch|switch
san        LinkEvent_CRC                  switch|t3
san        LinkEvent_CRC                  ve|switch
san        LinkEvent_ITW                  Any|Any
san        LinkEvent_ITW                  host|storage
san        LinkEvent_ITW                  host|switch
san        LinkEvent_ITW                  switch|a3500fc
san        LinkEvent_ITW                  switch|a5k
san        LinkEvent_ITW                  switch|storage
san        LinkEvent_ITW                  switch|switch
san        LinkEvent_ITW                  switch|t3
san        LinkEvent_ITW                  ve|switch
san        LinkEvent_SIG                  Any|Any
san        LinkEvent_SIG                  host|storage
san        LinkEvent_SIG                  host|switch
san        LinkEvent_SIG                  switch|a3500fc
san        LinkEvent_SIG                  switch|a5k
san        LinkEvent_SIG                  switch|storage
san        LinkEvent_SIG                  switch|switch
san        LinkEvent_SIG                  switch|t3
san        LinkEvent_SIG                  ve|switch
############################
se.grid: Sun 3900/6900 
############################
se         AggregatedEvent                POWERSEQ1
se         AlarmEvent-                    lun
se         AlarmEvent-                    remove_lun
se         CommunicationLostEvent         oob
se         ComponentInsertEvent           lun
se         ComponentRemoveEvent           lun
se         ComponentRemoveEvent           slot
se         DeviceLostEvent                aggregate
se         StateChangeEvent               links
se         StateChangeEvent               port
se         StateChangeEvent               slot
se         StateChangeEvent               sp
############################
se2.grid: Sun 6320 
############################
se2        AggregatedEvent                POWERSEQ1
se2        AlarmEvent-                    lun
se2        AlarmEvent-                    power_sequencer
se2        ComponentInsertEvent           lun
se2        ComponentRemoveEvent           lun
se2        DeviceLostEvent                aggregate
############################
switch.grid: Sun Switch 
############################
switch     AlarmEvent                     chassis.fan
switch     AlarmEvent                     chassis.power
switch     AlarmEvent                     chassis.temperature
switch     AlarmEvent                     port.statistics
switch     AlarmEvent                     system_reboot
switch     AlarmEvent                     zone_change
switch     AuditEvent                     enclosure
switch     CommunicationEstablishedEvent  oob
switch     CommunicationLostEvent         oob
switch     ConnectivityLostEvent          aggregate
switch     DeviceLostEvent                aggregate
switch     DeviceLostEvent                ib
switch     DiagnosticTest-                switchtest
switch     DiscoveryEvent                 enclosure
switch     LocationChangeEvent            enclosure
switch     LogEvent                       port.statistics
switch     StateChangeEvent+              port
switch     StateChangeEvent-              port
switch     Statistics                     enclosure
############################
switch2.grid: Sun Switch2 
############################
switch2    AlarmEvent-                    chassis.board
switch2    AlarmEvent-                    chassis.fan
switch2    AlarmEvent                     chassis.power
switch2    AlarmEvent                     port.statistics
switch2    AlarmEvent                     system_reboot
switch2    AuditEvent                     enclosure
switch2    CommunicationEstablishedEvent  oob
switch2    CommunicationLostEvent         fsa
switch2    CommunicationLostEvent         oob
switch2    ConnectivityLostEvent          aggregate
switch2    DeviceLostEvent                aggregate
switch2    DiagnosticTest-                switch2test
switch2    DiscoveryEvent                 enclosure
switch2    LocationChangeEvent            enclosure
switch2    StateChangeEvent+              port
switch2    StateChangeEvent-              port
switch2    Statistics                     enclosure
############################
t3.grid: Sun T3 
############################
t3         AlarmEvent+                    power.temp
t3         AlarmEvent-                    disk.pathstat
t3         AlarmEvent-                    disk.port
t3         AlarmEvent-                    disk.temperature
t3         AlarmEvent-                    interface.loopcard.cable
t3         AlarmEvent-                    power.battery
t3         AlarmEvent-                    power.fan
t3         AlarmEvent-                    power.output
t3         AlarmEvent-                    power.temp
t3         AlarmEvent                     add_initiators
t3         AlarmEvent                     backend_loop
t3         AlarmEvent                     cacheMode
t3         AlarmEvent                     cacheModeBehind
t3         AlarmEvent                     device_path
t3         AlarmEvent                     initiators
t3         AlarmEvent                     log
t3         AlarmEvent                     loop.statistics
t3         AlarmEvent                     lunPermission
t3         AlarmEvent                     remove_initiators
t3         AlarmEvent                     revision
t3         AlarmEvent                     system_reboot
t3         AlarmEvent                     sysvolslice
t3         AlarmEvent                     time_diff
t3         AlarmEvent                     volCount
t3         AlarmEvent                     volOwner
t3         AuditEvent                     enclosure
t3         CommunicationEstablishedEvent  ib
t3         CommunicationEstablishedEvent  oob
t3         CommunicationLostEvent         ib
t3         CommunicationLostEvent         oob
t3         ComponentInsertEvent           controller
t3         ComponentInsertEvent           disk
t3         ComponentInsertEvent           interface.loopcard
t3         ComponentInsertEvent           power
t3         ComponentRemoveEvent           controller
t3         ComponentRemoveEvent           disk
t3         ComponentRemoveEvent           interface.loopcard
t3         ComponentRemoveEvent           power
t3         DeviceLostEvent                aggregate
t3         DiagnosticTest-                t3ofdg
t3         DiagnosticTest-                t3test
t3         DiagnosticTest-                t3volverify
t3         DiscoveryEvent                 enclosure
t3         LocationChangeEvent            enclosure
t3         LogEvent                       array_error
t3         LogEvent                       array_warning
t3         LogEvent                       controller.port
t3         LogEvent                       disk
t3         LogEvent                       disk.error
t3         LogEvent                       disk.log
t3         LogEvent                       disk.senseKey
t3         LogEvent                       power.battery
t3         LogEvent                       power.battery.refresh
t3         LogEvent                       power.battery.replace
t3         LogEvent                       temp_threshold
t3         QuiesceEndEvent                enclosure
t3         QuiesceStartEvent              enclosure
t3         RemovalEvent                   enclosure
t3         StateChangeEvent+              controller
t3         StateChangeEvent+              disk
t3         StateChangeEvent+              interface.loopcard
t3         StateChangeEvent+              power
t3         StateChangeEvent+              volume
t3         StateChangeEvent-              controller
t3         StateChangeEvent-              disk
t3         StateChangeEvent-              interface.loopcard
t3         StateChangeEvent-              power
t3         StateChangeEvent-              volume
t3         Statistics                     enclosure
############################
tape.grid: FC-Tape 
############################
tape       AuditEvent                     enclosure
tape       CommunicationEstablishedEvent  ib
tape       CommunicationLostEvent         ib
tape       DeviceLostEvent                aggregate
tape       DiagnosticTest-                fctapetest
tape       DiscoveryEvent                 enclosure
tape       LocationChangeEvent            enclosure
tape       StateChangeEvent+              port
tape       StateChangeEvent-              port
############################
v880disk.grid: Sun V880 Disk 
############################
v880disk   AlarmEvent-                    backplane
v880disk   AlarmEvent-                    loop
v880disk   AlarmEvent-                    temperature
v880disk   AuditEvent                     enclosure
v880disk   CommunicationEstablishedEvent  ib
v880disk   CommunicationLostEvent         ib
v880disk   ComponentInsertEvent           disk
v880disk   ComponentRemoveEvent           disk
v880disk   DeviceLostEvent                aggregate
v880disk   DiagnosticTest-                daktest
v880disk   DiscoveryEvent                 enclosure
v880disk   LocationChangeEvent            enclosure
############################
ve.grid: Vicom VE 
############################
ve         AlarmEvent                     log
ve         AlarmEvent                     volume
ve         AlarmEvent                     volume_add
ve         AlarmEvent                     volume_delete
ve         AuditEvent                     enclosure
ve         CommunicationEstablishedEvent  oob
ve         CommunicationLostEvent         oob.command
ve         CommunicationLostEvent         oob.ping
ve         CommunicationLostEvent         oob.slicd
ve         DeviceLostEvent                aggregate
ve         DiagnosticTest-                ve_diag
ve         DiagnosticTest-                veluntest
ve         DiscoveryEvent                 enclosure
ve         LocationChangeEvent            enclosure