よくあるお悩みやご質問|オンプレxクラウド運用管理
マルチクラウド、ハイブリッドクラウドの維持管理の課題と解決策とは
マルチクラウド、ハイブリッドクラウドを維持管理するための課題として下記をはじめとする様々な課題が存在する。
- クラウド基盤ごとの運用管理を統一
- 複数のクラウド基盤を統合的に管理するためのツール運用
- クラウド運用SEの育成
そこで伊藤忠テクノソリューションズ(以下、CTC)のクラウド維持管理の匠こと上田貴大氏に、クラウド環境を保つための運用管理や運用SEの教育に関わる課題解決方法について尋ねてみた。
マルチクラウド、ハイブリッドクラウドの維持管理に関わる課題解決に取り組まれる方は、本記事をご参考としていただきたい。
上田貴大
- 上田貴大
- 伊藤忠テクノソリューションズ株式会社在籍
- マネージドサービス部カスタマーサービス課 課長
- クラウド/DC/マネージドサービス利用顧客に向けた運用サービス業務を担当
▼ 目次
・マルチクラウドの維持管理の課題とは
・マルチクラウドの維持管理に欠かせない重要検討ポイントとは
1. マルチクラウドの維持管理の課題とは
マルチクラウド、ハイブリッドクラウドを維持管理する上での代表的な課題について尋ねてみた。
Q1-1. マルチクラウド、ハイブリッドクラウドの維持管理の課題とは?
上田 代表的な課題は、次の3点です。
- 複数基盤の運用管理の統一
- 複数のクラウド基盤を利用する上で、基盤ごとに運用内容、運用管理項目、監視項目、構成管理要素がバラバラとなるため、運用レベルの統一を図る
- 複数基盤を統合的に管理する運用管理ツールの維持管理
- 基盤ごとに運用管理項目や構成要素があり、運用管理ツールの維持管理が必要
- マルチクラウド、ハイブリッドクラウド環境を運用するSEの育成
- マルチクラウド、ハイブリッドクラウド環境の複数基盤を維持管理する運用SEに幅広い知識や技術の習得が必要
2. マルチクラウドの維持管理に欠かせない重要検討ポイントとは
マルチクラウド、ハイブリッドクラウドの維持管理の課題を解決する上での運用管理の統一方法、運用管理機能に必要な機能、運用管理ツールの維持管理の重要性、SEの育成方法について尋ねてみた。
Q2-1. 複数の基盤の運用管理を統一するにはどうしたら良いか?
上田 運用レベルやサービスレベルなど、品質を管理、統一する運用管理者の役割(運用管理機能)が必須となります。
運用管理者の役割がないと、それぞれの基盤やサービスごとにバラバラな運用レベルやサービスレベルでの対応となってしまい、システムの維持運用に関わる対応工数も余分に発生するケースもあります。
また、システムの維持運用を行う上で、重要なガバナンスを利かせるためにも重要な機能、役割を担うことになります。
基盤ごとにバラバラではなく、維持運用を行う体制や機能が統一されている必要があります。
下記は統合運用監視を表現しており、統一した機能・役割として運用チーム体制と各機能を構成することが重要となります。
図 1. 各基盤での運用管理機能の統一
Q2-2. 運用管理機能として必要な対応とは?
上田 基盤ごとに管理項目や運用内容が異なるため、運用管理者にて管理ルールや運用方法を統一化する必要があります。
構成管理要素が異なるオンプレシステムとクラウド基盤システムの運用ルールを例に説明します。
オンプレシステムでは、冗長性や可用性を考慮し障害対応時の対応基準を定め、機器単体での復旧対応や保守対応の立て付けを行うことになります。
クラウド基盤システムでは、物理サーバとしてのリソース使用率と仮想ホスト上でのリソース使用率などの状況を見ながら、必要に応じて仮想ホストを別の物理サーバへ移動する運用ルールを定めることもあります。仮想ホストを自動的に移動する機能が有効化されている場合、移動した後の仮想ホストの正常稼働状況を確認するという運用のほうが、よりリアルな実態といえるかも知れません。
また、クラウド基盤システムでの物理サーバ障害においては、対象サーバで稼働する仮想ホスト単位での障害の影響を考慮する必要があり、より運用ルールや管理対象の幅が広がり、維持管理が煩雑になります。
さらに、パブリッククラウド基盤システムの要素が加わると、クラウドサービス独自の機能があり、その機能の正常性から機能が動作した後の正常性確認が入ってきたりするので、運用で求められる管理項目や運用内容は、ますます膨れ上がります。
運用管理者の役割は、基盤ごとの特徴や機能性を考慮しつつ多種多様な運用管理項目を一元的に管理し、統制を利かせることになります。
Q2-3. 運用管理ツールの維持管理の重要性とは?
上田 運用管理機能を統一する上では、運用管理ツールは重要な要素となります。
運用管理ツールの活用方法として、可能な限り日々の運用業務で利用する運用管理ツールを、1つのツールに集約し、他のツール類とは疎結合して活用することが望ましいと考えます。
理由は、ただでさえ基盤ごとに管理項目や運用内容がバラバラで、必要とするツール類や運用業務で扱う製品群もそれぞれに存在していますので、それらを一元管理する上では、主として扱う運用管理ツールを一つに集約するべきなのです。
また、マルチクラウド、ハイブリッドクラウド環境を運用するSEの育成にも繋がりますが、運用管理ツールのエンハンスを含めて維持管理する部隊も必要な機能となります。
図 2. 運用管理ツールの活用イメージ
主となる運用管理ツールに各基盤システムからの情報を集約し、関連する運用ツールやシステム群も、この管理ツールと連携して維持管理を行っていくことが必要となります。
具体例としては、監視システムからのアラートをインシデントとして取り込まれ、インシデント発生を検知します。
対象のインシデントに関連する構成管理要素や変更作業実施の有無、対象システムの利用ユーザ情報などを、運用管理ツールのダッシュボードで確認し、問題箇所を特定します。
あわせて対象ユーザや運用担当者への自動エスカレーションがオートコール機能で発報され、障害発生の一斉通知メールや顧客ポータルへの障害情報通知を行い、関係各所への速やかな情報連携や報告を実施します。
ここで重要となるのが、主となる運用管理ツールと連携するシステム群やクラウド環境も、日々、新製品、新バージョンが出てきます。
これらの新たな機能を運用管理ツールでも受け入れるためにも、運用管理ツール自体の維持管理だけでなく、エンハンスするような機能も重要な維持管理業務の要素となります。
Q2-4. マルチクラウド、ハイブリッドクラウド環境を運用するSEの育成方法とは?
上田 この課題に対する考え方は、1点目の課題「複数基盤の運用管理の統一」と2点目の課題「複数基盤を統合的に管理する運用管理ツールの維持管理」への対応と紐づくものが基本で、各基盤の統一する運用管理者としての機能や、運用管理ツールを維持管理するだけでなくエンハンスするSEを育成する必要があります。
この2点の課題を解決するには、すべての基盤や運用ツール類に精通し、管理ツールのエンハンスを行えるスペシャルな人材が必要となってしまいます。 現在のエンジニア不足の世の中でこのようなスペシャルな人員を確保することは不可能と言っても過言ではないかと思います。
そこで本課題に対する考え方としては「基盤ごとのプロフェッショナルなエンジニアと連携し運用業務を担っていく、PM的な機能を備えたPJ推進スキルや、アカウントSEとしての内外とのコミュニケーションスキルを重要な要素として育成をしていく」という内容になります。
簡単に言うと「餅は餅屋として専門性の高い知識や技術は専門部隊に任せる」ことです。運用SEは、各所とのコミュニケーションや調整コントロールを行う機能を重要視し、維持管理の体制を構築する考えです。
図 3. 運用体制イメージ
強化を図るべき箇所は運用管理者で、ここの部分が重要な育成ポイントだと考えています。
繰り返しになりますが、ここの役割を担うにはPJ推進スキル(PM)やアカウントSEとしての内外とのコミュニケーションスキルが必要であるという考えになります。
今後の取り組みとしてあげさせていただく内容にも繋がりますが、オペレータ機能やサービスデスク機能、運用担当者の一部役割は自動化を推進していく対象と考えます。
あわせて運用担当者としての役割から運用管理者や運用管理ツール担当へシフトしていくことを想定し、運用SEの育成計画を立てていくことが必要と考えます。
Q2-5. マルチクラウド、ハイブリッドクラウド環境の運用管理の課題に対して、CTCは何ができますか?
上田 主には2点あります。
2-5-1. マルチクラウド・ハイブリットクラウド環境でのサービス提供(運用サービス提供)
基盤に依存せず、プラットフォーム間(パブリッククラウド⇔プライベートクラウド⇔オンプレといった)でのシームレスな連携や既存環境からの移行対応が可能なサービスを提供しています。
システムごとの特性にあわせた最適な基盤を選択できます。
また、基盤ごとのサービスを提供しており、各基盤に特化したプロフェッショナルなサポート対応が可能です。
2-5-2. 運用管理機能の提供となる、運用PM機能、アカウントSE機能の提供
マルチクラウド・ハイブリットクラウド環境に対し、統一した運用管理を行う運用PM機能を提供できます。
お客様システムの運用管理業務(構成管理、インシデント管理、変更管理)や、運用業務(変更作業、障害対応)を実施し、システムエンハンスやリプレース対応など、アカウントSEとしての機能も運用SEにて対応可能です。
お客様システムの構成や日々の対応業務を把握する運用SEが、運用の中であがってきた課題や要望をヒアリングし、構築やリプレース対応まで行います。
まとめ
マルチクラウド、ハイブリッドクラウド環境を保つための維持管理において、CTCでは次の4点に注力した取り組みを推進している。
- 自動化
- AIOpsを活用した日々の運用業務自動化を図っていく
- 変更作業や障害対応などの運用業務はすべて自動化し、運用管理業務や自動化ツール類の維持、管理・エンハンス業務に稼働をシフト
- 予測分析
- 機器単位やインフラレイヤ単位の監視、管理に留まらず、システム全体の正常性を監視・管理し、障害予兆を捉えてプロアクティブな対応を実現
- 障害が発生する前に対処して、未然に防止する取り組みを加速
- 環境の変化への追随
- 環境の変化への追随では、基盤ごとに日々変化していく機能、製品、アーキテクチャを継続的にウォッチして、維持管理業務へ反映し改善を図り、維持運用の中で”最適化”を継続し続ける
- 運用SEの担当業務の変化
- 従来の運用SEとしての役割からサイト・リライアビリティ・エンジニアリング (SRE)の役割へシフトし、運用管理業務やツール類の維持、管理・エンハンス業務にシフト
人的作業はミスをすることを前提に、システムは想定外の障害が発生することを前提として考え、いち早く(できれば予測分析の中で未然に)異常を検知し、問題箇所を特定し、関係各所へ速やかに連絡、報告が行われつつ、並行して復旧対応、対処ができる仕組みと体制を整備することが、クラウドの維持運用に不可欠である。
CTCは、マルチクラウド、ハイブリッドクラウドを維持管理に関わる課題の解決策を継続的に提供していく。