オンプレxクラウド運用管理|知る×学ぶ
第2回 次世代IT運用の挑戦:具体的な課題と取り組み状況
ここ数年、企業はハイブリッドクラウドの導入を加速させ、システムの柔軟性やコスト最適化を追求しています。一方で、システムの複雑化に伴い、運用効率の向上が急務となっています。特に、サイバーセキュリティリスクの増加やリソースの無駄を回避するためには、クラウドの統合管理や「インテリジェントオートメーション」による迅速な対応が欠かせません。
さらに、システムの状況を可視化し問題を早期に発見する「オブザーバビリティ」や、データを活用して予測・対策を行う「AIOps」も注目されています。
こうした中、深刻化するIT人材不足への対応として、現場の運用担当者に最新スキルを習得してもらう「リスキリング」と「アップスキリング」の重要性も増しています。
CTCでは10年以上にわたりマネージドサービスを提供してきた経験と最新技術を活用し、次世代のIT運用を見据えた取り組みを推進しています。
このシリーズでは、CTCが挑む次世代IT運用の実態と、それを解決するための具体策について詳しくご紹介していきます。
▼ シリーズ:次世代のIT運用を目指すCTCの取り組み
・【第1回】次世代IT運用の挑戦:現状と今後を見据えた考え方
・【第2回】次世代IT運用の挑戦:具体的な課題と取り組み状況
・【第3回】※近日公開 次世代IT運用の挑戦:実績と成功事例の紹介
■第2回 次世代IT運用の挑戦:具体的な課題と取り組み状況
1. はじめに
第1回の記事では、CTCがマネージドサービスプロバイダーとしての日々の運用、課題、今後を見据えた考え方を提示しました。第2回の記事では、今後を見据えた考え方=「次世代のIT運用」を前提においた、課題の取り組み状況を提示します。
2.CTCが目指す次世代のIT運用とは
CTCでは「次世代のIT運用」の目指すべき姿として「運用の高度化」と「運営の高度化」という2つの要素が重要であり、これらをバランスよく実現することで、持続可能かつ効率的なIT運用が実現できると考えています。
運用の高度化: 最新技術を活用し、システムの安定稼働や運用の効率化を実現すること。たとえば、オブザーバビリティ(可観測性)ツール活用した障害対応の効率化やAIを活用した障害予測など
運営の高度化: 組織運営そのものを見直し、戦略的な管理体制を構築すること。具体的には、スキル標準化やリスキリングを通じて人的リソースの活用を最大化する取り組みなど
さらにこれらの要素を効果的に実現するために工夫した点が2つありました。
一つはバランススコアカードの「4つの視点」を活用することです。バランススコアカードとは、戦略の実行を多面的に評価・管理するフレームワークで、「財務」「顧客」「内部プロセス」「学習と成長」の4つの視点から目標を設定・評価します。これにより、特定の視点に偏らず、バランスの取れた運用改善が行えるよう実行を開始しております。
もう一つは「設定型の課題解決」を行うことです。
IT運用の現場では、日々発生する課題に対応することで手一杯になりがちです。しかし、目先の課題解決に終始していては、同じような問題が繰り返されるばかりで、持続的な成長にはつながりません。 そこで重要になるのが、未来の「ありたい姿」を明確にし、それを実現するための「設定型の課題解決」を行うことです。「設定型の課題解決」とは、短期的な対応ではなく、戦略的な視点で課題を捉え、根本的な解決策を設計するアプローチを指します。これにより、リソースの無駄を抑えつつ、効率的かつ持続可能な運用体制を構築することが可能となります。
3.具体的な課題と取り組み状況
CTCでは前章で述べたような前提のもとに「次世代のIT運用」への変化を実践しています。ここでは私たちの取り組みとして「運用の高度化」と「運営の高度化」という2つの観点から、第1回の記事で提示した課題の中でも現場で発生している3つの主要な課題を取り上げ、その概要、背景の深掘り、さらに具体的な対策と効果についてCTCの取り組み状況をご紹介させていただきます。
<取り組み事例>
CASE.1:膨大な量のアラートに関する課題(運用の高度化) CASE.2:インシデント対応の長期化と運用の属人化(運用の高度化) CASE.3:人手不足と人件費の高騰(運営の高度化) |
◇CASE.1:膨大な量のアラートに関する課題(運用の高度化)
【課題の概要】
CTCの運用現場では、マルチクラウドやハイブリッドシステム環境において、異なるツールやテクノロジーを組み合わせながら日々の業務を行っています。しかし、システムの複雑化に伴い、各ツールからのアラートが頻発し、担当者には膨大な量のアラートが絶えず届く状況が生じています。この結果、重要なアラートが他の通知に埋もれ、迅速な対応が難しくなり、運用上の遅延やエラーの発生リスクが高まっています。対応の負担が増すことで、業務効率の低下や担当者の負担増も避けられず、会社全体の生産性にまで影響が及ぶ事態となっており、アラート管理の効率化が急務となっています。
【CTCが実践した課題の深掘り】
アラート管理が複雑化している主な要因としては、マルチクラウドやハイブリッドシステムといった複数のシステム環境が並存する状況が増えているためで、その影響を詳しく記載すると以下になります。
① 異なるクラウド環境と運用基準の違い
・マルチクラウド環境では、複数のクラウドプロバイダー(AWS、Azure、Google Cloudなど)のサービスを組み合わせて使用している
・サービスごとに異なった管理インターフェース、運用基準が存在するため、一元的に
アラートを管理することが困難となる
② システムやツール間の相互依存の増加
・ハイブリッドシステムでは、オンプレミスとクラウドを組合せるケースが増加している
・システム間の相互依存性が増すことで、1つのシステムの問題が他システムに波及し、連鎖的なアラートの発生や原因の特定困難による管理の複雑化を招いている
③ アラートのボリューム増加
・マルチクラウドおよびハイブリッドシステム環境では、システムやサービスの増加に伴い、サーバ、アプリケーション、ネットワーク、セキュリティツールなど各レイヤーから送信されるアラートが急増している
・急増しているアラート結果より、運用担当者は膨大なアラートに対応する必要があり、優先順位を適切に判断することが難しくなっている
④ ツールや技術の違いに伴うスキルギャップ
・異なるクラウドサービスやツールごとに設定や管理方法が異なるため、対応には幅広いスキルセットが必要となる。しかし、すべてのシステムに精通した人材の確保は困難で、対応が遅れるケースが多くなっている。
・さらに、ツールや技術ごとに対応できる運用担当者が限られることで、アラート対応のスピードと効率化が低下し、結果的に管理がより難しくなっている。
【対策と効果:AIOps活用で重要アラートを迅速に特定・対応】
CTCが目指す次世代のIT運用では、単なる膨大な量のアラートを削減する対応ではなく、アラートの優先度を正確に判断し、重要な情報が埋もれることなく迅速に対応できる仕組みを構築することが不可欠であると位置づけています。
AIOpsにより膨大なアラートを集約し、必要なアラートのみをインシデント化した事例を下記に提示します。
結果、重要度の高いアラートを見極め、それに人的リソースを集中的に割り当てることができるようになりました。これまでアラートの分類や選別に多大な時間を費やしていた現状から脱却し、より重要な業務に時間を当てられるようになりました。また、時間が削減できたことで、アラート管理に従事していた要員の一部を、戦略的な業務や技術的に高度な業務へシフトできるようにもなりました。
◇CASE.2:インシデント対応の長期化と運用の属人化 (運用の高度化)
【課題の概要】
CTCの運用現場では、インシデント発生時の迅速な対応と属人化の解消が重要課題となっています。特にマルチクラウドやハイブリッドシステムを利用する現場においては、適材適所で選ばれた複数のツールが導入されており、それらを手作業で切り替えて情報収集を行っています。
また、マルチクラウド環境や、オンプレミスシステム環境等のシステム環境の違いから、運用担当者の経験や知識によって対応やスピード感が偏る傾向でもありました。
【CTCが実践した課題の深掘り】
改めて、インシデント対応が長期化している要因と、運用の属人化に至る経緯を下記に提示します。
① ツール切り替えの手作業による情報収集の遅延
・インシデント発生時、複数のツールを手作業で切り替えて情報を収集する必要がある。
・リアルタイムでの情報取得が難しく、対応に時間がかかる状況にある。
② 障害解析・復旧対応時間の長期化
・複数のツールから情報を収集する手間が発生する。
・運用担当者ごとにスキルセットが異なり、障害の原因特定や解析にばらつきが生じる。
・特定のスキルを持つ運用担当者でないと対応が難しく、対応時間が長期化する。
③ 対応の偏りによる持続性と人材活用の課題
・障害対応に精通した一部の運用担当者に依存した対応が進められ、業務の属人化が進 み、運用の持続性にリスクが生じる。
・結果、他の運用担当者が障害対応スキルを習得する機会が限られ、人材活用性の向上が難しくなる。
【対策と効果:インデント発生時の初動迅速化】
CTCが目指す次世代のIT運用は、各種ツールの有識者を増やすことではなく、また障害対応に精通した担当者の育成でもありません。必要なとき必要な情報を誰もが確認でき、インシデント等の事象発生時の状態把握に要する時間をスキルセット&経験に依存せずに短縮し、MTTR/MTTI(平均修復時間/平均調査時間)を短縮することが重要だと位置づけました。
CTC開発ツールにより、シングルクリックで監視、ログ収集、パフォーマンス測定など、必要な情報を取得する事例を下記に提示します。
結果、システム監視やログ収集、トランザクションのトレースなどを行っている各種管理ツールと連携し、インシデント発生時の情報収集を自動化し、これまで手作業で行っていた複数ツールの情報収集を「シングルクリックで実現」し、初動対応時間を飛躍的に短縮しました。さらに、対応フローやパターンを可視化・標準化することで属人化を解消し、スキルと経験に依存しない対応も可能となりました。
◇CASE3:人手不足と人件費の高騰 (運営の高度化)
【課題の概要】
CTCの運用現場では、システムの複雑化とともにエンジニアの負荷が増大している一方で、人手不足や人件費の高騰といった大きな課題が顕在化しており、運用と体制の維持に大きな影響を及ぼしています。
【CTCが実践した課題の深掘り】
今までの運用現場では比較的システムがシンプルであり、特定技能を持つエンジニアを確保することで課題を解決してきました。しかし、昨今ではこのやり方が通じなくなっていると感じるようになってきています。CTCでは現在の状況を踏まえた課題を改めて考え直してみました。
① 業務負担の偏りと特定担当者への依存
・障害対応やメンテナンス業務が特定の担当者に集中しているため
―昼夜問わず対応が特定担当者に集中
―不在時に対応が遅延する
等の問題が発生する
・属人的な対応によるエンジニアへの負担の増加により、離職リスクを高める大きな要因になっている一方で、新メンバーを採用しても、属人的な業務の引き継ぎに苦戦し即戦力化が遅れる等の問題が発生する。
② 新規人材確保の限界
・特定のクラウド環境や複雑なシステム構成に関する知識を持つエンジニアがいない
・短期間での人材育成が難しく、新規採用や人件費などのコストが増加する。
③ 短期対策の非持続性
・人件費の一時的な引き上げや増員は、根本的な課題解決につながらない。
・高コスト・高スキルの契約・派遣社員を一時的に採用しただけでは、運用全体の改善や効率化には寄与しないことも多く、長期的にはコスト負担増となる。
【対策と効果:リスキリングと再配置で人材不足解消】
この課題を解決するには、技術的な対策だけでなく運営そのものを戦略的に見直すことで、人手不足や人件費高騰といった大きな課題に関する取り組みに対しても同時にアプローチする必要があります。これを「運営の高度化」と位置づけ、CTCではバランススコアカードの「財務」と「学習と成長」の視点を軸に持続可能で効率的な取り組みを開始し、実現に向けて検討中となります。
従いまして、本検討結果により「2.CTCが目指す次世代のIT運用とは」の記載内容に変更が発生する可能性があることを、ご承知おきください。
・財務の視点:人件費を抑えつつ運用コストを最適化
業務の属人化を解消するため、スキルセットを標準化し、各担当者が複数業務に対応可能な体制を構築。これにより、少人数でも効率的な運用を維持し、コストを抑えながら持続可能な運用体制を確立する
・学習と成長の視点:リスキリングとチームレベルのスキルアップ
運用担当者の継続的なスキルアップを目的に、トレーニングやレビューを実施。個々の能力を向上させるだけでなく、チーム全体の成長を促進
リスキリングにより、担当者が新たな業務領域にも柔軟に対応できる体制を整備
ここでのポイントは、IT人材の確保は引き続き厳しい状況であることを前提に、運用の高度化を進めつつ人材の再配置とリスキリング等によるエンジニアの育成を行っていく必要があるということです。
「次世代のIT運用」を目指すCTCは、運用の高度化と運営の高度化を両輪に、課題解決に取り組んでいます。AIOps導入による効率化やインシデント対応の迅速化、リスキリングを通じての持続可能な運用体制の構築。これにより、IT運用の持続性と効率性を両立し、複雑化するシステム環境への迅速かつ適切な対応を可能にしております。
次回は、「第3回 次世代IT運用の挑戦:実績と成功事例の紹介」として、社内外での実績と成功事例をご紹介いたします。