【SRE運用リーダー】貴方の運用設計/障害対応経験を活かせます!|フルリモート可
- 給与
- 650万円~1000万円スキル・経験・能力に応じて決定いたします
- 勤務地
- 東京都新宿区
【概要】
AWS上のお客様のシステムを安定運用させることを目指し、システム監視や障害対応・定型作業・お問い合わせ対応の提供、日々の改善業務や運用システム基盤のアップデートを行います。
SRE(Site Reliability Engineering)とは、ソフトウェアツールを活用して、システム監視やアプリケーション監視等のITインフラを自動化する手法で、近年、クラウド技術等の発達によりシステムの複雑化が進み、運用保守業務もより複雑化かつ高難度になりつつある中で、お客様のシステム環境の安定性、信頼性を高める手法です。
弊社のAWS運用は上記SREの観点で、お客様のシステム環境の信頼性を第一に考え、お客様の信頼を獲得していく業務となります。
運用設計・監視設定対応・障害対応・運用改善支援等、業務内容は多岐にわたりますが、特に「システム運用のプロジェクトマネージャー/プロジェクトリーダー」「運用の改善提案」「運用の標準化/自動化」のいずれかに強みを持つ方を強く募集します。
【具体的な業務内容】
プロジェクトマネージャー(PM)/プロジェクトリーダー(PL)
SREエンジニアチームの活動を最大化させるために、チームのマネジメント力は非常に重要です。PMについては、SREプロジェクト全体を統括する立場として、お客様やステークホルダー様との信頼関係・協力関係を築きながら、チームメンバーの業務やプロジェクトの進捗を管理します。PLについては、案件責任者として運用要件や運用設計について正しく把握し、チームメンバーをまとめながら計画通りに案件を進めていきます。
運用改善の提案
お客様と密にコミュニケーションを行いながらAWS運用状況を継続的に把握し、現在または今後の課題に対する改善提案(運用効率化、コスト削減提案、AWSサービスの情報共有等)を行います。
運用の標準化/自動化
SREの観点で運用作業の標準化/自動化を行い、運用業務の効率化や民主化を行います。これによりお客様へのサービス品質の向上を図ります。
運用設計
課題管理ツールを利用したテキストベースでのやり取り、リモートでのミーティング等を行いながら、しっかりと時間を取ってお客様の要望をヒアリングします。サービス仕様から外れるような要望があった場合は背景や理由等をさらに深堀りし、サービス仕様の範囲で最大限お客様が満足できるような内容に調整します。
障害発生時における有人対応
監視システムが検知した障害に対して、お客様への電話・メール連絡や障害調査報告、復旧作業(有人作業)等を行います。
障害内容の確認およびお客様への連絡
AWS環境やサーバー内で問題になっている箇所の調査
プロセスやサーバーの再起動等の復旧作業
バックアップ失敗時における手動での再取得
AWS運用サポート
運用サポート
チケット管理サービスである Zendesk を利用し、お客様からのお問い合わせに対応します。お客様の要望に対して、AWSドキュメント調査や検証作業等を通じて、対応可否の回答やお客様の要望に添えるような代替案の提示を行います。テキストベースでのやり取りで伝わらない場合は、必要に応じて電話での説明も行います。
運用支援として、サーバーバックアップの取得・管理、AWS環境内の定型作業等も提供しています。
【使用ツール】
Zendesk(サポート窓口)
Zabbix(監視ツール)
事業内容・業種
SIer・システム開発・ソフトハウス