株式会社ビズリーチの導入事例:データ分析基盤を Google Cloud Platform へ移行し、エンジニアの開発効率向上とビッグデータ活用を劇的に推進
株式会社ビズリーチの導入事例:データ分析基盤を Google Cloud Platform へ移行し、エンジニアの開発効率向上とビッグデータ活用を劇的に推進:
HR テック領域でサービスを展開する株式会社ビズリーチの運営する求人検索エンジン『スタンバイ』。そのリード エンジニアであるマイヤー ステファンさんが「検索精度には自信があります」と胸を張るこのサービスが、この春、データ分析基盤を Google Cloud Platform に移行させました。その背景にはどのような事情があったのでしょうか。現在の成果と今後の展望も併せて聞いてきました。
これらの問題を解決するために、さまざまな解決法を検討し、行き着いたのが Google Cloud Platform(GCP)。現在は、既存クラウド上でメインの検索サービスを動かし、GCP 環境をビッグデータの分析基盤として活用するマルチ クラウド構成としているそうです。
「GCP プロダクトの中で、今回、特に重要だったのが Cloud Dataflow。Apache Beam SDK でバッチ処理もストリーミング処理も両方ほとんど同じコードで管理できることが、『スタンバイ』のビッグデータ処理に役立ってくれました。そしてもう 1 つ、フルマネージド サービスのため、アプリケーション エンジニアが、インフラ周りの面倒を見る必要がなく、コードを書くことに専念できるようになったのも大きなメリットです。また、Apache Beam SDK が Java をサポートしているため、我々が普段使っている Scala との相性も抜群でした。」(マイヤーさん)
その結果、移行作業はわずか 1 か月程度で完了。2018 年 4 月には新たなデータ分析基盤が稼働しはじめました。
現在、GCP 環境で取り扱っているビッグデータは大きく 2 種類あります。1 つは、ユーザー行動のトラッキング データ。こちらは既存クラウド環境から転送サービスを使って Google Cloud Storage に保存し、Cloud Pub/Sub を経由して Cloud Dataflow で処理され、BigQuery に蓄積されていきます。そしてもう 1 つは、ユーザーが『スタンバイ』でどのようなキーワードを検索しているかのデータ。これらは Cloud SQL に格納され、後は、同じよう Cloud Dataflow に引き渡され、BigQuery に保存されます。
「BigQuery は大量のデータでも高速に処理してくれる点がすばらしいですね。これまで分散して管理していたデータソースを 1 つの場所に集約できたことで、分析の精度も上がっています。また、誰でも簡単に SQL が書けるので、分析の担当者が自分で必要な情報を引き出すことができるようになりました。これまでは分析に必要な項目に変更があった場合、その都度エンジニアに依頼する必要があったので、そういう意味ではコスト削減も実現できたことになりますね。なお、分析の成果は、サービス品質向上のほか、求職者が『スタンバイ』を訪れる SEO などにも活用されています。」(マイヤーさん)
「Cloud Functions は、Cloud Dataflow の起動のほか、処理中に例外が発生した際、それをトリガーに Slack に通知を送ったり、レポートを作成するといった用途に使っています。GKE は、既存クラウド環境上にある検索データベースのスナップショットを作成し、そちらで Elasticsearch を動かすことで、頻度の高い検索ワードの可視化などを行っています。そのほか、Google Stackdriver もサービスのモニタリングに重宝しています。ログだけでなく、アプリやインフラなどをまとめて 1 つの場所で確認できるのが便利ですね。今回、実際に『スタンバイ』に GCP を導入し、そのメリットが分かったので、今後我々の別のサービスにも導入していくことも検討中。実際、すでに、ビジネス メディア『BizHint』では、データ分析に活用し始めています。」(マイヤーさん)
なお、現在はデータ分析が中心的な役割となっている、ビズリーチ社における GCP 活用ですが、今後、新規事業においては、すべてを GCP 上で構築するということも考えているそうです。
「その際、個人的に注目しているのが GKE。現在、ビズリーチではサービスのコンテナ化を推進しているのですが、その点において GKE は、管理しやすさやオート スケーリングなどの点で、一歩リードしていると思います。現在はまだ有志による勉強会を行っているという段階なのですが、今後はどんどん実際のサービスで活用してきたいと考えています。」(マイヤーさん)
株式会社ビズリーチの導入事例 PDF はこちらをご覧ください。
その他の導入事例はこちらをご覧ください。
HR テック領域でサービスを展開する株式会社ビズリーチの運営する求人検索エンジン『スタンバイ』。そのリード エンジニアであるマイヤー ステファンさんが「検索精度には自信があります」と胸を張るこのサービスが、この春、データ分析基盤を Google Cloud Platform に移行させました。その背景にはどのような事情があったのでしょうか。現在の成果と今後の展望も併せて聞いてきました。
利用している Google Cloud Platform サービス
Cloud Dataflow、BigQuery、Google Cloud Storage、Cloud Functions、Google Kubernetes Engine、Cloud Pub/Sub、Cloud SQL、Google Stackdriver など
写真
スタンバイ事業部 プロダクト開発グループ リードエンジニア 兼 VPoE
マイヤー ステファン氏
株式会社ビズリーチ
株式会社ビズリーチは、ダイレクトリクルーティングという新しい採用の概念を提唱し、即戦力人材と企業をつなぐ転職サイト『ビズリーチ』(2009 年サービス開始。現在の会員数は 137 万人、利用企業数は累計 9,300 社以上)を主力に、20 代向けの転職サイト『キャリトレ』や、B to B 向けの戦略人事クラウド サービス『HRMOS(ハーモス)』など、HR テック領域で各種サービスを多数展開中。現在の従業員数は 1,304 名(2018 年 10 月現在)。
コードを書くことに専念したかったからフルマネージドな GCP を採用
2015 年 5 月よりサービスを開始しているビズリーチの求人検索エンジン『スタンバイ』は、これまで他のクラウド サービス上で運用されていました。しかし数年もすると、インフラのスケーリングやパイプラインの変更、新しい機能やサービスのテストなどを行う際に、都度、インフラ エンジニアに依頼をし調整せねばならないことが大きな負担に。また、蓄積した膨大なログデータを既存の方法で分析しきれなくなっていたことや、アナリティクスなどの Google サービスとの連携に制限があることも解決すべき課題となっていました。当初はこれを既存クラウド サービスのプロダクトで解決しようと模索しましたが、「できないことはなかったのですが、時間と手間がかかりすぎて現実的ではありませんでした。」とマイヤーさんは当時をふり返ります。これらの問題を解決するために、さまざまな解決法を検討し、行き着いたのが Google Cloud Platform(GCP)。現在は、既存クラウド上でメインの検索サービスを動かし、GCP 環境をビッグデータの分析基盤として活用するマルチ クラウド構成としているそうです。
「GCP プロダクトの中で、今回、特に重要だったのが Cloud Dataflow。Apache Beam SDK でバッチ処理もストリーミング処理も両方ほとんど同じコードで管理できることが、『スタンバイ』のビッグデータ処理に役立ってくれました。そしてもう 1 つ、フルマネージド サービスのため、アプリケーション エンジニアが、インフラ周りの面倒を見る必要がなく、コードを書くことに専念できるようになったのも大きなメリットです。また、Apache Beam SDK が Java をサポートしているため、我々が普段使っている Scala との相性も抜群でした。」(マイヤーさん)
その結果、移行作業はわずか 1 か月程度で完了。2018 年 4 月には新たなデータ分析基盤が稼働しはじめました。
現在、GCP 環境で取り扱っているビッグデータは大きく 2 種類あります。1 つは、ユーザー行動のトラッキング データ。こちらは既存クラウド環境から転送サービスを使って Google Cloud Storage に保存し、Cloud Pub/Sub を経由して Cloud Dataflow で処理され、BigQuery に蓄積されていきます。そしてもう 1 つは、ユーザーが『スタンバイ』でどのようなキーワードを検索しているかのデータ。これらは Cloud SQL に格納され、後は、同じよう Cloud Dataflow に引き渡され、BigQuery に保存されます。
「BigQuery は大量のデータでも高速に処理してくれる点がすばらしいですね。これまで分散して管理していたデータソースを 1 つの場所に集約できたことで、分析の精度も上がっています。また、誰でも簡単に SQL が書けるので、分析の担当者が自分で必要な情報を引き出すことができるようになりました。これまでは分析に必要な項目に変更があった場合、その都度エンジニアに依頼する必要があったので、そういう意味ではコスト削減も実現できたことになりますね。なお、分析の成果は、サービス品質向上のほか、求職者が『スタンバイ』を訪れる SEO などにも活用されています。」(マイヤーさん)
今後は他のサービスにも GCP のエコシステムを導入していきたい
マイヤーさんは、GCP の強みは、それぞれのサービスをインテグレーションしやすいところにあると評価してくださいました。Cloud Dataflow を中心に、BigQuery や、Google Kubernetes Engine(GKE)、Cloud Functions など、さまざまなプロダクトがワンクリックで繋がることが、豊かなエコシステムを生み出していると言います。「Cloud Functions は、Cloud Dataflow の起動のほか、処理中に例外が発生した際、それをトリガーに Slack に通知を送ったり、レポートを作成するといった用途に使っています。GKE は、既存クラウド環境上にある検索データベースのスナップショットを作成し、そちらで Elasticsearch を動かすことで、頻度の高い検索ワードの可視化などを行っています。そのほか、Google Stackdriver もサービスのモニタリングに重宝しています。ログだけでなく、アプリやインフラなどをまとめて 1 つの場所で確認できるのが便利ですね。今回、実際に『スタンバイ』に GCP を導入し、そのメリットが分かったので、今後我々の別のサービスにも導入していくことも検討中。実際、すでに、ビジネス メディア『BizHint』では、データ分析に活用し始めています。」(マイヤーさん)
なお、現在はデータ分析が中心的な役割となっている、ビズリーチ社における GCP 活用ですが、今後、新規事業においては、すべてを GCP 上で構築するということも考えているそうです。
「その際、個人的に注目しているのが GKE。現在、ビズリーチではサービスのコンテナ化を推進しているのですが、その点において GKE は、管理しやすさやオート スケーリングなどの点で、一歩リードしていると思います。現在はまだ有志による勉強会を行っているという段階なのですが、今後はどんどん実際のサービスで活用してきたいと考えています。」(マイヤーさん)
株式会社ビズリーチの導入事例 PDF はこちらをご覧ください。
その他の導入事例はこちらをご覧ください。
コメント
コメントを投稿