イベント登録数2,163

CROSS 2013セッション「今日から始まるデータサイエンティスト」

IT技術者も知らないと損する「データサイエンティスト」というお仕事~CROSS 2013レポート
宮田健 2013/1/31  2013年1月18日、エンジニアサポートCROSS 2013 実行委員会が主催するイベント「エンジニアサポートCROSS 2013」で、“ギーク向け”なセッションが多数開催された。本稿では、そのうち「データサイエンティスト」をテーマにしたセッションをレポートしよう。 IT技術者も知らないと損する「データサイエンティスト」というお仕事  データサイエンティストという職業に注目が集まっている。企業活動で発生したさまざまなデータの中から、ビジネスに有効な情報を取り出すという、ビッグデータの活用部分を担う職種/スキルとして必要性が高まっているが、実際にどのようなスキルが必要で、何をすればデータサイエンティストになれるのかは、いまひとつピンと来ないのが実情だろう。 セッションオーナーの里洋平氏  200分におよぶ長丁場のセッション「今日から始まるデータサイエンティスト」は、ディー・エヌ・エーでデータサイエンティストとして活躍する里洋平氏がセッションオーナーを担当し、前後篇に分かれて現場の意見を聞くことができた。  前編の「活躍するデータサイエンティストの人材像」では、憧れの職種であるデータサイエンティストになるための一歩として、第一線で働くキーパーソンを集められた。後編の「今日から始める データマイニング活用術」ではデータマイニングの極意が語られた。 何を学べばいい?「活躍するデータサイエンティストの人材像」  前半「活躍するデータサイエンティストの人材像」では、第一線で働く5名のデータサイエンティストが登場。以下のテーマで、それぞれの意見を戦わせた。 データサイエンティストになった理由 データサイエンティストのスキルセットとして必要なもの データサイエンティストを育てる立場として データサイエンティストを採用するに当たって 左から、iAnalysis CAO(Cheaf Analysis Officer)倉橋一成氏(@isseing333)、ブレインパッド 草野隆史氏(@zaakya)、トランスコスモス・アナリティクス 益村勝将氏(@Masumura187)、gumi 佐々木智之氏(@crkz666)、リクルート 西郷彰氏 活躍するデータサイエンティストの人物像とは?“分析する人”を選んだ理由を聞く  まず進行役の倉橋氏から、なぜ“分析する人”になったのかという質問が各スピーカーに投げられた。これには各社の戦略だったり、成り行きだったりという各人各様の状況があった。 進行役の倉橋氏「データサイエンティスト協会(仮)を準備中です」  例えば、分析を事業の中核に据え、データマイニングに特化したベンチャー、ブレインパッド代表の草野氏は「2004年に何をやろうか考えたとき、データがあふれることは間違いないと考えていた。労働人口は減るので、効率や生産性を上げるためにはデータ分析が必要」と語り、「明確なニーズがあるとして分析を選んだ」とのことだった。  一方で、気が付いたらなっていたという例もある。ビッグデータ分析サービスを提供するトランスコスモス・アナリティクスの益村氏は、もともと分析のキャリアからスタートしたわけではないが、「お客さまの課題を解決するに当たり、分析が必要になったため」と、その経緯を語る。  「臆病な性質なので、いろいろ分かったうえで進めたい。課題解決した結果がすぐに分かるというお客さまに喜ばれるという部門で、『儲かるアルゴリズム』に触れられるのが楽しい」(益村氏)  また、ソーシャルアプリプロバイダーとして有名なgumiの佐々木氏が、この分野に入ったのは、ソーシャルゲームの運営におけるデータ解析の必要性からだ。 スピーカーの佐々木氏「ソーシャルゲームにおいて大半のユーザーは無課金で遊び、一部のお客さまが課金をする。無料のユーザーが何に喜びを感じ、何で抜けていくのかを理解する必要がある。これは運だけではない。頑張っている人が報われないとサービスとして良くない。その調整のために、属人的な感性ではない調整が必要」  リクルートの西郷氏は、飲料メーカーでの経験が関係していたという。「どういう商品が売れていたのかで分析をした経験があった。感性ではなく、科学の分野だったので面白いと思った」とのことだ。リクルートにおいても「面白いと思って続けたが、分析スキルをとがらせていくうちに数字を意識するようになった。そうこうしているうちにそれが組織化し、いまに至る」という流れがある。  それぞれのスピーカーに共通するのは、「気が付いたら」「戦略的に」は、あまり関係なく、分析に興味がある/好き、そして「お客さまの行動を正しく把握し、喜ばれる改善をする」ためにデータ分析が行われているという印象を持った。 スキルセットとして必要なものは?  続いての議論のテーマは、データサイエンティストに必要な「スキル」についてだ。共通していたのは分析技術の基礎知識はもちろん「ビジネス感覚」「目的意識」というキーワードが多く出ていた。  佐々木氏は「解析チームが発足して丸1年になるが、この組織が機能しはじめたと感じたのは、データの目的の共通認識がなされているとき。こういう目的に対しては変数がこうだからこのデータが必要という認識が重要で、gumiのデータサイエンティストは目的変数が分かっていることが重要なスキル」とした。  また、益村氏は「論点が作れるかが重要」と述べる。アウトソース先としての解析者として、「集まったデータから、何を問えば良いのかが重要で、顧客視点なのか、売上視点なのか、何に対しての作業なのかをあらかじめ見据えること。分析した後『これ、なんで調べたんだっけ?』とならないように」と述べ、データサイエンティストと名乗るためにはマネジメントができることが必須とした。  ブレインパッドの草野氏は必要スキルとして「独学力」を挙げる。 スピーカーの草野氏「新しいものを調べていく知的好奇心がコンピテンシーとしてないと、そこから伸びることがない。情熱が必要だと思う」 データサイエンティストを育てる立場として  第一線で働くデータサイエンティストたちが、後進をどうやって育てていくのかも大きな論点だ。各社のデータサイエンティスト新人教育方針は、どうなっているだろうか。  それぞれの企業はデータサイエンティストを新人/中途採用で育成を行っている。  草野氏のブレインパッドでは、最低限の知識は3カ月で教える。その後実際のデータを使い、ミニプロジェクトをこなす。このミニプロジェクトはメンバーが客役を演じ、ぼんやりした「売上を上げたいんだよねー」「元気がないんだよね」という課題に取り組ませ、解析させるという。このプロジェクトを通じて、「ぼんやりとした『何とかして欲しい』に対して、きっちりとしたシナリオを作ることの難しさ」を教え込むそうだ  トランスコスモス・アナリティクスでも新規メンバーに対して同様の「知的プロフェッショナル研修」を行っている。この段階ではリサーチャー、エンジニアなど職種の壁を作らず、すべてのスキルを体験させるという。 スピーカーの益村氏「データソースで囲いを作らない。最初のキャリアを作るために、最初の職種を担当して2年くらいでジョブチェンジさせ、じっくりデータサイエンティストを作る」  また、リクルートは実務スキル評価サービス「Code IQ」でデータサイエンティストのための問題を出している。このような取り組みも見逃せない。  もちろん、エンジニアとしての基礎知識や、統計学の研修はスキルとして必須だ。このようなものは独学でも身に付くが、スピーカーの共通認識として、企画力などの「ビジネス側のスキル」が課題だという。  益村氏は「弊社で伸びている人材は、いっぱいお金を使っていただいているお客さまのプロジェクトで一緒に働いているメンバー。結果が何度も、すぐに見られるデータサイエンティストは伸びるし、自信が付く。仮説に対して検証ができる機会が増えれば増えるほど良い子ができる」という。  倉橋氏も「作り込みをしてじっくり考えるよりも、レスポンスが見られることが重要」とした。  佐々木氏は「企画力というか、自発的に調べる点は本人の関心、興味による。育成には、型にはめないことが重要。裁量権を持たせて自由な発想をさせたい。技術力や組み合わせの力がうまく動いたときは、技術者も楽しそうだ」と述べた。 「自社で分析がしたい」という場合に、どんな人を採用すればいい?  データサイエンティストを採用するには、どこを見ればいいのだろうか。この点に関しては、まだノウハウがなく、各社とも慎重なコメントとなった。  草野氏は「伸びしろがあるかどうかを見たい。『Hadoopに興味がある』というので『実際に触っているのか』と聞くと無言になったりする。触ってみてくれないと、行動力が見えない」と述べる。  益村氏は、この話に同意し、「『勉強したい』人は危険。『スキルをこう使いたい』人が良い。『使う』という表現をする人ならば『まず、やってみよう』という成長が見込める」  「バランス感が欲しい。データサイエンティストには客観性が重要な情報であり、先入観が入ると危険。好き嫌いで力が入ったり抜けたりするとダメ。採用時には極端な観点がないかを重要視している」(佐々木氏)  「データサイエンティストという呼び方が浸透するに従い、分析に閉じていた分野がビジネス全般に広がった。学術的アプローチが重要な分野だが、こだわり過ぎると危険。あんまり使えないなと思った解析法や結果を、ばっさりと切るなどの判断ができる人が重要」(西郷氏) スピーカーの西郷氏「対人コミュニケーションが苦手だ、嫌いだという人には難しい職種」 聞け! データサイエンティストの現場の声「今日から始める データマイニング活用術」  セッションの後半では、「今日から始める データマイニング活用術」と題し、データサイエンティストの分析体制や役割、作業の進め方など、データマイニングの現場を語る場となった。  CROSSでは各セッションルームにTwitterハッシュタグが用意されており、その内容を基に議論されることもある。後半のセッションでは「もっと具体的な作業内容が聞きたい」という投稿が見られ、その内容をもとに各スピーカーが議論した。 データサイエンティストの仕事とは データマイニングと統計解析の違い 解析の考え方で変わるクリーニングと分析の時間比率 まだまだ金融系に及ばない。Web業界のデータサイエンティストは始まったばかりだ 左から、ディー・エヌ・エー 里洋平氏(@yokkuns)、ディー・エヌ・エー 濱田晃一氏(@hamadakoichi)、グリー 光田健一氏(@mitsudaa)、フリークアウト 簗島亮次氏(@yanashi)、ALBERT(アルベルト)上村崇氏(@t_uemura) データサイエンティストの仕事とは?  データサイエンティストは実際に、どのようなことをしているのだろうか。セッションオーナーであり、後編の進行役でもある里氏から、最初の質問が投げかけられた。  グリーの光田氏は「ある課題に対して統計的な手法や機械学習を使って、何らかのアプトプットを出す人がデータサイエンティストだ。企画力についての要求は、あまりせず、非常に高度な専門知識をアウトプットできる」と指摘した。  グリーでは、データサイエンティストはマネジメント寄りに位置しており、多くのゲームスタジオを買収したことでバラバラになっていたログ管理や売上情報をエンジニアリングの力できれいに見せるための仕組みを作り、数値分析の立場から解決策を見い出す作業を行っているという。  ディー・エヌ・エーの濱田氏は一歩踏み込んだ作業をイメージしていて、「サービスまで見据えた解析をするのがデータサイエンティストの仕事」とした。  「ユーザー体験から設計をすべき。データサイエンティストの仕事として、レコメンデーションをするアルゴリズムを作る、というだけでは不足で、どんな新たな体験をできるのかまでを見据えた解析をするのが仕事だ。ディー・エヌ・エーでは「1ユーザー当たりどれくらいゲームをインストールしているか、どれだけ継続されているかの数値が重要。そのためにデータマイニングを行っている」(濱田氏)  レコメンデーションエンジンの専門企業として設立されたAlbertの上村氏は、まずデータサイエンティストの定義から入った。  「データアナリストはデータ分析。データサイエンティストはデータを蓄積するところから、モデルを分析し課題を解決するまで幅広い業務を指している」(上村氏) Albertが定義するデータサイエンティストとデータアナリストの違い(上村氏の講演資料より)  DSP(Demand-Side Platform)のアドテク企業であるフリークアウトの簗島氏は、「データサイエンティストの仕事の定義は人によって違うし、依頼主によっても違っている。ただ、数字を見る人というイメージ」とした。 スピーカーの簗島氏「データサイエンティストに必ず求められるのは『意思決定を行うための補助』『意思決定そのもの』だ」 データマイニングと統計解析の違いは?  大量のデータから“事実”“知識”を見つけるデータマイニングでは、いったいどこから手を付けていくべきなのだろうか?  濱田氏は「効率の高いところから、やっていく」と述べる。やみくもにデータマイニングをやるのは失敗することが多く、その時間が無駄になる。インパクトが大きいところがどこなのかをまず見極めてから効果の高い順に対応するのがディー・エヌ・エーの手法だ。  では、どういったところが効果が高いのだろうか。光田氏は効果が低い分析について「何の施策にもつながらない解析は除外する。あるデータを集めて分析すれば良いと分かっていても、そのデータ収集に時間がかかるものは、やらない。消去法で残る手ごろな解析、難しくないけど効果が高い分析は実施する」とした。  そもそも、データマイニングと統計解析とは異なるものなのだろうか。上村氏は、「すでに仮説があって、それを検証するのが統計解析。データマイニングは膨大なデータから知らなかった知識が発見できるのがポイント」と述べた。  上村氏はさらに、「データマイニングには2通りある」と付け加えた。それは「仮説検証型」と「知識発見型」だ。Albertでは、分析を依頼される立場の企業であることから、その両方の依頼が来る。  それぞれのデータマイニングは手法が異なり、仮説検証型であれば「売上を上げたい」といった「目的変数」が存在するはずであるし、「ある商品が売れるとき、別の商品が同時に売れている」ということを見つけるのが知識発見型のマイニングとなるという。 スピーカーの上村氏「データマイニングの効果を考えるとき、仮説検証型なのか知識発見型なのかを最初に意識するべき」 解析の考え方で変わるクリーニングと分析の時間比率  ここで上村氏から「皆さんは分析の前準備であるクリーニングにどのくらい時間をかけているか?」という質問が飛び出した。  データマイニングにおいては、取り扱うデータ自体に分析に関係のない「ゴミ」が存在することが多く、まず不要なデータを取り除くこと=クリーニングが必要となる。データ分析に耐え得るクリーニングを行う作業と分析の作業の比率が「8対2である」と上村氏は述べ、簗島氏も同様に「9対1」と述べた。  一方、濱田氏は認識が異なる。ディー・エヌ・エーでは、データサイエンティストがログ自体から設計を行うため、クリーニングの必要がないという。よって「ゴミがないので、クリーニングと解析は大体2対8」と、数値が逆転している。 スピーカーの濱田氏「必要であれば自分たちでログを設計するし、サービスとしてリリースした後もログを用いて洗練することで、チームに貢献する」  上村氏は、この結果について「すごく面白い。これはデータマイニングのために設計することが重要であり、上層部がこのポイントにコミットしていることが組織の成功につながっている」とした。解析のためにログを変更することが戦略的に行われており「聞いてて、うらやましい」と述べた。  ここで、光田氏から濱田氏に「海外企業の買収があったので、海外との環境をよく比較するが、日本は遅れている?」と質問があった。これに対して濱田氏は「技術レベルが大きく違うとはいえない」とした。 まだまだ金融系に及ばない。Web業界のデータサイエンティストは始まったばかりだ  今回、進行およびスピーカーにソーシャルゲーム関連の企業のメンバーが多いことについて問われた濱田氏は「ソーシャルゲームに人が集まるのは、サービスのサイクルが速いのが要因かも」と述べた。 スピーカーの光田氏「データサイエンティストは証券会社をはじめ金融系には多く居るが、Web業界には、まだまだ人が少ない。統計的な知識、数学的な知識が生かせる場所なので、金融系に追いつけるように頑張らねば」  この話題を振った上村氏も「Webサービスは、データを貯めることとデータを解析するのが同時に来た業界。これからはデータサイエンティストが活躍できる業界が増えていく。データを貯めるところからイノベーションを起こし、活躍の場を増やして盛り上げていきたい」と述べた。 関連記事 あなたの知らないインフラと運用のゲンバのハナシ~CROSS 2013レポート エンジニアも避けては通れない「安全な利用規約」の作り方~CROSS 2013レポート 開発者のスタ誕「CROSS VS」が開催、おばかアプリ選手権賞は… 「イベントカレンダー+ログ」レポート投稿募集中! このレポート記事が掲載されている本サービス「イベントカレンダー+ログ」では、イベント登録者がレポートを投稿したり、資料を一覧できるまとめページを作成できます。新着レポートは一覧に表示され、こちらのRSSにも配信されるので、ぜひご活用ください。