自動化により、データ科学は不必要になるだろうか？

著者紹介：Tianhui Michael Li（ティエンホイマイケル・リー）氏は、学界で産業界の博士とポスドク移行をサポートする8週間の遠征知られているThe Data Incubatorの創設者である。その前にFoursquareで麻素材化データ科学の責任者を務め、GoogleやAndreessen Horowitz、JPMorgan、DEShawで働いた経験もある。

–

「自動化を介してデータ科学は不必要になるだろうか？」

これは私が参加している会議で、ほぼ毎回受ける質問である。主に質問を発することが問題に関心をもつ2つのグループである。まず最初のグループは、将来の雇用の見通しについて懸念している現役の実務家やその志望である。他のグループは、データサイエンスに対処始めたばかりの幹部と管理者で構成されている。

彼らはTargetは顧客が妊娠するかどうかをショッピングパターンで確認することができと聞くと、彼らのデータに適用することができるような強力なツールを持たないだろうかと思う。そして自動化AI企業が最新の営業プレゼンテーションでは、データの科学者なしにTargetがしたのと同じ（またはそれ以上）を達成することができると主張することを聞く。その問いに対して、私たちは自動化と、より進化したデータサイエンスツールは、データ科学の需要をなくすことができ、減らすことができないと主張している（Targetストーリーのようなユースケースを含むて）。自動化により、より多くのデータ科学の需要が作られるだろう！

その理由は次の通りである。

関連記事：2020年にデータ科学者を雇うことはどのように違うのですか？（未訳の記事）

ビジネス上の問題を理解することが最大の課題

データ科学における最も重要な問題は、どのような機械学習アルゴリズムを選択するか、このはなく、どのようにデータを整理したり、さらにはない。コードを作成する前に、まず考えなければならない。それはどのようなデータを選択し、そのデータに対してどのような質問を設定したりするものである。

一般的なイメージに不足しているのは、（希望に満ちた面もあるが）、創造性、創造性、そして、これらのタスクに注ぎ、ビジネスの理解である。顧客が妊娠するかどうかを心配しているのはなぜ？ Targetのデータ科学者たちは、積み重ねてきた研究内容に応じて、これはなぜ小売店を変更する準備をしている高収益の顧客層であることを把握した。使用可能なデータセットは、何ですか？そのデータセットに対して科学的に検証可能な質問をどのように提示することができますか？

Targetのデータ科学チームはベビーレジストリ（ベビー用品の買い物リスト作成サービス）データを購入履歴と結びついそれ顧客の支出と連携する方法を見つけて。どのように成果を測定するか非技術的な要件をデータで応答することができる技術的な質問に策定することは、データの科学で最も困難な作業の一つであり、また、精度を伴うことは非常に難しい。これらの問題を定式化することができる経験豊富な人がいない場合、データ科学の努力を開始しさえないだろう。

前提条件を作る

データ科学の質問を定式化した後、データの科学者は、前提条件の概要をまとめ必要がある。ここには、多くの場合、データに触れた旧データのクリーンアップ機能エンジニアリングなどの作業が伴います。実際のデータは、大変な混乱で、保有しているデータとイムしようとしている事業や政策の質問とのギャップを埋めるために、多くの前提条件を作成する。また、これらの前提条件は、実際的な知識とビジネスの状況に大きく依存する。

Targetの例では、データの科学者は、妊娠の代理変数分析の現実的な期間の正確な比較のための適切な対照群のための前提条件を整理する必要があった。彼らは無関係なデータを捨てて特徴を適切に正常化することができる現実的な前提条件をほぼ確実に作成する必要がした。これらの操作は、すべての人間の判断に大きく依存している。機械学習のバイアスによる問題が最近相次いでいるよう人間がループから除外することは危険である。その問題のほとんどが機能エンジニアリングの入らないようにであるを主張するディープラーニングアルゴリズム周辺で発生しているのは偶然ではないだろう。

重要な機械学習の一部は、自動化された（私たちもこのようなワークフローを自動化する方法をいくつか教えてさえいる）が、データ科学の実際の作業の90％を占めるデータ触れ区、データのクリーンアップエンジニアリングは、安全自動化することができない。

歴史的な例示

データ科学が完全に自動化されていないことを示唆し明確な先例がある。分野で高度な訓練を受けた人がコンピューターに顕著な成果を達成するためのコードを作成している。これらの人材は、この分野での技術がない人材よりもはるかに高い報酬を受けて（驚きはない）、この技術分野に特化した教育プログラムが存在する。その結果、発生この分野の自動化しようとする経済的圧力は、データサイエンスに圧力のような激しい。その分野は、ソフトウェアエンジニアリングである。

実際にソフトウェアエンジニアリングが容易になると、プログラマのための需要が増加するだけである。自動化により、生産性が向上し、価格が低下し、最終的に需要が増大するというパラドックスは新しいものではない。ソフトウェアエンジニアリングの財務分析、企業会計に至るまで、様々な分野で繰り返し見られる現象である。データ科学も例外ではなく、自動化を介してスキルセットの需要が促進されるだろう。

関連記事：データベースの組織になるための5つのコンポーネント

カテゴリー：人工知能・AI

タグ：機械学習　コラム　データ科学

[原文に]（翻訳：Dragonfly）