データ サイエンスとは
データ サイエンスとは、アクションにつながるインサイトを得るために重要なデータと情報を抽出することを目的として、複数の学問分野を組み合わせてデータを科学的に研究することです。
データ科学者とは
データ科学者は、ビッグ データから有益な情報を抽出する研究プロジェクトを主導しており、テクノロジ、数学、ビジネス、およびコミュニケーションのスキルを有しています。組織はこの情報を使用して、より良い意思決定を行い、複雑な問題を解決し、業務運営を向上させます。大規模なデータセットの中に隠れている、アクションにつながるインサイトを明らかにすることで、データ科学者は自社の目標達成能力を大幅に向上させることができます。このような理由から、データ科学者の需要は高く、ビジネスの世界における "ロック スター" と言われるほどです。
データ サイエンスの定義
データ サイエンスとは、知識を得るためにデータを科学的に研究することです。この分野では複数の学問領域を組み合わせて大規模なデータセットから知識を抽出しますが、その目的は情報に基づいた意思決定と予測を行うことです。データ科学者、データ アナリスト、データ アーキテクト、データ エンジニア、スタティスティシャン (統計学者)、データベース管理者、ビジネス アナリストはいずれも、データ サイエンス分野の職業です。
データ サイエンスの必要性は急速に高まっています。データの量が指数関数的に増加し、企業は収益とイノベーションを促進するために分析に大きく依存しているからです。たとえば、ビジネスでのやり取りのデジタル化が進み、より多くのデータが作成されると、そこから新しい機会が生まれます。つまり、いかにエクスペリエンスをパーソナライズし、サービスと顧客満足度を向上させ、新製品の開発と既存製品の機能強化を行い、売上を増やすかについてのインサイトを引き出す機会です。さらに、ビジネスの世界でもそれ以外でも、データ サイエンスは世界のきわめて困難な課題の解決に役立つ可能性があります。
データ科学者は何を行うか
データ科学者はビッグ データを収集、分析、解釈してパターンとインサイトを見つけ出し、予測を行い、実践的な計画を作成します。ビッグ データは、以前のデータ管理方法で扱うことができる範囲を超えた多様性、量、速さを持つデータセットと定義することができます。データ科学者は、多数の種類のビッグ データを扱いますが、これには次のものが含まれます。
- 構造化データ。一般的に行と列として組織化され、この中には単語や数字 (名前、日付、クレジット カード情報など) が含まれます。たとえば、電力業のデータ科学者はコスト縮小と、機器の故障原因となりうるパターンの検出を目的として、発電と電力使用のデータの表を分析します。
- 非構造化データ。組織化されていないデータであり、これにはドキュメント ファイル、ソーシャル メディアとモバイル データ、Web サイト コンテンツ、およびビデオの中のテキストが含まれます。たとえば、小売業のデータ科学者は非構造化データであるコール センターのメモ、メール、アンケート、ソーシャル メディアの投稿を分析することで、カスタマー エクスペリエンス向上に関する質問への答えを見つけます。
加えて、データセットの特性を定量的 (構造化された数値データ) または定性的またはカテゴリカル データ (数値で表されるのではなく、カテゴリに基づいてグループ化できる) として表現できます。データ科学者は、自分が扱うデータの種類を知ることが重要です。データの種類は、データ科学者が実行する分析の種類と、データの視覚化に使用できるグラフの種類に直接影響するからです。
これらのすべての種類のデータから知識を得るために、データ科学者は次の領域のスキルを活用します。
- コンピューター プログラミング。データ科学者は自社のデータベースからデータを取り出すために Julia、R、Python などの言語を使用してクエリを書きます。Python は多くのデータ科学者に選ばれている言語ですが、その理由はコーディング経験の有無にかかわらず学習と使用が簡単であることと、データ分析のためのデータ サイエンス モジュールが事前構築されていることです。
- 数学、統計、確率。データ科学者は、これらのスキルを活用してデータを分析し、仮説を検定し、機械学習モデルを構築します。機械学習モデルとは実際にはファイルであり、データ科学者は特定の種類のパターンを認識できるようにこのファイルをトレーニングします。データ科学者は、トレーニング済みの機械学習モデルを使用してデータの中の関係を発見し、データに関する予測を行い、問題の解決策を見つけます。モデルを一から構築してトレーニングする代わりに、データ科学者は自動化された機械学習を利用して、実稼働にそのまま使える機械学習モデルにアクセスすることもできます。
- ドメイン知識。ビジネス成果を推進する、関連性の高い有意義なインサイトをデータ科学者がデータから引き出すには、ドメイン知識も必要です。つまり、自分が働いている業界と会社を理解することが必要です。データ科学者が業種固有の問題を解決するためにドメイン知識をどのように適用するかについて、次に例を示します。
データ サイエンス プロジェクトの種類
業種 | データ サイエンス プロジェクトの種類 |
---|---|
ビジネス | 新製品開発と製品の機能強化 サプライ チェーンと在庫の管理 カスタマー サービスの向上 eコマース顧客への商品レコメンデーション |
エンターテイメント | メディア コンテンツの使用パターンの理解 ターゲット市場データに基づくコンテンツ開発 コンテンツ パフォーマンス測定 ユーザーの好みに基づいてカスタマイズされたレコメンデーション |
金融と銀行 | 詐欺やその他のセキュリティ侵害の防止 投資ポートフォリオのリスク管理 顧客の質問に答えるバーチャル アシスタント |
政府 | 政策の決定 有権者満足度の監視 不正行為の検出 (障碍者社会保障の申請など) |
医療 | エビデンスに基づく薬物療法と新医薬品のコスト効果 疾病流行のリアルタイム追跡 より良い患者ケアのためのウェアラブル トラッカー |
電気通信 | ユーザーの好みと場所に基づくサービス向上 通話中断などのサービスの問題の最小化 |
公益事業 | 電気、ガス、水道などの使用率と顧客満足度向上を目的とするスマート メーター分析 資産と従業員の管理の向上 |
"データ科学者は何を行うのか?" という質問に関して、もう 1 つ重要なスキルがあります。分析の結果を上司や経営幹部、およびその他の利害関係者に効果的に伝えることは、その仕事の最も重要な部分の 1 つです。データ科学者は自分が発見したことを、専門家以外の人も容易に理解できるようにする必要があります。そのインサイトを使用して情報に基づく意思決定をできるようにするためです。したがって、データ科学者には次の領域のスキルも必要です。
- コミュニケーション、パブリック スピーキング、データ視覚化。優れたデータ科学者は、言葉によるコミュニケーションのスキルも高く、これにはストーリーテリングとパブリック スピーキングも含まれます。データ サイエンスという分野では「百聞は一見にしかず」が当てはまります。データ サイエンスによる発見をグラフやチャートを使用して提示すると、それを見た人がデータを 5 秒以内という速さで理解できます。このような理由から、優秀なデータ科学者はデータ視覚化を分析と同じように重視しています。
データ サイエンスのプロセス
データ科学者がプロジェクト完了までに取るプロセスはどれも似ており、具体的には次のようになります。
1. ビジネスの問題を定義する
データ科学者は利害関係者と協力して、解決したい問題や回答を見つけたい疑問を明確に定義し、併せてプロジェクトの目標とソリューションの要件を定義します。
2. 分析アプローチを定義する
ビジネスの問題に基づいて、データ科学者は次のどの分析アプローチに従うかを決定します。
- 記述的: 現在の状態について、より多くの情報を集めます。
- 診断的: 何が起きているか、およびその理由を理解します。
- 予測的: 将来何が起きるかを予想します。
- 処方的: 問題を解決する方法を理解します。
3. データを取得する
データ科学者は、目指す結果を達成するのに必要なデータを特定して取得します。これは、データベースに対してクエリを実行する、Web サイトから情報を抽出する (Web スクレイピング)、データをファイルから取得するといった方法で行われます。そのデータは社内に存在することもあれば、データの購入が必要になることもあります。場合によっては、プロジェクトを成功に向けて進めるために新しいデータの収集が必要になります。
4. データをクリーニングする (スクラブとも呼ばれます)
一般的には、このステップに最も時間がかかります。モデリング用のデータセットを作成するために、データ科学者はすべてのデータを同じ形式に変換し、データを組織化し、不要なものを除去し、欠落しているデータがある場合は置き換えます。
5. データを探索する
データがクリーンな状態になったら、データ科学者はデータを探索し、統計分析手法を適用して、データ特徴間の関係と統計的関係、および予測される値 (ラベルと呼ばれます) を明らかにします。予測されたラベルは、定量的な値の可能性があります。たとえば何かの将来の金銭的価値や、分単位でのフライト遅延時間です。
探索と準備では一般的に、かなりの対話型データ分析と視覚化が行われます。通常は、このタスク専用に設計された対話型のツールと環境の中で Python や R などの言語を使用して行われます。データの探索に使用されるスクリプトは一般的に、Jupyter Notebook などの特別な環境の中でホストされます。このようなツールを使用すると、データ科学者はデータの探索をプログラミングして実行しながら、見つかったインサイトを文書化して共有することができます。
6. データをモデル化する
データ科学者は、処方的または記述的モデルを構築してトレーニングしてからテストし、評価します。そのモデルによって確実に質問への回答が得られる、またはビジネスの問題に対処できるようにするためです。簡単に言うと、モデルとは入力を受け取って出力を生成するコードです。機械学習モデルを作成するには、アルゴリズムを選択し、そのアルゴリズムにデータを渡し、ハイパーパラメーターをチューニングします。ハイパーパラメーターとは調整可能なパラメーターであり、データ科学者はこれを使用してモデルのトレーニング プロセスを制御します。たとえば、ニューラル ネットワークでは、データ科学者が隠れ層の数と各層内のノードの数を決定します。ハイパーパラメーター チューニング (ハイパーパラメーター最適化とも呼ばれます) は、最高のパフォーマンスを得られるハイパーパラメーターの構成を見つけるプロセスです。
よくある質問の 1 つが "どの機械学習アルゴリズムを使用すべきか?" です。機械学習アルゴリズムによって、データセットがモデルに変換されます。データ科学者がどのアルゴリズムを選択するかは、主にデータ サイエンスのシナリオにおける次の 2 つの事項によって決まります。
- データ科学者は過去のデータから学習することによって、どのようなビジネスの質問への回答を得ようとしているか?
- データ サイエンス シナリオの要件は何か? (正確性、トレーニング時間、線形性、パラメーターの数、特徴の数など)
これらの質問への回答に役立つように、Azure Machine Learning では包括的なアルゴリズムのポートフォリオが用意されており、たとえばマルチクラス デシジョン フォレスト、レコメンデーション システム、ニューラル ネットワーク回帰、マルチクラス ニューラル ネットワーク、K-Means クラスタリングがあります。アルゴリズムはそれぞれ、異なる種類の機械学習の問題に対処するように設計されています。さらに、Azure Machine Learning アルゴリズム チート シートは、ビジネスの質問に回答するための適切なアルゴリズムをデータ科学者が選択するのに役立ちます。
7. モデルをデプロイする
データ科学者は、完成したモデルをドキュメントと共に納入し、新しいデータセットをテスト後に本稼働にデプロイします。こうして、ビジネスにおけるアクティブな役割を果たすことができます。デプロイされたモデルからの予測を、ビジネス上の意思決定に使用できます。
8. 結果を視覚化して伝える
視覚化ツール (Microsoft Power BI、Tableau、Apache Superset、Metabase など) を使用すると、データ科学者がデータを探索して、発見したことを美しい視覚化として示すことが簡単になり、それを見た人が専門家ではなくてもすぐに理解できるようになります。
データ科学者は、Zeppelin Notebook のような Web ベースのデータ サイエンス ノートブックを使用することもでき、プロセスのかなりの部分でデータ インジェスト、発見、分析、視覚化、コラボレーションに利用できます。
データ サイエンスの手法
データ科学者は統計学的手法 (仮説検定、因子分析、回帰分析、クラスタリングなど) を使用して、統計的に健全なインサイトを見つけ出します。
データ サイエンスのドキュメント
データ サイエンスのドキュメントはプロジェクトと業種によって異なりますが、一般的にはデータがどこから来たものであるか、およびそれがどのように変更されたかを示すドキュメントが含まれています。これは、データ チームの他のメンバーがそのデータを将来効果的に使用するのに役立ちます。たとえば、ドキュメントを参考にしてビジネス アナリストが視覚化ツールを使用してデータセットを解釈します。
データ サイエンスのドキュメントには、次のような種類があります。
- プロジェクト計画: プロジェクトのビジネス目標、評価メトリック、リソース、タイムライン、予算を定義します。
- データ サイエンスのユーザー ストーリー: データ サイエンス プロジェクトのアイデア生成が目的です。データ科学者は、このストーリーを利害関係者の視点から書き、利害関係者が何を達成したいか、および利害関係者がそのプロジェクトをなぜ要求しているかを記述します。
- データ サイエンス モデルのドキュメント: データセット、実験のデザイン、アルゴリズムを文書化します。
- サポート システムのドキュメント: ユーザー ガイド、システム メンテナンス用のインフラストラクチャ ドキュメント、コード ドキュメントなどがあります。
データ科学者になる方法
データ科学者になるための道は多数あります。一般的には、情報技術またはコンピューター サイエンスの学位が要件に含まれます。しかし、IT プロフェッショナルの中には、ブートキャンプやオンライン コースを受講してデータ サイエンスを学ぶ人もいれば、データ サイエンスの修士号または認定資格を取得する人もいます。
データ科学者になる方法を学ぶには、次の Microsoft トレーニング リソースを活用してください。
- 短時間で基本を学ぶ。Packt 発行の無料電子書籍『Principles of Data Science, A beginner's guide to statistical techniques and theory』をお読みください。統計分析と機械学習の基礎、主な用語、およびデータ サイエンスのプロセスについて学ぶことができます。
- Microsoft のクラウド プラットフォームである Azure を使用して機械学習のスキルを身に付ける。データ科学者のための Azure の機械学習関連リソースをご利用ください。無料のトレーニング ビデオ、ソリューション アーキテクチャの例、お客様の事例などがあります。
- Azure での機械学習の専門知識を無料で、わずか 4 週間で獲得する。1 日 1 時間の学習で、複雑な問題のための革新的なソリューションを作る方法を学びます。最新のツールとフレームワークを使用して機械学習プロジェクトをスケーリングするための基本をしっかりと学習します。マイペースで進められるゼロから機械学習のヒーローを目指すラーニング パスを利用すると、Azure Data Scientist Associate 認定試験の準備も整います。
- 包括的なトレーニングを受ける。Microsoft データ科学者ラーニング パスの自習型と講師主導型のさまざまなコースから選んで受講することができます。機械学習モデルを作成する方法、ビジュアル ツールを使用する方法、データ サイエンスのワークロードをクラウドで実行する方法、自然言語処理をサポートするアプリケーションを構築する方法を学習します。
データ科学者の認定資格
認定資格は、データ サイエンスの資格を証明して仕事に就くための優れた方法です。Microsoft 認定プロフェッショナルは需要が高く、Azure データ科学者の求人も実際にあります。求人側は次のデータ科学者認定資格を最も求めています。
- Microsoft Certified: Azure Data Scientist Associate。データ サイエンスと機械学習の知識を応用して、機械学習ワークロードを Azure 上で Azure Machine Learning Service を使用して実装し、実行します。
- Microsoft Certified: Customer Data Platform Specialty。顧客エクスペリエンスと顧客リテンションの向上に役立てるために、顧客プロファイルについてのインサイト提供とエンゲージメント アクティビティ追跡のためのソリューションを実装します。
データ アナリストとデータ科学者の違い
データ科学者と同様に、データ アナリストは大規模なデータセットからデータにおける傾向を見つけ出します。しかし、データ科学者は一般的に技術性の高いチーム メンバーであり、より多くの専門知識と責任を持ちます。たとえばデータ サイエンス プロジェクトを開始して主導する、機械学習モデルを構築してトレーニングする、調査結果を経営幹部に対して、および会議でプレゼンするといったことです。データ科学者がこれらのタスクすべてを実行することもあれば、アルゴリズムのトレーニングやモデルの構築など、特定のタスクのみを専門とすることもあります。データ科学者の多くはデータ アナリストとしてキャリアをスタートしており、データ アナリストがデータ科学者の職に昇格するまでほんの数年ということもあります。
データ アナリストとデータ科学者の比較
データ アナリスト | データ科学者 | |
---|---|---|
役割 | 統計学的データ分析 | 複雑なビジネス ニーズに対するソリューションをビッグ データを使用して開発する |
一般的なツール | Microsoft Excel、SQL、Tableau、Power BI | SQL、Python、R、Julia、Hadoop、Apache Spark、SAS、Tableau、機械学習、Apache Superset、Power BI、データ サイエンス ノートブック |
分析するデータの種類 | 構造化データ | 構造化データと非構造化データ |
職務 |
|
|
データ サイエンスについてよく寄せられる質問
-
データ科学者の責務は、ビッグ データをマイニングして有益な情報を抽出することです。組織はこの情報を意思決定、問題解決、オペレーション最適化の向上のために使用します。
-
データ サイエンスとは、知識を得るためにデータを研究することです。さまざまな科学分野を組み合わせて、大規模なデータセットから知識を抽出し、情報に基づく意思決定と予測に役立てます。
-
データ科学者は研究プロジェクトを主導し、その中で有益な情報とアクションにつながるインサイトをビッグ データから抽出します。これに含まれる作業としては、解決すべき問題を定義する、適切なデータをデータベースから取り出すためのクエリを書く、データをクリーニングして整理する、機械学習モデルを構築してトレーニングする、データ視覚化手法を使用して調査結果を効果的に利害関係者に伝えるなどがあります。
-
データ サイエンスのドキュメントはプロジェクトと業種ごとに異なりますが、一般的にはプロジェクト計画、ユーザー ストーリー、モデル ドキュメント、サポート システム ドキュメント (ユーザー ガイドなど) が含まれます。
-
IT プロフェッショナルの中には、データ サイエンスを学ぶためにデータ サイエンスの修士号または認定資格を取得する人もいれば、ブートキャンプやオンライン コースを受講する人もいます。認定資格は、データ サイエンスの資格を証明して仕事に就くための優れた方法です。Microsoft 認定プロフェッショナルは需要が高く、Azure データ科学者の求人も実際にあります。
-
データ アナリストとデータ科学者のどちらも、大規模なデータセットからデータにおける傾向を見つけ出します。ただし、研究プロジェクトの開始に関しては、通常はデータ科学者の方がより多くの技術的専門知識と責任を持っています。たとえば、データ アナリストに要求される仕事が統計学的データ分析であるのに対し、データ科学者に要求される仕事はビッグ データをマイニングすることによって複雑なビジネス ニーズに対処するソリューションの開発ということがあります。
-
データ サイエンス プロジェクトは、業種と組織のニーズによって異なります。たとえば、ビジネスの場面では、データ科学者が主導するプロジェクトでカスタマー サービス エクスペリエンスを向上させる方法を研究します。これに必要なデータには、Web サイトやトランザクション メトリックなどの構造化データだけでなく、カスタマー サービス チームからのユーザー レビューやメモなどの非構造化データも含まれます。このように多種多様なデータ ソースすべてを詳細に分析して得られたインサイトを参考にして、現在の手順に対する変更を提案することができます。
-
ビジネスにおいて、データ サイエンスの最も一般的な目標は、組織をもっと良い方法で機能させることです。豊富な組織データをまとめて分析することで得られるインサイトは、既存の課題を解決することや、事業運営の新しい方法のアイデアを生み出すことに役立ちます。
-
はい。ただし、データ科学者にはプログラマーと同等のコーディング能力が必要とは限りません。データ科学者は Julia、R、Python などのプログラミング言語を使用してクエリを書くことができます。Python もよく利用されていますが、その理由は比較的簡単に学習して使用できるからです。
-
データ サイエンスに関する役割の要件は一様ではありませんが、一般的には次のうち少なくとも 1 つが含まれます。
- 情報技術またはコンピューター サイエンスの学位。
- データ サイエンスのブートキャンプまたはオンライン コースの修了。
- データ サイエンスの修士号または認定資格。
Microsoft では、データ科学者になるためのさまざまなトレーニング リソースとラーニング パスをご用意しています。
Azure 無料アカウントで始めましょう
人気の Azure サービスを 12 か月間無料で利用でき、55 を超えるサービスが常に無料です。最初の 30 日間に使用できる USD$200 のクレジットも含まれています。
Azure AI 営業担当者へのお問い合わせ
Azure AI を始めるにあたってアドバイスを受けることができます。質問することも、価格とベスト プラクティスについて学ぶことも、お客様のニーズを満たすソリューション設計の支援を受けることもできます。