Azure Data Catalog に Azure Data Lake Storage Gen1 のデータを登録する

この記事では、Azure Data Lake Storage Gen1 と Azure Data Catalog を統合し、データを Data Catalog と統合することで組織内で検出できるようにする方法について説明します。 データのカタログ化の詳細については、「 Azure Data Catalog」を参照してください。 Data Catalog を使用できるシナリオを理解するには、「 Azure Data Catalog の一般的なシナリオ」を参照してください。

前提条件

このチュートリアルを読み始める前に、次の項目を用意する必要があります。

  • Azure サブスクリプションAzure 無料試用版の取得に関するページを参照してください。

  • Data Lake Storage Gen1 の有効な Azure サブスクリプション手順を参照してください。

  • Data Lake Storage Gen1 アカウント。 「Azure portal で Azure Data Lake Storage Gen1 の使用を開始する」の手順に従ってください。 このチュートリアルでは、datacatalogstore という Data Lake Storage Gen1 アカウントを作成してください。

    アカウントを作成したら、サンプル データ セットをアップロードします。 このチュートリアルでは、 Azure Data Lake Git リポジトリAmbulanceDataフォルダーにあるすべての .csv ファイルをアップロードします。 Azure Storage Explorerなどのさまざまなクライアントを使用して、BLOB コンテナーにデータをアップロードすることができます。

  • Azure Data Catalog。 組織で Azure Data Catalog が既に作成されている必要があります。 組織ごとに使用できるカタログは 1 つのみです。

Data Catalog のソースとして Data Lake Storage Gen1 を登録する

  1. https://azure.microsoft.com/services/data-catalogにアクセスし、 [はじめに] をクリックします。

  2. Azure Data Catalog ポータルにログインし、 [データの発行] をクリックします。

    データ ソースの登録

  3. 次のページで、 [アプリケーションの起動] をクリックします。 これで、コンピューター上にアプリケーション マニフェスト ファイルがダウンロードされます。 アプリケーションを起動するには、このマニフェスト ファイルをダブルクリックします。

  4. [ようこそ] ページで、 [サインイン] をクリックし、資格情報を入力します。

    [ようこそ] 画面

  5. [データ ソースの選択] ページで、 [Azure Data Lake Store] を選択してから [次へ] をクリックします。

    データ ソースの選択

  6. 次のページで、Data Catalog に登録する Data Lake Storage Gen1 アカウントの名前を指定します。 その他のオプションは既定値のままにし、 [接続] をクリックします。

    データ ソースへの接続

  7. 次のページは以下のセグメントに分けることができます。

    a. [サーバー階層] ボックスには、Data Lake Storage Gen1 アカウントのフォルダー構造が示されます。 $Root は Data Lake Storage Gen1 アカウントのルートを表し、AmbulanceData は Data Lake Storage Gen1 アカウントのルートに作成されているフォルダーを表します。

    b. [使用可能なオブジェクト] ボックスには、AmbulanceData フォルダーにあるファイルとフォルダーがリストされます。

    c. [登録されるオブジェクト] ボックスには、Azure Data Catalog に登録するファイルとフォルダーがリストされます。

    [Microsoft Azure Data Catalog] の [ストアのアカウント] ダイアログボックスのスクリーンショット。

  8. このチュートリアルでは、ディレクトリ内のすべてのファイルを登録する必要があります。 そのため、オブジェクトの移動ボタンをクリックして、すべてのファイルを [登録するオブジェクト] ボックスに移動します。

    データは組織全体のデータ カタログに登録されるため、後でデータをすばやく見つけるために使用できるメタデータをいくつか追加することをお勧めします。 たとえば、データの所有者 (データをアップロードするユーザー) の電子メール アドレスを追加したり、データを識別するタグを追加したりすることができます。 以下の画面キャプチャには、データに追加するタグが示されています。

    [Microsoft Azure Data Catalog] の [ストアのアカウント] ダイアログボックスのスクリーンショット。呼び出されているデータにタグが追加されています。

    [登録] をクリックします。

  9. 次のキャプチャ画面は、データが Data Catalog に正常に登録されたことを示しています。

    登録の完了

  10. [ポータルの表示] をクリックして Data Catalog ポータルに戻り、ポータルから登録されたデータにアクセスできるようになったことを確認します。 データを検索する場合は、データの登録時に使用したタグを使用できます。

    カタログ内のデータの検索

  11. これで、データへの注釈やドキュメントの追加などの操作を実行できるようになりました。 詳細については、次のリンクを参照してください。

関連項目