Azure Open Datasets

[アーティクル]
06/01/2023

一般公開されているデータセットを使用して、機械学習モデルの精度を高めてください。機械学習プロジェクトで使用する準備ができているキュレーションデータセットを使用することにより、データの発見と準備のための時間を節約できます。

輸送

データセット	説明
TartanAir: AirSim のシミュレーションデータセット	Simultaneous Localization and Mapping (SLAM) を解決するために生成された AirSim の自動車両データ。
NYC タクシー & リムジン協会 - イエロータクシー運行記録	イエロータクシー運行記録には、乗車と降車の日時、乗車と降車の場所、移動距離、料金明細、料金の種類、支払いの種類、運転手が報告した乗車人数が含まれています。
NYC タクシー & リムジン協会 - グリーンタクシー運行記録	グリーンタクシー運行記録には、乗車と降車の日時、乗車と降車の場所、移動距離、料金明細、料金の種類、支払いの種類、運転手が報告した乗車人数が含まれています。
NYC タクシー & リムジン協会 - リムジン車両 (FHV) 運行記録	リムジン車両の乗車記録には、配車側のベースライセンス番号、乗車の日時、タクシーゾーンの場所 ID が含まれています。

健康とゲノム

データセット	説明
COVID-19 データレイク	COVID-19 Data Lake コレクションは、さまざまなソースからの COVID-19 関連のデータセットのコレクションで、検査と患者のアウトカムのデータ追跡、ソーシャルディスタンスポリシー、病床数、流動性などをカバーしています。
COVID-19 Open Research Dataset	機械判読用に最適化され、グローバルな研究コミュニティで使用できる、COVID-19 およびコロナウイルス関連の学術論文の全文およびメタデータデータセット。
Genomics データレイク	Genomics データレイクは、無料でアクセスでき、お使いのゲノミクス解析のワークフローやアプリケーションに統合できるさまざまな公開データセットを提供しています。データセットには、ゲノム配列、変異情報、被験者/サンプルのメタデータが BAM、FASTA、VCF、CSV ファイル形式で含まれています。

雇用と経済

データセット	説明
US Labor Force Statistics (米国労働力統計)	米国の労働力統計は、労働力統計、労働参加率、および年齢、性別、人種、民族別の文民人口を提供します。米国。
US National Employment Hours and Earnings (全米労働時間および賃金)	Current Employment Statistics (CES) プログラムでは、米国の給与支払い名簿を基に、非農業部門雇用者数、労働時間、賃金の詳細な業界推定値を生成します。
US State Employment Hours and Earnings (米国州労働時間および賃金)	Current Employment Statistics (CES) プログラムでは、米国の給与支払い名簿を基に、非農業部門雇用者数、労働時間、賃金の詳細な業界推定値を生成します。
US Local Area Unemployment Statistics (米国地域別失業統計)	米国 Local Area Unemployment Statistics データセットは、米国の国勢調査地域/区分、州、郡、大都市圏、および多数の都市の雇用、失業、労働力に関する月次および年次データを提供します。
米国消費者物価指数	消費者物価指数 (CPI) は、都市の消費者が商品やサービスを実際に購入する際に支払う価格の経時的な平均的変動を測定するものです。
米国生産者物価指数 - 業種	生産者物価指数 (PPI) は、国内生産者がその生産物に対して得た販売価格の経時的な平均的変動を測定するものです。
米国生産者物価指数 - 商品	生産者物価指数 (PPI) は、国内生産者がその商品に対して得た販売価格の経時的な平均的変動を測定するものです。

人口と安全性

データセット	説明
US Population by County (米国の郡別人口)	2000 年および 2010 年に実施された 10 年ごとの国勢調査をソースとする、米国の郡ごとの性別および人種別の米国人口。このデータセットは、米国国勢調査局がソースです。
US Population by ZIP Code (米国の郵便番号別人口)	2010 年に実施された 10 年ごとの国勢調査をソースとする、米国郵便番号ごとの性別および人種別の米国人口。このデータセットは、米国国勢調査局がソースです。
Boston Safety Data	ボストン市に報告された 311 コールの読み取りデータ。このデータセットは Parquet 形式で保存され、毎日更新されます。
Chicago Safety Data	シカゴ市に報告された 311 コールの読み取りデータ。このデータセットは Parquet 形式で保存され、毎日更新されます。
New York City Safety Data	このデータセットには、2010 年から現在までのすべてのニューヨーク市の 311 サービス要求が含まれています。 Parquet 形式で保存され、毎日更新されます。
San Francisco Safety Data	サンフランシスコの消防局への出動要請と 311 ケース。このデータセットには、2015 年から現在までに蓄積された過去の記録が含まれます。
Seattle Safety Data	シアトル消防局 (911) からの派遣。このデータセットは毎日更新され、2010 年から現在までに蓄積された過去の記録が含まれています。

補助的で一般的なデータセット

データセット	説明
糖尿病	Diabetes データセットには、442 のサンプルと 10 個の機能が含まれ、機械学習アルゴリズムの使用をすぐに試すことができます。
OJ Sales Simulated Data	このデータセットは Dominick's OJ データセットが元となっており、Azure Machine Learning で数千のモデルを同時に簡単にトレーニングできるデータセットの提供を目的とした、その他のシミュレートされたデータが含まれています。
手書き数字の MNIST データベース	手書き数字の MNIST データベースには、60,000 件の例が含まれたトレーニングセットと、10,000 件の例が含まれたテストセットがあります。数字は、サイズが正規化され、固定サイズの画像に中心が揃えられています。
Microsoft News Recommendation Dataset	Microsoft News Dataset (MIND) は、ニュース推奨研究のための大規模なデータセットです。ニュース推奨のためのベンチマークデータセットの役割を果たし、ニュース推奨と推奨システムでの研究を支援しています。
祝日	PyPI holidays パッケージと Wikipedia をソースとする世界の祝日データ。1970 年から 2099 年まで、38 の国または地域を対象としています。
Russian Open Speech To Text (ロシア語の公開音声テキスト変換)	Russain Open STT は、ロシア語の大規模なオープン音声テキスト変換データセットです。