Melhorar a precisão dos seus modelos de machine learning com conjuntos de dados disponíveis publicamente. Economize tempo na descoberta e preparação de dados usando conjuntos de dados selecionados que estão prontos para uso em projetos de aprendizado de máquina.
Os registros de viagem de táxi amarelo incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
Os registros de viagem de táxi verde incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
A coleção do Data Lake relacionada com a COVID-19 é uma coleção de conjuntos de dados relacionados com a COVID-19 provenientes de diversas origens, que abrangem dados de teste e rastreio de resultados de pacientes, política de distanciamento social, capacidade dos hospitais, mobilidade, etc.
Um conjunto de dados de texto completo e metadados de artigos académicos sobre a COVID-19 e relacionados com o coronavírus otimizados para legibilidade automática e disponibilizados para utilização pela comunidade de investigação global.
O Genomics Data Lake fornece vários conjuntos de dados públicos que você pode acessar gratuitamente e integrar em seus fluxos de trabalho e aplicativos de análise genômica. Os conjuntos de dados incluem sequenciação de genomas, informações de variantes e metadados de sujeitos de experiências/exemplo nos formatos de ficheiro BAM, FASTA, VCF e CSV.
O US Labor Force Statistics fornece estatísticas de mão-de-obra, taxas de participação de mão-de-obra e de população civil não institucional por idade, género, raça e grupos étnicos. nos Estados Unidos.
O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
Os conjuntos de dados do programa US Local Area Unemployment Statistics fornecem dados mensais e anuais relativos a emprego, desemprego e mão-de-obra para regiões e divisões do Census, estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos.
O Índice de Preços no Consumidor (CPI) é uma medida da alteração média ao longo do tempo nos preços que os consumidores urbanos pagam para um cabaz de compras de bens e serviços de consumo.
O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos.
O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos.
A população dos EUA por género e etnia de cada condado dos EUA extraída do Census de decénio de 2000 e 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
A população dos EUA por género e etnia de cada código postal dos EUA extraído do Census de decénio de 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
Este conjunto de dados contém todos os pedidos de emergência de 311 de Nova Iorque desde 2010 até hoje. ™É armazenado em formato Parquet e atualizado diariamente.
Chamadas para os Bombeiros para emergências e incidentes de 311 em São Francisco. Este conjunto de dados contém registos históricos acumulados desde 2015 até ao presente.
Despachos do 112 dos Bombeiros de Seattle. Este conjunto de dados é atualizado diariamente e contém registos históricos acumulados desde 2010 até ao presente
O conjunto de dados Diabetes tem 442 amostras com 10 funcionalidades, o que faz com que seja ideal para começar a trabalhar com algoritmos de aprendizagem automática.
Esse conjunto de dados é derivado do conjunto de dados OJ de Dominick e inclui dados simulados extras com o objetivo de fornecer um conjunto de dados que facilite o treinamento simultâneo de milhares de modelos no Azure Machine Learning.
A base de dados MNIST de dígitos manuscritos tem um conjunto de preparação com 60 000 exemplos e um conjunto de testes com 10 000 exemplos. O tamanho dos dígitos foi normalizado e centrado numa imagem de tamanho fixo.
O Microsoft News Dataset (MIND) é um conjunto de dados em grande escala para pesquisa de recomendações de notícias. Ele serve como um conjunto de dados de referência para recomendação de notícias e facilita a pesquisa em sistemas de recomendação e recomendação de notícias.
Dados de feriados nacionais de todo o mundo obtidos com base nos pacotes de férias PyPI e na Wikipedia, abrangendo 38 países ou regiões de 1970 a 2099.