Omitir navegación

Genomics Data Lake

Genomics Collection Data Lake

El lago de datos Genomics Data Lake proporciona una gran variedad de conjuntos de datos públicos de acceso gratuito que puede integrar en sus aplicaciones y flujos de trabajo de análisis genómicos. Los conjuntos de datos incluyen secuencias genómicas, información de las variantes y metadatos sobre las muestras o los sujetos con los formatos de archivo BAM, FASTA, VCF y CSV.

El lago de datos Genomics Data Lake se hospeda en las regiones Oeste de EE. UU. 2 y Centro-oeste de EE. UU. de Azure. Por afinidad, se recomienda asignar recursos de proceso de estas dos regiones.

EL USO DE LOS CONJUNTOS DE DATOS ESTÁ SUJETO A LOS TÉRMINOS Y CONDICIONES ESTABLECIDOS POR LOS PROPIETARIOS DE DICHOS CONJUNTOS. VEA LA PÁGINA DE DETALLES DE CADA CONJUNTO DE DATOS PARA CONSULTAR LOS TÉRMINOS Y CONDICIONES APLICABLES.

Conjuntos de datosDescripción
Illumina Platinum GenomesIllumina Platinum Genomes
Human Reference GenomesHuman Reference Genomes
ClinVar AnnotationsClinVar Annotations
SnpEffSnpEff: Genomic variant annotations and functional effect prediction toolbox
gnomADgnomAD: Genome Aggregation Database
1000 Genomes1000 Genomes
OpenCravatOpenCravat: Open Custom Ranked Analysis of Variants Toolkit
ENCODEENCODE: Encyclopedia of DNA Elements
GATK Resource BundleGATK Resource bundle