Ignorar navegação

Genomics Data Lake

ClinVar Annotations

Genomics Clinvar

Anotações do ClinVar

Visão geral

ClinVar é um arquivo público de relatórios acessíveis gratuitamente das relações entre os fenótipos e variações humanas, com evidência de apoio. Ele facilita o acesso e a comunicação sobre as relações estabelecidas entre a variação humana e o estado de saúde observado e o histórico dessa interpretação. Ele fornece acesso a um conjunto mais amplo de interpretações clínicas que podem ser incorporadas nos aplicativos e fluxos de trabalho de genômica.

Para obter mais detalhes sobre os dados, confira o Dicionário de Dados e as Perguntas Frequentes.

Fonte de Dados

Este conjunto de dados é um espelho de ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/

Volumes de dados e frequência de atualização

Este conjunto de dados contém aproximadamente 56 GB de dados e é atualizado diariamente.

Local de armazenamento

Este conjunto de dados está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 ou no Centro-Oeste dos EUA por questão de afinidade.

Acesso a dados

Oeste dos EUA 2: https://datasetclinvar.blob.core.windows.net/dataset

Centro-Oeste dos EUA: https://datasetclinvar-secondary.blob.core.windows.net/dataset

Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D

Termos de uso

Os dados estão disponíveis sem restrições. Mais informações e detalhes sobre a citação estão disponíveis aqui.

Contact

clinvar@ncbi.nlm.nih.gov

Avisos

A MICROSOFT FORNECE O AZURE OPEN DATASETS NO ESTADO EM QUE SE ENCONTRA. A MICROSOFT NÃO OFERECE GARANTIAS OU COBERTURAS, EXPRESSAS OU IMPLÍCITAS, EM RELAÇÃO AO USO DOS CONJUNTOS DE DADOS. ATÉ O LIMITE PERMITIDO PELA LEGISLAÇÃO LOCAL, A MICROSOFT SE EXIME DE TODA A RESPONSABILIDADE POR DANOS OU PERDAS, INCLUSIVE DIRETOS, CONSEQUENTES, ESPECIAIS, INDIRETOS, ACIDENTAIS OU PUNITIVOS, RESULTANTES DO USO DOS CONJUNTOS DE DADOS.

Access

Available inWhen to use
Azure Notebooks

Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine.

Select your preferred service:

Azure Notebooks

Azure Notebooks

Package: Language: Python

Getting the ClinVar data from Azure Open Dataset

Several public genomics data has been uploaded as an Azure Open Dataset here. We create a blob service linked to this open datasets. You can find examples of data calling procedure from Azure Open Dataset for ClinVar dataset in below:

Users can call and download the following path with this notebook: https://datasetclinvar.blob.core.windows.net/dataset/ClinVarFullRelease_00-latest.xml.gz.md5

Important note: Users needs to log-in their Azure Account via Azure CLI for viewing the data with Azure ML SDK. On the other hand, they do not need do any actions for downloading the data.

Azure CLI: https://docs.microsoft.com/en-us/cli/azure/install-azure-cli?view=azure-cli-latest

Calling the data from 'ClinVar Data Set'

In [ ]:
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
In [ ]:
from azureml.core import  Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
In [ ]:
import os

REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR

with mount:
    print(os.listdir(path))
In [ ]:
import pandas as pd

# create mount context
mount.start()

# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')

# read README file
metadata = pd.read_table(metadata_filename)
metadata

Download the specific file

In [ ]:
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess

blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')     
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')

END OF NOTEBOOK