Anotações do ClinVar
Visão geral
ClinVar é um arquivo público de relatórios acessíveis gratuitamente das relações entre os fenótipos e variações humanas, com evidência de apoio. Ele facilita o acesso e a comunicação sobre as relações estabelecidas entre a variação humana e o estado de saúde observado e o histórico dessa interpretação. Ele fornece acesso a um conjunto mais amplo de interpretações clínicas que podem ser incorporadas nos aplicativos e fluxos de trabalho de genômica.
Para obter mais detalhes sobre os dados, confira o Dicionário de Dados e as Perguntas Frequentes.
Fonte de Dados
Este conjunto de dados é um espelho de ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/xml/
Volumes de dados e frequência de atualização
Este conjunto de dados contém aproximadamente 56 GB de dados e é atualizado diariamente.
Local de armazenamento
Este conjunto de dados está armazenado nas regiões do Azure Oeste dos EUA 2 e Centro-Oeste dos EUA. É recomendável alocar recursos de computação no Oeste dos EUA 2 ou no Centro-Oeste dos EUA por questão de afinidade.
Acesso a dados
Oeste dos EUA 2: https://datasetclinvar.blob.core.windows.net/dataset
Centro-Oeste dos EUA: https://datasetclinvar-secondary.blob.core.windows.net/dataset
Token SAS: sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D
Termos de uso
Os dados estão disponíveis sem restrições. Mais informações e detalhes sobre a citação estão disponíveis aqui.
Contact
clinvar@ncbi.nlm.nih.gov
Avisos
A MICROSOFT FORNECE O AZURE OPEN DATASETS NO ESTADO EM QUE SE ENCONTRA. A MICROSOFT NÃO OFERECE GARANTIAS OU COBERTURAS, EXPRESSAS OU IMPLÍCITAS, EM RELAÇÃO AO USO DOS CONJUNTOS DE DADOS. ATÉ O LIMITE PERMITIDO PELA LEGISLAÇÃO LOCAL, A MICROSOFT SE EXIME DE TODA A RESPONSABILIDADE POR DANOS OU PERDAS, INCLUSIVE DIRETOS, CONSEQUENTES, ESPECIAIS, INDIRETOS, ACIDENTAIS OU PUNITIVOS, RESULTANTES DO USO DOS CONJUNTOS DE DADOS.
Access
Available in | When to use |
---|---|
Azure Notebooks | Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine. |
Select your preferred service:
Azure Notebooks
import azureml.core
print("Azure ML SDK Version: ", azureml.core.VERSION)
from azureml.core import Dataset
reference_dataset = Dataset.File.from_files('https://datasetclinvar.blob.core.windows.net/dataset')
mount = reference_dataset.mount()
import os
REF_DIR = '/dataset'
path = mount.mount_point + REF_DIR
with mount:
print(os.listdir(path))
import pandas as pd
# create mount context
mount.start()
# specify path to README file
REF_DIR = '/dataset'
metadata_filename = '{}/{}/{}'.format(mount.mount_point, REF_DIR, '_README')
# read README file
metadata = pd.read_table(metadata_filename)
metadata
import os
import uuid
import sys
from azure.storage.blob import BlockBlobService, PublicAccess
blob_service_client = BlockBlobService(account_name='datasetclinvar', sas_token='sv=2019-02-02&se=2050-01-01T08%3A00%3A00Z&si=prod&sr=c&sig=qFPPwPba1RmBvaffkzkLuzabYU5dZstSTgMwxuLNME8%3D')
blob_service_client.get_blob_to_path('dataset', 'ClinVarFullRelease_00-latest.xml.gz.md5', './ClinVarFullRelease_00-latest.xml.gz.md5')