Data Lake

Um data lake sem limites para uma ação inteligente

O Azure Data Lake inclui todas as capacidades necessárias para facilitar aos programadores, cientistas de dados e analistas o armazenamento de dados de qualquer tamanho, dimensão e velocidade, bem como para levar a cabo todos os tipos de processamento e análises em várias plataformas e linguagens. Este sistema remove as complexidades inerentes à ingestão e armazenamento de todos os seus dados, ao mesmo tempo que otimiza a realização de análises de lote, transmissão em fluxo e interativas. O Azure Data Lake trabalha com investimentos de TI existentes de identidade, gestão e segurança para assegurar uma gestão e administração simplificadas dos dados. Além disso, também se integra facilmente com arquivos operacionais e armazéns de dados para que possa expandir as aplicações de dados atuais. Baseámo-nos na nossa experiência adquirida através do trabalho com clientes empresariais e da execução de alguns dos processos e análises de maior escala a nível mundial dos negócios da Microsoft como, por exemplo, o Office 365, Xbox Live, Azure, Windows, Bing e Skype. O Azure Data Lake dá resposta a muitos dos desafios relacionados com produtividade e escalabilidade que lhe impedem de maximizar o valor dos seus recursos de dados com um serviço que está pronto para satisfazer as suas necessidades empresariais presentes e futuras.

Veja este breve vídeo para obter uma descrição geral

Data Lake Analytics — um serviço de tarefa de análise sem limites, para ação inteligente

O primeiro serviço de análise na cloud onde pode facilmente desenvolver e executar programas de transformação e processamento de dados paralelos em massa em U-SQL, R, Python e .Net em petabytes de dados. Sem infraestrutura para gerir, processe os dados a pedido, dimensione imediatamente e pague apenas por tarefa. Obter mais informações

HDInsight— serviço Apache Spark e Hadoop® na cloud para empresas

O HDInsight é a única oferta Hadoop totalmente gerida na Cloud, que fornece clusters open source otimizados para Spark, Hive, Map Reduce, HBase, Storm, Kafka e R-Server, apoiada por um SLA a 99,9%. Cada uma destas tecnologias de Macrodados, bem como as aplicações ISV, são facilmente implementáveis como clusters geridos, com segurança e monitorização ao nível empresarial. Obter mais informações

Arquivo do Data Lake — um data lake sem limites que capacita a análise de macrodados

O primeiro data lake na cloud para empresas que é seguro, dimensionável em massa e criado para o padrão HDFS aberto. Sem limites de tamanho dos dados e com a capacidade de executar análise paralela em massa, pode agora desbloquear valor de todos os dados não estruturados, semi-estruturados e estruturados. Obter mais informações

Desenvolver, depurar e otimizar programas de macrodados com facilidade

Encontrar as ferramentas certas para conceber e otimizar as suas consultas de macrodados pode ser difícil. O Data Lake facilita este processo através de uma integração profunda com o Visual Studio, Eclipse e IntelliJ, para que, através do uso de ferramentas familiares, possa executar, depurar e otimizar o seu código. As visualizações das suas tarefas de U-SQL, Apache Spark, Apache Hive e Apache Storm permitem-lhe ver como o seu código é executado em escala, de forma a que possa identificar estrangulamentos de desempenho e otimizar custos, tornando mais fácil a otimização das suas consultas. O nosso ambiente de execução analisa ativamente os programas à medida que são executados e oferece recomendações para melhorar o desempenho e reduzir custos. Os engenheiros de dados, os administradores de bases de dados e os arquitetos de dados podem utilizar as capacidades existentes, como o SQL, Apache Hadoop, Apache Spark, R, Python, Java e .NET,para assegurar a produtividade desde o primeiro dia.

Integração perfeita com os seus investimentos de TI existentes

Um dos maiores desafios dos macrodados é a integração com investimentos de TI existentes. O Data Lake é uma parte fundamental do Cortana Intelligence, pelo que trabalha com o Azure SQL Data Warehouse, o Power BI e o Data Factory para formar uma plataforma completa de macrodados na cloud e de análise avançada que o ajuda em tudo, desde a preparação de dados até à realização de análises interativas em conjuntos de dados de grande dimensão. O Data Lake Analytics dá-lhe o poder de agir sobre todos os seus dados com virtualização de dados otimizada das origens relacionais, como o Azure SQL Server em máquinas virtuais, a Base de Dados SQL do Azure e o SQL Data Warehouse. As consultas são otimizadas automaticamente ao aproximar o processamento dos dados de origem, sem movimento de dados, maximizando desse modo o desempenho e minimizando a latência. Finalmente, como o Data Lake se encontra no Azure, pode ligar-se a quaisquer dados gerados por aplicações ou ingeridos por dispositivos em cenários de Internet das Coisas (IoT).

Armazenar e analisar ficheiros com tamanho de petabyte e triliões de objetos

O Data Lake foi concebido de raiz tendo em vista o dimensionamento e o desempenho na cloud. Com o Arquivo do Azure Data Lake, a sua organização pode analisar todos os dados num único local, sem restrições artificiais. O Arquivo do Data Lake pode armazenar triliões de ficheiros, em que um único ficheiro pode ter um tamanho superior a um petabyte, o que é 200 vezes maior do que outros arquivos da cloud. Isto significa que não tem de reescrever código à medida que aumenta ou diminui a dimensão dos dados armazenados ou a quantidade de computação utilizada. Tal permite-lhe centrar a sua atenção apenas na sua lógica de negócio e não na forma como processa e armazena grandes conjuntos de dados. O Data Lake também elimina as complexidades normalmente associadas aos macrodados na cloud, garantindo que estes satisfazem as suas necessidades empresariais presentes e futuras.

Económico e rentável

O Data Lake é uma solução rentável para executar cargas de trabalho de macrodados. Pode escolher entre clusters a pedido ou um modelo pay-per-job quando os dados são processados. Em ambos os casos, não são necessários contratos de suporte específicos ao serviço, hardware nem licenças. O sistema aumenta ou reduz verticalmente consoante as suas necessidades empresariais, pelo que nunca paga por mais do que precisa. Além disso, também lhe permite dimensionar independentemente o armazenamento e o poder de computação, o que lhe confere uma maior flexibilidade económica face às soluções de macrodados tradicionais. Por fim, este sistema minimiza a necessidade de contratar equipas de operações especializadas normalmente associadas à gestão de uma infraestrutura de macrodados. O Data Lake minimiza os seus custos ao mesmo tempo que maximiza o retorno do seu investimento em dados. Um estudo recente revelou que o HDInsight tem um desempenho de TCO 63% inferior do que implementar o Hadoop no local durante cinco anos.

Segurança, auditoria e suporte de nível empresarial

O Data Lake é totalmente gerido e suportado pela Microsoft e beneficia de um SLA de nível empresarial e suporte. Com apoio ao cliente 24/7, pode entrar em contacto connosco para resolver quaisquer problemas com que se depare face à sua solução de macrodados integral. A nossa equipa monitoriza a sua implementação para que não tenha de o fazer, assegurando uma execução ininterrupta. O Data Lake protege os seus recursos de dados e aumenta facilmente a segurança no local e os controlos administrativos para a cloud. Os dados são sempre encriptados; em movimento com o SSL e em repouso com chaves geridas por utilizador ou suportadas por HSM no Azure Key Vault. Capacidades como o início de sessão único (SSO), autenticação multifator e gestão perfeita de milhões de identidades, estão incorporadas no Azure Active Directory. Pode autorizar utilizadores e grupos com ACLs baseadas em POSIX detalhado para todos os dados na Loja que permitem controlos de acesso baseados em funções. Por fim, pode satisfazer necessidades de segurança e de conformidade regulamentar ao auditar todos os acessos ou alterações de configuração do sistema.

Crie soluções de Data Lake com estas soluções poderosas

Apache Hadoop® e os nomes de projetos de código aberto associados são marcas comerciais da Apache Software Foundation.