Пропустить навигацию

Hadoop

Что такое Hadoop?

Apache Hadoop — это программное обеспечение с открытым кодом, предназначенное для хранения и анализа большого объема структурированных и неструктурированных данных: терабайтов (и даже больше) писем электронной почты, показателей датчиков, журналов сервера, веб-каналов Twitter, сигналов GPS и многого другого. Hadoop может обрабатывать большие наборы смешанных данных для получения подробных сведений и ответов, что объясняет его популярность.

Краткая история Hadoop

Созданный в 2005 г. Майком Кафарелла (Mike Cafarella) и Дугом Каттингом (Doug Cutting) (который назвал программу именем игрушечного слона своего сына), Hadoop изначально предназначался для поиска данных в Интернете. Сегодня это открытый, поддерживаемый сообществом проект Apache Software Foundation, используемый в самых различных организациях и отраслях. Корпорация Майкрософт активно участвует в развитии этого сообщества.

Microsoft
Microsoft has logged over 6,000 engineering hours in the last year, committing code and driving innovation in partnership with the open source community across a range of Hadoop projects. In addition, we have committers on Hadoop, and Microsoft employee Chris Douglas is the Apache Working Group Chair for Hadoop.

–Дэвид Кэмпбелл (David Campbell), руководитель технического отдела Майкрософт

Стандартные серверы, созданные для работы с большими данными

Одной из причин популярности Hadoop является простая экономика. Обработка больших данных ранее требовала использования суперкомпьютеров и другого дорогостоящего специализированного оборудования. Hadoop обеспечивает возможность надежных масштабируемых вычислений на серверах, соответствующих отраслевым стандартам, что позволяет обрабатывать петабайты данных в условиях ограниченного бюджета. Hadoop также предназначен для масштабирования из обособленного сервера на тысячи компьютеров и определения и обработки сбоев на уровне приложений для повышения надежности.

Virginia Tech
Researchers at Virginia Tech are using Hadoop to sift through petabytes of DNA data for new cancer therapies and antibiotics.

Анализ данных любого типа

По некоторым оценкам, до 80 % данных, с которыми работают современные организации, приходят не в аккуратных столбцах и строках. Это может быть беспорядочный набор электронных сообщений, каналов социальных сетей, спутниковых изображений, сигналов GPS, журналов серверов и других неструктурированных, несвязанных файлов. Hadoop может обработать практически любой файл или формат (это еще одно его преимущество), так что организации могут ставить такие задачи, которые раньше казались невозможными.

Barcelona
By using Windows Azure, HDInsight, and SQL Server 2012, we can collect, analyze, and generate near-real time BI with Big Data collected from social media feeds, GPS signals, and data from government systems.

–Луис Санз Марко (Luis Sanz Marco), г. Барселона

Узнайте о том, как в г. Барселона реализован проект Hadoop в Microsoft Azure

Зачем использовать Hadoop в облаке?

Hadoop можно развернуть в стандартном локальном центре данных. Некоторые компании, включая Майкрософт, предлагают Hadoop в виде облачной службы. Само собой, возникает вопрос: зачем использовать Hadoop в облаке? Все больше организаций выбирают именно этот вариант по следующим причинам.

Облако экономит время и деньги.

Открытый код не означает бесплатный. Развертывание Hadoop в локальной среде по-прежнему требует наличия серверов и специализированных навыков персонала для настройки, отладки и обслуживания систем. Облачная служба позволяет подключать кластер Hadoop за считаные минуты без предоплаты.

Virginia Tech
See how Virginia Tech is using Microsoft's cloud instead of spending millions of dollars to establish their own supercomputing center.

Облако имеет гибкие возможности и его можно быстро масштабировать

В облаке Microsoft Azure вы платите только за вычислительные мощности и хранилище, которые вы используете. Подключите кластер Hadoop, проанализируйте данные и завершите его работу, чтобы остановить счетчик.

NHS
We quickly spun up the Azure HDInsight cluster and processed six years worth of data in just a few hours, and then we shut it down&ellipsis; processing the data in the cloud made it very affordable.

–Пол Хендерсон (Paul Henderson), Национальная служба здравоохранения (Великобритания)

Облако позволяет вам быть гибкими

Создайте кластер Hadoop за считаные минуты и добавляйте узлы при необходимости. Облако предлагает организациям немедленную окупаемость инвестиций.

Chr Hansen
It was simply so much faster to do this in the cloud with Windows Azure. We were able to implement the solution and start working with data in less than a week.

–Мортен Мелдгаард (Morten Meldgaard), Chr. Hansen (Хансен)

Представляем HDInsight: Hadoop в облаке Azure

Microsoft Azure HDInsight — это служба в облаке Azure, полностью основанная на Apache Hadoop. Она предлагает все преимущества Hadoop, а также возможности интеграции с Excel, локальными кластерами Hadoop и экосистемой программного обеспечения и служб для бизнеса Майкрософт.

Подробнее о возможностях HDInsight

См. введение об HDInsight