Hadoop

Что такое Hadoop?

Apache Hadoop — это программное обеспечение с открытым кодом, предназначенное для хранения и анализа большого объема структурированных и неструктурированных данных: терабайтов (и даже больше) писем электронной почты, показателей датчиков, журналов сервера, веб-каналов Twitter, сигналов GPS и многого другого. Hadoop может обрабатывать большие наборы смешанных данных для получения подробных сведений и ответов, что объясняет его популярность.

Краткая история Hadoop

Созданный в 2005 г. Майком Кафарелла (Mike Cafarella) и Дугом Каттингом (Doug Cutting) (который назвал программу именем игрушечного слона своего сына), Hadoop изначально предназначался для поиска данных в Интернете. Сегодня это открытый, поддерживаемый сообществом проект Apache Software Foundation, используемый в самых различных организациях и отраслях. Корпорация Майкрософт активно участвует в развитии этого сообщества.

Microsoft
В прошлом году корпорация Майкрософт выполнила 6 000 часов инженерных работ по созданию кода и разработке инноваций в рамках партнерства с сообществом открытого программного обеспечения для целого ряда проектов на основе Hadoop. Кроме того, мы взаимодействуем с разработчиками Hadoop, а сотрудник Майкрософт Крис Даглас (Chris Douglas) является руководителем группы Apache по работе с Hadoop.

–Дэвид Кэмпбелл (David Campbell), руководитель технического отдела Майкрософт

Стандартные серверы, созданные для работы с большими данными

Одной из причин популярности Hadoop является простая экономика. Обработка больших данных ранее требовала использования суперкомпьютеров и другого дорогостоящего специализированного оборудования. Hadoop обеспечивает возможность надежных масштабируемых вычислений на серверах, соответствующих отраслевым стандартам, что позволяет обрабатывать петабайты данных в условиях ограниченного бюджета. Hadoop также предназначен для масштабирования из обособленного сервера на тысячи компьютеров и определения и обработки сбоев на уровне приложений для повышения надежности.

Virginia Tech
Исследователи в Технологическом университете Вирджинии используют Hadoop для обработки петабайтов данных ДНК при исследовании возможностей лечения онкологических заболеваний и разработке антибиотиков.

Анализ данных любого типа

По некоторым оценкам, до 80 % данных, с которыми работают современные организации, приходят не в аккуратных столбцах и строках. Это может быть беспорядочный набор электронных сообщений, каналов социальных сетей, спутниковых изображений, сигналов GPS, журналов серверов и других неструктурированных, несвязанных файлов. Hadoop может обработать практически любой файл или формат (это еще одно его преимущество), так что организации могут ставить такие задачи, которые раньше казались невозможными.

Barcelona
Используя Windows Azure, HDInsight, and SQL Server 2012, мы можем осуществлять сбор и анализ больших объемов данных из социальных сетей, систем GPS и правительственных ведомств, и на их основе в режиме реального времени вырабатывать данные бизнес-аналитики

–Луис Санз Марко (Luis Sanz Marco), г. Барселона

Узнайте о том, как в г. Барселона реализован проект Hadoop в Microsoft Azure

Зачем использовать Hadoop в облаке?

Hadoop можно развернуть в стандартном локальном центре данных. Некоторые компании, включая Майкрософт, предлагают Hadoop в виде облачной службы. Само собой, возникает вопрос: зачем использовать Hadoop в облаке? Все больше организаций выбирают именно этот вариант по следующим причинам.

Облако экономит время и деньги.

Открытый код не означает бесплатный. Развертывание Hadoop в локальной среде по-прежнему требует наличия серверов и специализированных навыков персонала для настройки, отладки и обслуживания систем. Облачная служба позволяет подключать кластер Hadoop за считаные минуты без предоплаты.

Virginia Tech
Узнайте о том, как в Технологическом университете Вирджинии используется облако Майкрософт, исключающее необходимость тратить миллионы долларов на закупку суперкомпьютеров.

Облако имеет гибкие возможности и его можно быстро масштабировать

В облаке Microsoft Azure вы платите только за вычислительные мощности и хранилище, которые вы используете. Подключите кластер Hadoop, проанализируйте данные и завершите его работу, чтобы остановить счетчик.

NHS
Мы быстро создали кластер Azure HDInsight и обработали объем данных, на анализ которого раньше ушло бы шесть лет, за несколько часов, после чего мы отключили кластер. Обработка данных становится действительно доступной.

–Пол Хендерсон (Paul Henderson), Национальная служба здравоохранения (Великобритания)

Облако позволяет вам быть гибкими

Создайте кластер Hadoop за считаные минуты и добавляйте узлы при необходимости. Облако предлагает организациям немедленную окупаемость инвестиций.

Chr Hansen
С помощью Windows Azure это удалось сделать в облаке во много раз быстрее. Мы смогли реализовать решение и начать работу с данными менее, чем за неделю.

–Мортен Мелдгаард (Morten Meldgaard), Chr. Hansen (Хансен)

Представляем HDInsight: Hadoop в облаке Azure

Microsoft Azure HDInsight — это служба в облаке Azure, полностью основанная на Apache Hadoop. Она предлагает все преимущества Hadoop, а также возможности интеграции с Excel, локальными кластерами Hadoop и экосистемой программного обеспечения и служб для бизнеса Майкрософт.

См. введение об HDInsight