USD 65.59 ЕВРО 75.18

Четыре вопроса о Больших Данных, которые волнуют ИТ-руководителей

Аналитика

Вице-президент по корпоративной стратегии Hortonworks отвечает ИТ-руководителям на 4 вопроса о Больших Данных.

Шон Коннолли вице-президент по корпоративной стратегии Hortonworks. Шон также занимал должность вице-президента в VMWare, SpringSource, Red Hat и JBoss, и был директором HP.

Трудно поверить, что прошло уже больше семи лет с момента основания Apache Hadoop. Его первоначальным предназначением было хранении и обработка данных в Интернете простым, масштабируемым и экономически целесообразным путём. Это было скромное начало технологии open source, которая в 2013 году находится в центре следующего поколения архитектуры больших данных.

На протяжении многих лет Hadoop продолжает расширять применение, начав с небольшого числа веб-монстров (в том числе Yahoo!), дойдя до технологии, которая преодолела пропасть и оказалась на повестке дня ИТ-руководителей множества предприятий. Использование Hadoop на предприятиях предлагает новые возможности, позволяющие компании извлечь выгоду из данной платформы, предоставляющей убедительное сочетание технологий, экономических и бизнес-преимуществ.

ИТ-руководители типичных предприятий обычно задают четыре вопроса, когда думают о Больших Данных и о том, насколько Hadoop подходит для этих задач.

Вопрос 1. Вокруг Больших Данных и Hadoop, безусловно, много шумихи, но что все это действительно означает?

Hadoop, как технология де-факто эры Больших Данных, основывается на двух вещах:

• Прежде всего, речь идет об эффективности. Hadoop обеспечивает современную платформу для хранения и обработки данных, позволяя компаниям получать пользу от всех своих данных, способами, которые ранее были невозможны, с экономической моделью, которая на несколько порядков более эффективна, используя существующие инвестиции и навыки.
• Во-вторых, речь идет о возможностях. Поскольку Hadoop масштабируем как технически, так и экономически, он дает возможность построить аналитические приложения с использованием новых типов данных, которые дадут на 20% больше производительности или разблокируют новые источники дохода для дальновидных предприятий.

С точки зрения эффективности, Hadoop в качестве платформы данных предназначен для работы на недорогом аппаратном обеспечении, без специализированного дорогостоящего оборудования СУБД высокого класса или суперкомпьютеров. Кроме того, Hadoop не только открывает новые возможности хранения и обработки данных, но и дает предприятиям возможность оценить их общую архитектуру данных и принять лучший в своем классе подход, фокусируя системы Hadoop и традиционные приложения баз данных и хранилищ данных на обслуживании рабочих нагрузок, для которых они лучше всего подходят. Кроме того, есть существенные требования предприятия, такие как: управление, мониторинг, безопасность данных и высокая доступность. Всё это включает в себя жизнеспособная платформа Hortonworks Data Platform.

С точки зрения возможностей, Hadoop позволяет перерабатывать и использовать огромные объёмы данных, охватывая новые и существующие источники данных во все большем масштабе. Диапазон применения от хорошо понятного анализа маршрута перемещения в Web и социальных данных до развивающегося расширенного анализа машин, датчиков и данных о местоположении, которые появляются с поразительными темпами. С Hadoop, предприятия теперь имеют возможность выйти за рамки простого анализа послетранзакционных данных и принять архитектуру, которая способна смешивать данные по транзакциям, взаимодействиям и наблюдениям, чтобы бизнес-результаты были предсказаны ещё до транзакции.

Вопрос 2. Перестройка центра обработки данных — звучит невесело. Каково же освоение в реальности?

Многие организации, имеющие опыт работы с Hadoop говорят, что они приняли Hadoop за крайнюю масштабируемость, аналитические возможности, низкую стоимость, а также поддержку мультиструктурированных данных. Нужно начинать с создания бизнес-кейса для Hadoop на основе этих принципов и включения целевых аналитических приложений Hadoop.

Несмотря на то, что ваш первый кластер может иметь собственное хранилище, вы должны думать о Hadoop в рамках архитектуры больших данных, что делает интеграцию бизнес-аналитики и хранилищ данных следующим приоритетом.

Кроме того, остерегайтесь обмана. Существует много разговоров о смерти хранилищ данных предприятия. Несмотря на то, что этой новостью пестрят заголовки, реальность не столь экстремальна. С самого начала видение Hortonworks было сосредоточено на предоставлении данных архитектуры следующего поколения, которые легко интегрируются в существующие и новые системы данных (охватывающих приложения баз данных, хранилища данных, Hadoop и другие), что открывает новые ценности для бизнеса, при сохранении существующих инвестиций.

По этой причине мы сосредоточены на создании глубокой стратегической интеграции с партнерами, такими как Microsoft, Teradata, Rackspace и другими. Явная цель — интеграция Hadoop с существующими технологиями центра обработки данных наиболее удобным способом. Хотя предстоит ещё много работы, мы сделали большой шаг вперед по интеграции Hadoop вверх и вниз по стеку:

а) Аналитика и инструменты бизнес-аналитики, такие как Excel, Tableau, MicroStrategy, Business Objects и SAS;

b) Информационные системы и инструменты интеграции данных от таких производителей как: Teradata, Microsoft, Informatica, IBM, и Talend;

с) Платформы управления, включая Microsoft System Center и Active Directory, и Teradata Viewpoin;

d) Платформы инфраструктуры, такие как: Windows, Linux, VMware, Azure, Amazon Web Services, Rackspace OpenCloud и OpenStack.

Сосредотачивая внимание на тяжёлой работе по интеграции Hadoop с часто используемыми платформами и инструментами, мы стремимся ускорить принятие Hadoop и его успех на рынке мэйнстрим предприятий.

Вопрос 3. Обучение персонала тоже звучит невесело. Как с этим справиться?

Поскольку Hadoop является новой платформой, она предлагает знакомые способы работы разработчикам, обработчикам данных, и системным администраторам для подключения и использования своих навыков. Например, для разработчиков знакомых с Java, .NET и таких языков сценариев, как Python или Pig, есть инструменты, пакеты SDK и API-интерфейсы для работы с Hadoop. Обработчики данных, знакомые с SQL, могут использовать Hive (система хранения данных Hadoop) для запросов и взаимодействовия с данными Hadoop привычным способом. Для системных администраторов, которые работают с кластерами Hadoop, есть широкий набор возможностей, включая использование веб-консоли Apache Ambari, интеграция непосредственно под управлением Apache Ambari и интерфейсы мониторинга REST, или предварительно интегрированных и известных решений: Teradata Viewpoint, Microsoft System Center или других сторонних решений.

Hadoop, как и любая новая платформа, требует обучения, поэтому разработчики, обработчики данных и системные администраторы должны инвестировать в тренинги, чтобы быть более подготовленными и получить максимальную отдачу от Hadoop. Они должны понимать, что этот опыт обучения сделает их более ценными для команды и компании.

Q4. Похоже на работу на следующий год. Когда же лучшее время для внедрения?

Согласно Мерв Адриан из Gartner, который отметил на Hadoop Summit 2013 в июне, что 30% предприятий уже используют большие данные, а 34% планируют внедрение в течение следующих 12-24 месяцев.

Исходя из опыта работы с клиентами, почти все из списка Global 1000 уже развернули или имеют четкий план по развертыванию Hadoop. Более того, большинство основных предприятий придерживаются стратегии Больших Данных. Мы обнаружили, что многие предприятия, которые успешно работают Hadoop, начинали с развертывания концептуальных решений для доказательства правильности разработанной стратегии, чтобы определить свои бизнес-возможности. После того, как только первоначальный вариант использования был развернут, начиналась гонка за получение дальнейших конкурентных преимуществ и эксплуатационной эффективности в других случаях.

Наш совет: учитывая open sourсe природу Hadoop, сосредоточьтесь на проверке концепции, обеспечивающей низкие начальные затраты и быстрый путь к первоначальному успеху. Понимание и раскрытие ценности решения, с использованием всех ваших данных, является ключевым фактором успеха крупных проектов, и чем раньше этот процесс начнётся, тем лучше.