В понедельник компания EMC выкатила собственный дистрибутив
Hadoop с целью интеграции в открытое ПО для обработки больших данных напрямую
через Greenplum. Цель – Cloudera.
Дистрибутив называется Pivotal HD. Он примечателен тем, что
выдвигает EMC на конкурирующие позиции с Cloudera, которая обладает кучей
партнеров и зачастую воспринимается как Red Hat в области больших данных. Одной
из его основных особенностей является способность заметно сократить время
отклика на запрос. Возможно, с его помощью также удастся повысить продажи
Greenplum.
Джош Клар, вице-президент по продуктам EMC Greenplum
совершенно не стыдится конкуренции с Cloudera: «Мы хотим конкурировать с
Cloudera. Когда мы показывали клиентам бета-версии Pivotal HD, мы могли
отговорить их от приобретения решений Cloudera. В наших интересах любые
применения – от экспериментальных до крупных корпоративных».
Ключевые особенности Pivotal HD:
- Нативная интеграция с массивно-параллельной архитектурой базы данных
Greenplum через Apache Hadoop. - EMC заявляет, что этот дистрибутив привнесет обработку SQL и проведет
интеграцию с традиционными инструментами бизнес-аналитики. Pivotal HD
поддерживает средства дата-майнинга на основе SQL и позволяет им использовать
файловые системы Hadoop. EMC также обрисовала Project Hawq, попытку привнести в
Hadoop службы баз данных.
- Средства управления кластерами: разработчики могут разворачивать,
конфигурировать и управлять задачами по обработке больших данных. - По заявлению производителя, благодаря собственной технологии динамической
конвейерной обработки, Pivotal HD является наиболее мощным
Hadoop-дистрибутивом. По данным тестов, проводившихся EMC, превышение скорости
ответа на запрос по сравнению с SQL-интерфейсами Hadoop достигает от 10 до 600
раз. EMC подготовила собственные бенчмарки для сравнения Hawq с Hive и Impala
от Cloudera. - Дистрибутив идет в комплекте с VMware Hadoop Virtualization Extentions. В
этом нет ничего удивительного, с учетом того, что VMware с 2004 года
принадлежит EMC.