Другие новости

Серверы для работы с облачными вычислениями, бизнес-аналитикой и большими данными

16.07.2014 | 10:08 Новости компаний

Огромное количество данных генерируется и собирается ежедневно. Это данные, полученные посредством совершения сделок, поиска в Интернете, прочтения статей, электронных инструментов, сканирования штрих-кодов и так далее. Компании генерируют данные, поскольку они отслеживают запасы, выписывают счета, измеряют производительность и потребление энергии. Клиенты предоставляют данные для бизнеса через точки продаж, обработку платежей, посредством деятельности в социальных медиа и т.д. Даже машины генерируют данные. Благодаря датчикам они передают информацию о результатах деятельности — от двигателей самолетов и ветровых турбин до маршрутов доставки грузов.

Объем данных настолько колоссален, что мы называем их «большими данными». Эти наборы данных превышают обычные возможности обработки данных. Объемы данных измеряются не только в терабайтах, но и в петабайтах, экзабайтах, зеттабайтах и даже йотабайтах. Но то, что мы сегодня называем большими данными, подразумевает не только большой объем данных, но и данные в разных форматах, отличных от стандартных структурированных баз данных. Эти неструктурированные и полу-структурированные данные, такие как веб-журналы, видео и аудио файлы, социальная активность и т.д. — должны быть преобразованы для легкого и быстрого анализа, и в конечном счете использоваться для управления бизнес-процессами.

По данным исследований, более половины организаций используют внутренние жесткие диски сервера в качестве хранилища для анализа данных. Но проблема в том, что традиционная обработка данных и методы аналитики совместно с традиционными серверными технологиями не имеют достаточной ёмкости, пропускной способности и производительности для обработки больших данных.
Традиционные способы были разработаны для структурированных данных в ограниченных размерах, а не различных форматов данных в огромном количестве.

Для анализа больших наборов данных, требуются две ключевые возможности:
высокая вычислительная мощность и много места для хранения. Некоторые производители предлагают использовать обычные серверы для Hadoop-кластеров. Но будут ли дешевые серверы, которые не имеют достаточной мощности, справляться с параллельной обработкой? Вероятно, это не является эффективной стратегией. Означает ли это, что вы экономите на внутренней памяти? Место для хранения имеет важное значение для распределения задач обработки (в случае Hadoop-подобных платформ), что тоже не работает в случае с дешевыми серверами.

Серверная инфраструктура должна удовлетворять потребностям больших данных и технологии Hadoop. Это звучит достаточно просто. Но обратите внимание на использование формулировки «удовлетворять потребностям» — часто организации считают, что чем выше калибр инфраструктуры, тем лучше для больших данных. В действительности, больше не всегда значит лучше. Слишком большие инфраструктуры для обработки данных — пустая трата денег. Hadoop-аналитика зависит от распределенной обработки данных с помощью кластеров серверов, а значит серверы имеют нужную мощность, требуемое количество памяти, и достаточно места для хранения, но не больше, чем это необходимо.

Сервер, который вы выбираете, имеет большое значение. Вы можете купить тот, который не имеет достаточной функциональности, чтобы сделать работу хорошо и быстро. Вы также можете использовать что-то слишком мощное. Или, вы можете купить сервер IBM x3850 X6, обладающий нужной производительностью и емкостью, имеющий возможности для роста, когда это потребуется. Сервер, который характеризуется низким энергопотреблением и высокой доступностью.