Другие новости
Аналитика доходности ASIC-майнеров и динамики BTC за сентябрь 2025 года
Заявки на конкурс «Лидеры цифровой трансформации» в Москве поступили из 27 стран
Более пяти тысяч участников объединил Moscow Startup Summit
Москвичи высоко оценили проект для владельцев собак «Друг, спасатель, защитник»
Уже более 14 тысяч москвичей подали заявки на вступление в волонтерский корпус 80-летия Победы
Серверы для работы с облачными вычислениями, бизнес-аналитикой и большими данными
Новости компаний
Огромное количество данных генерируется и собирается ежедневно. Это данные, полученные посредством совершения сделок, поиска в Интернете, прочтения статей, электронных инструментов, сканирования штрих-кодов и так далее. Компании генерируют данные, поскольку они отслеживают запасы, выписывают счета, измеряют производительность и потребление энергии. Клиенты предоставляют данные для бизнеса через точки продаж, обработку платежей, посредством деятельности в социальных медиа и т.д. Даже машины генерируют данные. Благодаря датчикам они передают информацию о результатах деятельности — от двигателей самолетов и ветровых турбин до маршрутов доставки грузов.
Объем данных настолько колоссален, что мы называем их «большими данными». Эти наборы данных превышают обычные возможности обработки данных. Объемы данных измеряются не только в терабайтах, но и в петабайтах, экзабайтах, зеттабайтах и даже йотабайтах. Но то, что мы сегодня называем большими данными, подразумевает не только большой объем данных, но и данные в разных форматах, отличных от стандартных структурированных баз данных. Эти неструктурированные и полу-структурированные данные, такие как веб-журналы, видео и аудио файлы, социальная активность и т.д. — должны быть преобразованы для легкого и быстрого анализа, и в конечном счете использоваться для управления бизнес-процессами.
По данным исследований, более половины организаций используют внутренние жесткие диски сервера в качестве хранилища для анализа данных. Но проблема в том, что традиционная обработка данных и методы аналитики совместно с традиционными серверными технологиями не имеют достаточной ёмкости, пропускной способности и производительности для обработки больших данных.
Традиционные способы были разработаны для структурированных данных в ограниченных размерах, а не различных форматов данных в огромном количестве.
Для анализа больших наборов данных, требуются две ключевые возможности:
высокая вычислительная мощность и много места для хранения. Некоторые производители предлагают использовать обычные серверы для Hadoop-кластеров. Но будут ли дешевые серверы, которые не имеют достаточной мощности, справляться с параллельной обработкой? Вероятно, это не является эффективной стратегией. Означает ли это, что вы экономите на внутренней памяти? Место для хранения имеет важное значение для распределения задач обработки (в случае Hadoop-подобных платформ), что тоже не работает в случае с дешевыми серверами.
Серверная инфраструктура должна удовлетворять потребностям больших данных и технологии Hadoop. Это звучит достаточно просто. Но обратите внимание на использование формулировки «удовлетворять потребностям» — часто организации считают, что чем выше калибр инфраструктуры, тем лучше для больших данных. В действительности, больше не всегда значит лучше. Слишком большие инфраструктуры для обработки данных — пустая трата денег. Hadoop-аналитика зависит от распределенной обработки данных с помощью кластеров серверов, а значит серверы имеют нужную мощность, требуемое количество памяти, и достаточно места для хранения, но не больше, чем это необходимо.
Сервер, который вы выбираете, имеет большое значение. Вы можете купить тот, который не имеет достаточной функциональности, чтобы сделать работу хорошо и быстро. Вы также можете использовать что-то слишком мощное. Или, вы можете купить сервер IBM x3850 X6, обладающий нужной производительностью и емкостью, имеющий возможности для роста, когда это потребуется. Сервер, который характеризуется низким энергопотреблением и высокой доступностью.
