5 копеек про «Расчет коэффициента дедупликации на дисковых библиотеках»

Чтобы понимать о чем речь: дисковые библиотеки — это такие штуки, которые внешне похожи на дисковые массивы и используются для хранения резервных копий. Например HP StoreOnce или EMC DataDomain. При этом хранимые данные они дедуплицируют для экономии места. Поскольку технологии дедупликации ныне у вышеуказанных лидеров рынка отточены и примерно эквивалентны по эффективности, то будем считать «сферическую дисковую библиотеку в вакууме». Итак, сколько же можно уместить там всего хорошего?

 Начальные условия:

Задача: защищать 100ТБ данных в течение 60 дней.

  • Изменение данных в течение дня от 2% до 15%. Берем среднее значение ~7%
  • Хранение полных копий 60 дней (FB еженедельный)
  • Хранение инкрементальных копий 30 дней (Inc ежедневный)

Немного пояснений:

Дедупликация есть двух «видов»:

  • Дедупликация между копиями. Для нее объем хранимых данных = объему изменений + первый Full Backup + метаданные (которыми, в первом приближении, можно принебречь);
  • После этого в дело вступает дедупликация внутри копий. Тут сжимаемость зависит от характера данных и технологии дедупликации, а еще от того, используется ли сжатие данных (*zip какой-нибудь). Исходя из опыта, файловые данные имеют коэффициент дедупликации внутри копии 0,2 – 0,6; БД 0,2 – 0,4; виртуальные серверы в VMware (только система) 0,2 – 0,5.

Собственно, расчет:

  • Дедупликация между копиями.  В нашем примере объем хранимых резервных копий будет: 100 ТБ (первый FB) + 8 (кол-во хранимых FB) X (100ТБ X 7%) + 26 (кол-во хранимых INC) X (100ТБ X 7%) = 338 ТБ
  • Дедупликация внутри копий. Тут посчитать сложно без знаний о характере данных. Но представив «данные сферические в вакууме» и сделав предположение (хоть и натянутое) о коэффициенте дедупликации 0,3, думаю, сильно не ошибемся. Тогда всего для хранения наших резервных копий нам понадобится 338ТБ X 0,3 = 101,4ТБ

Учитывая, что библиотеку нельзя забивать на 100%, получаем, что вместо использования лент объемом 1 082ТБ нам достаточно  дисковой библиотеки на 120 — 130ТБ. Т.е. коэффициент дедупликации с учетом всяких накладных получается 8,5 : 1.

Пара слов вдогонку:

Понятно, что чем более однородные копии мы храним, и чем дольше их храним, тем более выгодной оказывается использование дисковой библиотеки вместо лент. Плюс библиотека дает тебе возможность прозрачно перебрасывать резервные копии на географически удаленную резервную площадку. Что в случае с лентами чревато ужасным гимором с перевозками, складированием, кладовщиками, физической безопасностью и бородатыми мужыками с автоматами, охраняющими грузовик с лентами, перемещающийся из пункта А в пункт Б.

Хотя, конечно, неотторгаемые носители и дороговизна…. В общем, есть над чем подумать.

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s