Дедупликация данных

Дедупликация данных.

Содержание

1 Общая информация

  • Дедупликация данных есть процесс, при котором устраняются избыточные копии информации.
  • Снижаются текущие расходы на хранение информации.
  • Дедупликация позволяет сохранять на носителях исключительно одну уникальную единицу информации.
  • У дедупликации данных есть несколько уровней детализации:
    • байты;
    • файлы;
    • блоки.

2 Оценка метода

2.1 Положительные стороны дедупликации

  • Высокая эффективность хранения информации.
  • Выгодность применения при низкой пропускной способности сети.
  • Возможность чаще создавать бэкапы и хранить резервные копии данных дольше.

2.2 Отрицательные стороны дедупликации

  • Возможность возникновения конфликта данных (коллизии), если одновременно пара разных блоков генерируют один и тот же хеш-ключ.

3 Уровни детализации дедупликации

3.1 Уровень блоков

  • Наиболее популярный метод дедупликации.
  • Проводится анализ данных по блокам, с дальнейшим сохранением лишь уникальных повторений информации для каждого отдельно взятого блока.
  • Блоком считается одна логическая единица информации с характерным размером, который может варьироваться.
  • Все данные при дедупликации на уровне блоков обрабатываются с применением хеширования.
  • Хеш-алгоритмы позволяют создавать и хранить в базе дедупликации определённую сигнатуру (идентификатор), которая соответствует каждому отдельно взятому уникальному блоку данных.
  • Разновидности блочной дедупликации:
    • с переменной длиной блока;
    • с постоянной длиной блока.

3.2 Уровень файлов

  • Проводится сравнение нового файла с уже сохранённым.
  • Сохраняется только ссылка на файл.
  • Главное преимущество — простота реализации.

3.3 Уровень байтов

  • Проводится анализ данных по байтам.
  • Очень ресурсоёмко.

4 Место выполнения дедупликации

  • Выполнение дедупликации можно классифицировать по:
    • месту выполнения;
    • источнику данных (клиенту);
    • стороне хранения (серверу).

4.1 Дедупликация клиент-сервер

  • Необходимые процессы могут запускаться как на сервере, так и на клиенте.
  • Вычисляется хеш у каждого блока данных, после чего хеш отправляется на сервер в виде файла-списка различных хеш-ключей.
  • На сервере производится сравнение списка этих ключей, а затем клиенту отправляются блоки с данными.

4.2 Дедупликация на клиенте

  • Выполняется на источнике данных.
  • После завершения процесса данные будут отправлены на устройства хранения информации.
  • Высокая нагрузка на клиента (ОЗУ и процессор).
  • Низкие требования к пропускной способности сети.

4.3 Дедупликация на сервере

  • Данные поступают на сервер в полностью необработанном виде (без кодирования и сжатия).

4.3.1 Аппаратный тип

  • Устройство дедупликации представляет собой аппаратного решение, объединяющем логику дедупликации и процедуру восстановления данных.

4.3.2 Программный тип

  • Используется специальное программное обеспечения.

5 Реализации


Дмитрий Сергеевич Кулябов
Дмитрий Сергеевич Кулябов
Профессор кафедры теории вероятностей и кибербезопасности

Мои научные интересы включают физику, администрирование Unix и сетей.

Похожие