Дедупликация данных

2022-05-26 · 2 мин. для прочтения

Дедупликация данных.

Содержание

1 Общая информация

Дедупликация данных есть процесс, при котором устраняются избыточные копии информации.
Снижаются текущие расходы на хранение информации.
Дедупликация позволяет сохранять на носителях исключительно одну уникальную единицу информации.
У дедупликации данных есть несколько уровней детализации:
- байты;
- файлы;
- блоки.

Возможность возникновения конфликта данных (коллизии), если одновременно пара разных блоков генерируют один и тот же хеш-ключ.

Наиболее популярный метод дедупликации.
Проводится анализ данных по блокам, с дальнейшим сохранением лишь уникальных повторений информации для каждого отдельно взятого блока.
Блоком считается одна логическая единица информации с характерным размером, который может варьироваться.
Все данные при дедупликации на уровне блоков обрабатываются с применением хеширования.
Хеш-алгоритмы позволяют создавать и хранить в базе дедупликации определённую сигнатуру (идентификатор), которая соответствует каждому отдельно взятому уникальному блоку данных.
Разновидности блочной дедупликации:
- с переменной длиной блока;
- с постоянной длиной блока.

Выполнение дедупликации можно классифицировать по:
- месту выполнения;
- источнику данных (клиенту);
- стороне хранения (серверу).

Необходимые процессы могут запускаться как на сервере, так и на клиенте.
Вычисляется хеш у каждого блока данных, после чего хеш отправляется на сервер в виде файла-списка различных хеш-ключей.
На сервере производится сравнение списка этих ключей, а затем клиенту отправляются блоки с данными.

Выполняется на источнике данных.
После завершения процесса данные будут отправлены на устройства хранения информации.
Высокая нагрузка на клиента (ОЗУ и процессор).
Низкие требования к пропускной способности сети.