Дедупликация данных
Дедупликация данных.
Содержание
1 Общая информация
- Дедупликация данных есть процесс, при котором устраняются избыточные копии информации.
- Снижаются текущие расходы на хранение информации.
- Дедупликация позволяет сохранять на носителях исключительно одну уникальную единицу информации.
- У дедупликации данных есть несколько уровней детализации:
- байты;
- файлы;
- блоки.
2 Оценка метода
2.1 Положительные стороны дедупликации
- Высокая эффективность хранения информации.
- Выгодность применения при низкой пропускной способности сети.
- Возможность чаще создавать бэкапы и хранить резервные копии данных дольше.
2.2 Отрицательные стороны дедупликации
- Возможность возникновения конфликта данных (коллизии), если одновременно пара разных блоков генерируют один и тот же хеш-ключ.
3 Уровни детализации дедупликации
3.1 Уровень блоков
- Наиболее популярный метод дедупликации.
- Проводится анализ данных по блокам, с дальнейшим сохранением лишь уникальных повторений информации для каждого отдельно взятого блока.
- Блоком считается одна логическая единица информации с характерным размером, который может варьироваться.
- Все данные при дедупликации на уровне блоков обрабатываются с применением хеширования.
- Хеш-алгоритмы позволяют создавать и хранить в базе дедупликации определённую сигнатуру (идентификатор), которая соответствует каждому отдельно взятому уникальному блоку данных.
- Разновидности блочной дедупликации:
- с переменной длиной блока;
- с постоянной длиной блока.
3.2 Уровень файлов
- Проводится сравнение нового файла с уже сохранённым.
- Сохраняется только ссылка на файл.
- Главное преимущество — простота реализации.
3.3 Уровень байтов
- Проводится анализ данных по байтам.
- Очень ресурсоёмко.
4 Место выполнения дедупликации
- Выполнение дедупликации можно классифицировать по:
- месту выполнения;
- источнику данных (клиенту);
- стороне хранения (серверу).
4.1 Дедупликация клиент-сервер
- Необходимые процессы могут запускаться как на сервере, так и на клиенте.
- Вычисляется хеш у каждого блока данных, после чего хеш отправляется на сервер в виде файла-списка различных хеш-ключей.
- На сервере производится сравнение списка этих ключей, а затем клиенту отправляются блоки с данными.
4.2 Дедупликация на клиенте
- Выполняется на источнике данных.
- После завершения процесса данные будут отправлены на устройства хранения информации.
- Высокая нагрузка на клиента (ОЗУ и процессор).
- Низкие требования к пропускной способности сети.
4.3 Дедупликация на сервере
- Данные поступают на сервер в полностью необработанном виде (без кодирования и сжатия).
4.3.1 Аппаратный тип
- Устройство дедупликации представляет собой аппаратного решение, объединяющем логику дедупликации и процедуру восстановления данных.
4.3.2 Программный тип
- Используется специальное программное обеспечения.