Дедупликация данных в windows server 2012

Как и зачем производить дедупликацию данных

Дедупликация с Powershell

Процессом дедупликации также можно управлять с помощью Powershell. Для этого вам необходимо установить функцию дедупликации данных с помощью команд:

Модуль импорта ServerManager
Добавить-WindowsFeature -name FS-Data-Deduplication
Дедупликация модуля импорта

После того, как вы включили дедупликацию, вам необходимо ее настроить. Чтобы включить дедупликацию для диска D :, выполните команду:

Включить-дедупликацию Тома D:

По умолчанию дедуплицируются файлы, к которым не осуществлялся доступ (последний доступ) более 30 дней. Это значение можно изменить, например, на 2 дня, для этого нужно выполнить команду:

Set-DedupVolume D: -MinimumFileAgeDays 2

Обычно процесс дедупликации запускается из планировщика Windows, но его также можно запустить вручную:

Start-DedupJob D: –оптимизация типа

Текущую статистику можно посмотреть с помощью команды:

Get-DedupStatus

Ознакомиться со списком текущих задач можно с помощью команды:

Get-DedupJob

Все результаты работы для тома можно просмотреть с помощью команды PoSH:

Get-DedupMetadata -Volume D:

И, наконец, вы можете полностью отменить дедупликацию для тома с помощью команды:

Start-DedupJob -Volume D: -Тип оптимизации

На скриншоте ниже видно, что после включения дедупликации на диске E: (для тестирования я ввел 4 идентичных ISO с Windows размер занимаемого дискового пространства уменьшился с 12 ГБ до 3 ГБ.

Служба дедупликации хранит свою базу данных и дедуплицированные блоки в каталоге System Volume Information. Поэтому ни в коем случае нельзя вручную вмешиваться в его структуру.

Статус дедупликации

Следующая команда вернет текущий статус дедупликации:

Предыдущая команда возвращает закэшированные данные, но если вы хотите получить наиболее актуальную информацию вы можете выполнить следующую команду:

Следующая команда вернет время последнего выполнения каждого из процессов дедупликации:

Эта команда вернет информацию по работе с файлами:

Где:

  • InPolicyFilesCount — количество файлов, которые подходят для оптимизации;
  • InPolicyFilesSize — общий размер файлов, которые подходят для оптимизации;
  • OptimizedFilesCount — количество файлов, которые были оптимизированы;
  • OptimizedFilesSavingRate — процент оптимизированных файлов относительно всех файлов которые подходят под установленные параметры;
  • OptimizedFilesSize — общий размер оптимизированных файлов.

Более точно эти данные отображаются после процесса сборки мусора и оптимизации.

Следующая команда вернет данные из базы дедупликации по определенному тому:

Если такой запрос завершится ошибкой, то скорее всего, в данный момент, происходит один из процессов дедупликации, который меняет эти метаданные.

По выводу мы можем увидеть:

  • DataChunkCount — количество чанков, размером 32-128 Кб на одном томе;
  • DataContainerCount — количество контейнеров;
  • DataChunkAverageSize — средний размер одного чанка (размер контейнера поделенный на количество чанков);
  • TotalChunkStoreSize — размер хранилища;
  • CorruptionLogEntryCount — количество ошибок на томе.

Свойства типа «Stream*» скорее всего показывают данные по открытым файлам или проходящие через Volume Shadow Copy

Если будет необходимость в освобождения места (переносом или удалением) подсчет потенциально освобождающегося пространства будет сложной задачей. Связано это с тем, что не ясно количество дедуплицированных файлов (они могут быть в трех, четырех копиях, в разных местах и т.д.). В этом случае можно использовать команду Measure-DedupFileMetadata:

Где:

  • FilesCount — количество файлов на всем томе;
  • OptimizedFilesCount — количество оптимизированных файлов на всем томе;
  • Size — суммарный размер всех файлов;
  • DedupSize — итоговый размер дедуплицированных файлов в этой папке;

Часто задаваемые вопросы

Чем отличается дедупликация данных от других средств оптимизации?
Есть несколько важных различий между дедупликацией данных и другими распространенными решениями для оптимизации хранения.

  • Чем отличается дедупликация данных от хранилища единственных копий?
    Хранилище единственных копий (SIS) является предшественником технологии дедупликации данных и впервые было представлено в выпуске Windows Storage Server 2008 R2. Для оптимизации тома хранилище единственных копий выявляло в нем полностью идентичные файлы и заменяло их логическими ссылками на одну копию такого файла, размещенную в общем хранилище SIS. В отличие от хранилища единственных копий, дедупликация данных способна уменьшить пространство, занимаемое файлами, которые не полностью идентичны, но имеют некоторые одинаковые элементы, а также файлами, в которых встречается много повторяющихся элементов. Хранилище единственных копий считается устаревшим начиная с выпуска Windows Server 2012 R2, а в Windows Server 2016 его полностью заменила дедупликация данных.

  • Чем отличается дедупликация данных от сжатия NTFS?
    Сжатие NTFS используется файловой системой NTFS на уровне тома. Эта необязательная функция NTFS оптимизирует каждый файл по отдельности, сжимая его во время записи. В отличие от сжатия NTFS, дедупликация данных использует для экономии места одновременно все файлы на томе. Это гораздо эффективнее, чем сжатие NTFS, ведь файл может одновременно иметь как внутреннее дублирование данных (которое устраняется сжатием NTFS), так и сходство с другими файлами в томе (которое не устраняется сжатием NTFS). Кроме того, дедупликация данных использует модель постобработки. Это означает, что новые или измененные файлы записываются на диск в неоптимизированном виде, и лишь затем дедупликация данных оптимизирует их.

  • Чем отличается дедупликация данных от форматов архивации файлов, таких как ZIP, RAR, 7Z, CAB и т. д.?
    Форматы ZIP, RAR, 7Z, CAB и другие выполняют сжатие для определенного набора файлов. Как и в случае с дедупликацией данных, оптимизируются повторяющиеся фрагменты внутри файлов и в разных файлах. Однако вам необходимо выбрать файлы, которые должны быть включены в архив. Семантика доступа также отличается. Чтобы получить доступ к определенному файлу в архиве, необходимо открыть архив, выбрать файл, а затем распаковать его для использования. Дедупликация данных работает незаметно для пользователей и администраторов, не требуя никаких ручных операций. Кроме того, дедупликация данных сохраняет семантику доступа — оптимизированные файлы выглядят для пользователя точно так же, как и раньше.

Можно ли изменить параметры дедупликации данных для выбранного типа использования?
Да. Хотя дедупликация данных обеспечивает рациональные значения по умолчанию для рекомендуемых рабочих нагрузок, вам может потребоваться настроить параметры для наиболее эффективного использования хранилища. И не забывайте, что в некоторых случаях .

Можно ли вручную запускать задания дедупликации данных?
Да, . Это удобно, если запланированное задание не было выполнено из-за недостатка системных ресурсов или ошибки. Кроме того, есть специальное задание отмены оптимизации, которое запускается только вручную.

Можно ли просмотреть историю запусков заданий дедупликации данных?
Да, .

Задания

Функция дедупликации данных использует стратегию постобработки для оптимизации и эффективного использования пространства на томе.

Имя задания Описание заданий Расписание по умолчанию
Optimization Задание оптимизации выполняет дедупликацию, блокируя данные на томе в параметрах политики тома (при необходимости) сжимая эти блоки и сохраняя блоки уникальным образом в хранилище блоков. Процесс оптимизации, используемый дедупликацией данных, подробно описан в разделе Каждый час
Сборка мусора Задание сборки мусора выполняет освобождение места на диске, удаляя ставшие ненужными блоки, на которые не осталось ссылок после изменения или удаления файлов. Каждую субботу в 02:35
Проверка целостности Задание проверки целостности обнаруживает повреждения в хранилище блоков, связанные со сбоями диска или поврежденными секторами. По мере возможности дедупликация данных автоматически применяет доступные для тома функции (например, зеркала или контроль четности для тома дисковых пространств), чтобы восстановить поврежденные данные. Кроме того, дедупликация данных сохраняет в отдельной «активной зоне» резервные копии популярных блоков, на которые существует более 100 ссылок. Каждую субботу в 03:35
Unoptimization Задание отмены оптимизации, особое задание, которое может выполняться только вручную, отменяет всю оптимизацию, выполненную службой дедупликации, и отключает дедупликацию данных для тома.

Типы дедупликации и их применение

2) Блочная дедупликация — данный механизм уже интереснее, поскольку работает он суб-файловом уровне — а именно на уровне блоков данных. Такой тип дедупликации, как правило характерен для промышленных систем хранения данных, а также именно этот тип дедупликации применяется в Windows Server 2012. Механизмы все те же, что и раньше — но уровне блоков (кажется, я это уже говорил, да?). Здесь сфера применения дедупликации расширяется и теперь распространяется не только на архивные данные, но и на виртуализованные среды, что вполне логично — особенно для VDI-сценариев. Если учесть что VDI — это целая туча повторяющихся образов виртуальных машин, в которых все же есть отличия друг от друга (именно по этому файловая дедупликация тут бессильна) — то блочная дедупликация — наш выбор!

3) Битовая дедупликаия — самый низкий (глубокий) тип дедупликации данных — обладает самой высокой степенью эффективности, но при этом также является лидером по ресурсоемкости. Оно и понятно — проводить анализ данных на уникальность и плагиатичность — процесс нелегкий. Честно скажу — я лично не знаю систем хранения данных, которые оперируют на таком уровне дедупликации, но я точно знаю что есть системы дедупликации трафика, которые работают на битовом уровне, допустим тот же Citrix NetScaler. Смысл подобных систем и приложений заключается в экономии передаваемого трафика — это очень критично для сценариев с территориально-распределенными организациями, где есть множество разбросанных географически отделений предприятия, но отсутствуют или крайне дороги в эксплуатации широкие каналы передачи данных — тут решения в области битовой дедупликации найдут себя как нигде еще и раскрою свои таланты.

Недостатки и проблемы

Один из методов дедупликации данных основан на использовании криптографических хэш-функций для выявления повторяющихся сегментов данных. Если два разных фрагмента информации генерируют одно и то же значение хеш-функции, это называется конфликтом . Вероятность коллизии зависит в основном от длины хэша (см. « Атака по случаю дня рождения» ). Таким образом, возникает опасение, что при возникновении хеш-коллизии может произойти повреждение данных , и дополнительные средства проверки не используются, чтобы проверить, есть ли разница в данных или нет. Как встроенная, так и постпроцессорная архитектура могут предлагать побитовую проверку исходных данных для гарантированной целостности данных. Используемые хэш-функции включают такие стандарты, как SHA-1 ,SHA-256 и другие.

Вычислительная ресурсоемкость процесса может быть недостатком дедупликации данных. Для повышения производительности некоторые системы используют как слабые, так и сильные хэши. Слабые хэши вычисляются намного быстрее, но существует больший риск коллизии хэшей. Системы, использующие слабые хеш-коды, впоследствии будут вычислять сильные хеш-значения и будут использовать его в качестве определяющего фактора для определения того, действительно ли это одни и те же данные или нет

Обратите внимание, что системные издержки, связанные с вычислением и поиском хеш-значений, в первую очередь являются функцией рабочего процесса дедупликации. Восстановление файлов не требует такой обработки, и любые дополнительные потери производительности, связанные с повторной сборкой блоков данных, вряд ли повлияют на производительность приложения.

Еще одна проблема — взаимодействие сжатия и шифрования. Цель шифрования — устранить любые заметные закономерности в данных. Таким образом, зашифрованные данные не могут быть дедуплицированы, даже если базовые данные могут быть избыточными.

Хотя дедупликация данных не является недостатком, имели место утечки данных, когда недостаточная безопасность и процедуры проверки доступа использовались с большими репозиториями дедуплицированных данных. В некоторых системах, как типичные с хранения облака, править злоумышленник может получить данные , принадлежащие другим, зная или угадать значение хэш -функции требуемых данных.

Методы дедупликации

Технология позволяет избавиться от многочисленных копий файлов и сохранить на носителе информации только одну единицу файла. Однако для того, чтобы такая процедура была эффективной и действительно помогла устранить все копии, потребуется правильно подобрать уровень детализации.

Data deduplication может выполняться на нескольких уровнях:

  • байты;
  • отдельные файлы;
  • блоки.

Каждый из подходов имеет свои особенности и преимущества, которые стоит учитывать при выборе решения.

Если облака для вас
не просто теория

Широкий спектр услуг
по выделенным северам
и мультиклауд-решениям

Конфигурация VPS и бесплатный тест уже через 2 минуты

Сконфигурировать VPS

Организация вашей IT-инфраструктуры на основе мультиклауд-решения

Запросить КП

Использование блоков является самым популярным вариантом. Если говорить коротко, то дедупликация данных на этом уровне – это анализ файлов, после которого сохраняются лишь неповторяющиеся сведения для отдельного блока. Блок представляет собой логическую единицу информации с определенным размером. Причем размер этой единицы может варьироваться в зависимости от задач.

Важной особенностью дедупликации на таком уровне является использование хеширования. За счет этого удается создавать и хранить в общей базе требуемую сигнатуру, которая обозначает блок данных.. Процедура блочной дедубликации может проводиться с переменной или постоянной длиной блоков

В первом случае файлы распределяются на блоки различного размера – основой для сортировки может выступать дата создания или другой параметр. Переменный способ считается самым эффективным для сокращения объема данных.

Процедура блочной дедубликации может проводиться с переменной или постоянной длиной блоков. В первом случае файлы распределяются на блоки различного размера – основой для сортировки может выступать дата создания или другой параметр. Переменный способ считается самым эффективным для сокращения объема данных.

Следующий возможный уровень deduplication – это уровень файлов. В этом случае происходит сравнение позднего файла с более ранним. В том случае, если обнаруживается уникальная информация, то она сохраняется. Если же новый файл дублирует предыдущий, то отображается только ссылка на исходные сведения.

То есть по сути записывается изначальный файл, а все последующие копии имеют указатель на информацию. Реализовать такой вариант дедупликации достаточно просто. Как правило, не происходит снижения производительности сервера во время обработки данных. Однако эффективность процедуры ниже, чем при использовании блочного подхода.

Третий из возможных способов дедупликации данных – это отдельный процесс на байтовом уровне. По принципу проведения этот вариант схож с методом блоков, но новые и старые файлы сравниваются по байтам. Именно такой подход к data deduplication позволяет полностью избавиться от дубликатов. Но есть и некоторые недостатки: процедура использует серьезные мощности сервера, поэтому к самому устройства предъявляются повышенные требования.

Улучшения работы подсистемы хранения BranchCache

В сценарии “с выделенным сервером” появился дополнительный плюс – теперь для хранения данных BranchCache используется механизм ESE – тот самый MicrosoftJet (который и в DHCP сервере, и в WINS’е, и в ADDS, и даже в Exchange) продвинутой версии. Соответственно, в сценариях, когда сервер обслуживает много клиентов, количество IOPS ощутимо упало, да и всякие полезные задачи типа дефрагментации и организации доступа у ESE получше, чем у просто каталога на диске.

Достаточно интересной и полезной является интеграция с новой файловой подсистемой NT 6.2, в частности – с подсистемой дедупликации данных. В случае, когда BranchCache хранит данные, он “понимает”, что в некоторых файлах есть общие сегменты, и хранит их в единственном экземпляре. Это не нужно отдельно настраивать – достаточно включить дедупликацию на разделе, где хранятся данные BranchCache. Более того, теперь при дедупликации хэши сегментов файлов высчитываются сразу же, поэтому на разделе, где включена дедупликация, BranchCache берёт их уже готовыми, а не считает при первом запросе. От типа контента это не зависит – что передаваемый по HTTP, что по SMB 2.0 и выше, контент сразу хранится с хэшами, и BranchCache это грамотно использует, разгружая CPU от двойной работы.

Теперь файлы разделяются блоки динамически, используя тот же алгоритм, что и во встроенной в Windows Server 2012 дедупликации – Rabin fingerprint. Суть достаточно проста – границы блоков теперь подбираются динамически, исходя из контента, и количество совпадений хэша резко возрастает в отличии от ранней схемы с фиксированным размером блока в 64К. Количество хэшей, соответственно, уменьшается, а эффект от синергии с дедупликацией возрастёт.

Контент, хранящийся в кэше, теперь имеет управляемое время жизни. Это значит, что при указании нужного периода в групповой политике, кэш будет проверятся на факт обновлений с указанной регулярностью. Это делается через такую настройку в разделе BranchCache:

Настройка времени рефреша кэша BranchCache через групповую политику(кликните для увеличения до 700 px на 643 px)Учебный центр Advanced Traininginfo@atraining.ruhttps://www.atraining.ru/

Deduplication with Windows Server 2012 (R2)

Now that you have a little bit of background on the different methods of data deduplication, it would be good to know what Microsoft implemented in Server 2012 (R2) for their data deduplication. The data deduplication that was implemented by Microsoft uses post-process, source, and chunk/variable block based methods. This means that the data has to reside on the machine that is doing the data deduplication first before reducing the size and that the chunking method will get you the best results. With that it means that there will be less CPU/memory resources used as all the data will be there before deduplication happens, but it also means you need to have enough space to hold all of the data in its original form. That last part is particularly important when you utilize a Server 2012 (R2) machine as the storage target for backup. Since you need to make sure that that backup storage target has enough space to handle the data from your backup before it is deduplicated.

Алгоритмы сжатия без потерь

Есть два основных варианта: алгоритм Хаффмана или LZW. LZW используется повсеместно, но объяснить его довольно сложно, он неинтуитивный и требует целой лекции. Гораздо приятнее объяснить алгоритм Хаффмана.

Алгоритм Хаффмана берёт файл, разбивает его на фрагменты, с которыми ему удобно работать, а потом смотрит, насколько часто встречается каждый фрагмент. Самые частые слова этот алгоритм обозначает коротким кодом, а самые редкие — кодом подлиннее. Так как самые частые слова занимают теперь гораздо меньше места, то и готовый файл становится меньше.

Но есть и минус: иногда нужно хранить эту таблицу соответствий слов и кода прямо в этом же файле, а она может сама по себе получиться большой. Чаще всего алгоритм Хаффмана применяется для сжатия текстовых файлов и видео без потерь.

Вот пример: берём песню Beyonce — All The Single Ladies. Там есть два таких пассажа:

All the single ladies

All the single ladies

All the single ladies

Now put your hands up

If you like it then you shoulda put a ring on it

If you like it then you shoulda put a ring on it

Don’t be mad once you see that he want it

If you like it then you shoulda put a ring on it

Здесь 281 знак. Мы видим, что некоторые строчки повторяются. Закодируем их:

ТАБЛИЦА СЖАТИЯ

\a\ All the single ladies

\b\ Now put your hands up

\c\ If you like it then you shoulda put a ring on it

\d\ Don’t be mad once you see that he want it

ТЕКСТ ПЕСНИ

\a\ \a\ \a\ \b\

\c\ \c\ \d\ \c\

Вместе таблицей сжатия этот текст теперь занимает 187 знаков — мы сжали текст почти на треть благодаря тому, что он довольно монотонный.

Новые возможности дедупликации данных в Windows Server 2016

Многопоточность

Первое и самое важное изменение в дедупликации данных в Windows Server 2016 — введение многопоточности. Дедупликация в Windows Server 2012 R2 работала только в однопоточном режиме и не могла использовать более одного процессорного ядра для одного тома

Это сильно ограничивало производительность, и для обхода этого ограничения необходимо было разбивать диски на несколько томов меньшего размера. Максимальный размер тома не должен превышать 10 Тб.Обновленный движок дудупликации в Windows Server 2016 выполнять задания дедупликации в многопоточном режиме, причем каждый том использует несколько вычислительных потоков и очередей ввода-вывода. Введение многопоточности и других изменений в компоненте сказалось на ограничениях на размер файлов и томов. Поскольку многопоточная дедупликация повышает производительность и устраняет необходимость разбиения диска на несколько томов в Windows Server 2016, вы можете использовать дедупликацию для тома до 64 ТБ. Также увеличен максимальный размер файла, теперь поддерживается дедупликация файлов до 1 Тб.

Поддержка виртуализированных приложений резервного копирования. В Windows Server 2012 был только один тип дедупликации, предназначенный в основном для обычных файловых серверов. Дедупликация непрерывно работающей ВМ не поддерживается, поскольку дедупликации не знает, как работать с открытыми файлами.Дедупликация в Windows Server 2012 R2 начала использовать VSS, соответственно, стала поддерживаться дедупликация виртуальных машин. Для таких задач использовался отдельный тип дедупликации.В Windows Server 2016 добавлен еще третий тип дедупликации, предназначенный специально для виртуализированных серверов резервного копирования (например, DPM).

Поддержка Nano Server. Nano Server – эта технология позволяет развертывать операционную систему Windows Server 2016 с минимальным количеством установленных компонентов. Nano Server полностью поддерживает дедупликацию.

Поддержка последовательного обновления кластера (Cluster OS Rolling Upgrade). Cluster OS Rolling Upgrade – это новая функция Windows Server 2016, которая может использоваться для обновления операционной системы на каждом узле кластера с Windows Server 2012 R2 до Windows Server 2016 без остановки кластера. Это возможно благодаря специальной смешанной работе кластера, когда узлы кластера одновременно могут работать под управлением Windows Server 2012 R2 и Windows Server 2016.Смешанный режим означает, что одни и те же данные могут быть расположены на узлах с разными версиями компонента дедупликации. Дедупликация в Windows Server 2016 поддерживает этот режим и обеспечивает доступ к дедуплицированным данным в процессе обновления кластера.

Сжатие изображений с потерями

Сжатие изображений с потерями напрямую связано с качеством визуализации. Как правило, этот процесс в высшей степени субъективен. Обычно его решают 5-6-ю экспертами по 4-6 балльным шкалам. Это так называемый ROC анализ, который приемлем для оценки изображений общей визуализации. Интересно отметить, что улучшение качества изображения, например с применением контурной подрезки, воспринимается ROC экспертами как нежелательное, т.е. не соответствующее оригиналу. Можно привести примеры автоматической оценки качества образа изображения по метрикам ошибок, например по наиболее массово применяемому методу PSNR (пиковое отношение сигнал/шум) или SQNR (сигнал\шум квантования). Однако эти метрики чисто синтаксические. Например, они бессильны перед муаром или другими площадными артефактами. Для простоты восприятия укажем на разницу между реально падающим снегом и снегоподобными шумам, которые возникают на мониторе при наличии внешних (грозовые разряды, электромагнитный резонанс, плохо отсканированное изображение и т.п.) воздействий. Просто в этих метриках отсутствует семантика.

Здесь и далее приведено сравнение по объему V хранения: для полутонового изображения ( рис.8.1a- яркостная составляющая Y для рис.8,) или: рис.8.1a – оригинал, V = 64 Кб; рис.8.1b – предельное (по FAS-технологии) сжатие для распознавания с точки зрения процессора V = 0.76 Кб; рис.8.1c – продукт визуализации рис.8.1b, т. е. размер рис.8.1c также равен 0.76 Kб. На рис.8.1d – предельное сжатие по .jpg, его объём V = 2,38 Кб. Назовем представления типа рис.8.1b канальными образами.

Преимущества

Хранилище дедупликация данных уменьшает объем хранилища, необходимый для данного набора файлов. Он наиболее эффективен в приложениях, где на одном диске хранится много копий очень похожих или даже идентичных данных — удивительно распространенный сценарий. В случае резервного копирования данных, которое обычно выполняется для защиты от потери данных, большая часть данных в данной резервной копии остается неизменной по сравнению с предыдущей резервной копией. Обычные системы резервного копирования пытаются использовать это, опуская (или жестко связывая ) файлы, которые не изменились, или сохраняя различия между файлами. Однако ни один из подходов не учитывает всех избыточностей. Жесткое связывание не помогает с большими файлами, которые изменились лишь незначительно, например, с базой данных электронной почты; различия обнаруживают дублирование только в соседних версиях одного файла (рассмотрим раздел, который был удален, а затем снова добавлен, или изображение логотипа, включенное во многие документы). Оперативная дедупликация сетевых данных используется для уменьшения количества байтов, которые должны быть переданы между конечными точками, что может уменьшить требуемую полосу пропускания. См. Оптимизация WAN для получения дополнительной информации. Виртуальные серверы и виртуальные рабочие столы выигрывают от дедупликации, поскольку она позволяет объединить номинально отдельные системные файлы для каждой виртуальной машины в единое пространство хранения. В то же время, если данная виртуальная машина настраивает файл, дедупликация не изменит файлы на других виртуальных машинах — чего нет в таких альтернативах, как жесткие ссылки или общие диски. Аналогичным образом улучшено резервное копирование или создание дубликатов виртуальных сред.

Deduplication with Windows Server 2012 (R2)

Now that you have a little bit of background on the different methods of data deduplication, it would be good to know what Microsoft implemented in Server 2012 (R2) for their data deduplication. The data deduplication that was implemented by Microsoft uses post-process, source, and chunk/variable block based methods. This means that the data has to reside on the machine that is doing the data deduplication first before reducing the size and that the chunking method will get you the best results. With that it means that there will be less CPU/memory resources used as all the data will be there before deduplication happens, but it also means you need to have enough space to hold all of the data in its original form. That last part is particularly important when you utilize a Server 2012 (R2) machine as the storage target for backup. Since you need to make sure that that backup storage target has enough space to handle the data from your backup before it is deduplicated.

Является ли дедупликация общераспространенной технологией?

Дедупликация окончательно перешла из категории экспериментальных в категорию общераспространенных технологий. По словам аналитиков, сегодня на западе более 30% ИТ-подразделений применяют ее, по край-ней мере, к части своих данных. Сейчас на рынке предлагаются продукты и решения, имеющие за собой уже пару поколений, которые уже оптимизированы для упрощенной установки, без нарушения работы других приложений.

Тем не менее, это не означает, что все решения у различных производителей одинаковы. Большинство по-ставщиков технологий дедупликации проходят этап накопления технического опыта, поэтому желательно при оценке решений узнавать уровень квалификации компании, требовать рекомендации и узнавать о тех-нической поддержке.

Стратегия 4: достижение золотого мастер-рекорда за счет обогащения данных

После того, как вы определили список совпадений, которые существуют в вашей базе данных, крайне важно проанализировать эту информацию, прежде чем можно будет принять решение об объединении или очистке данных. Если для одного объекта существует несколько записей, а некоторые из них представляют неточную информацию, то лучше удалить эти записи

С другой стороны, если дубликаты неполные, то объединение данных — лучший выбор, поскольку оно позволит обогащать данные, а объединенные записи могут повысить ценность вашего бизнеса. 

В любом случае маркетологи должны работать над достижением единого представления о своей маркетинговой информации, которое называется золотой мастер-рекорд.

Тяни за ярлык:

about windows 7;ca and outlook;dns and ca;english togetherESX или ESXi?;Exchange 2010exchange 2019forest exchangeinfo about firewalls 2009install DHCP в win2008linux and unix serversms project;Office2010;Outlook and RPC/HTTP;PGP;public_mail on isa2004;RPC/HTTP-прокси на Exchange;setup exchange 2007;setup exchange 2010;setup isa2004;SMTP на Exchange;symantec and exchange;trendmicroUpgrade Esxi 3.5 до Esxi 4.0;vmware 6.7VMWare Vsphere 4;win 2008windows 8windows 2016Ваш первый Exchange;Корпоративный файл-сервер;Мое первое знакомство с VMWare;Настройка IIS 6.0;Настройка коннектора;Ручная установка Win 2008Установка DC;Установка Exchange 2003 sp2как я отдыхал…синематограф

Принцип работы

Например, типичная система электронной почты может содержать 100 экземпляров одного и того же файлового вложения размером 1 МБ ( мегабайт ). Каждый раз при резервном копировании платформы электронной почты все 100 экземпляров вложения сохраняются, для чего требуется 100 МБ дискового пространства. При дедупликации данных фактически сохраняется только один экземпляр вложения; последующие экземпляры ссылаются на сохраненную копию для коэффициента дедупликации примерно 100: 1. Дедупликация часто сочетается со сжатием данных для дополнительной экономии хранилища: дедупликация сначала используется для удаления больших фрагментов повторяющихся данных, а затем используется сжатие для эффективного кодировать каждый из сохраненных фрагментов.

В компьютерном коде дедупликация выполняется, например, путем хранения информации в переменных, чтобы их не нужно было записывать по отдельности, а можно было изменить все сразу в центральном указанном месте. Примерами являются классы CSS и в MediaWiki .

What’s Data Deduplication in Windows Server 2016?

Files, which are stored to a disk volume and left there for several days (to ensure it’s not fast-changing data), can be checked by a special process, splitting this data into small blocks, named chunks (32 KB – 128 KB) and then analyzed chunk by chunk. The system preserves unique blocks only, moving them into a chunk store and leaving references (reparse points) for those blocks that are used more than once. This allows you to have valuable storage savings if the said data is similar. The most important use cases include: Hyper-V VDI environment, backup storages and file servers. A Data Deduplication process runs one of four different task types: Optimization (splitting data into chunks and moving them into the chunk store), garbage collection (reclaiming space by removing obsolete chunks), integrity scrubbing (detecting corruption in the chunk store) or unoptimization (undoing optimization and disabling data deduplication on this volume).

Please refer to the Microsoft knowledge base for more details about Data Deduplication basics.

Изменение требований к операционной системе

В предыдущем варианте BranchCache ограничивалась так: для рабочих станций – только Windows 7 Enterprise или Ultimate (самая распространённая Windows 7 Professional данную технологию, увы, не поддерживала). Для серверов тоже были ограничения – в случае Windows Server Core 2008 R2 Standard роль “выделенного кэширующего сервера BranchCache” отсутствовала. Теперь ситуация проще – технология есть на Windows 8 Enterprise и на всех серверах линейки Windows Server 2012, поэтому её (саму Feature) имеет смысл поставить в базовый образ сервера. Отличный плюс.

Серьёзным минусом же, по моей точке зрения, является упорное желание Microsoft отодвигать BranchCache (да и тот же DirectAccess) в Enterprise-версию, переход на которую с обычной Professional требует переустановки. Незначительное повышение цены делает Enterprise-версию экзотичной, т.к. её не ставят OEM’ы, в результате данные технологии изначально обречены на крайне малую задействованность.

Понравилась статья? Поделиться с друзьями:
Быть в курсе нового
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: