однако на их счет все же можно высказать некоторые соображения:
1. Ключ должен являться массивом статистически независимых битов,
принимающих с равной вероятностью значения 0 и 1. При этом некоторые
конкретные значения ключа могут оказаться "слабыми", то есть шифр может не
обеспечивать заданный уровень стойкости в случае их использования. Однако,
предположительно, доля таких значений в общей массе всех возможных ключей
ничтожно мала. Поэтому ключи, выработанные с помощью некоторого датчика
истинно случайных чисел, будут качественными с вероятностью, отличающейся от
единицы на ничтожно малую величину. Если же ключи вырабатываются с помощью
генератора псевдослучайных чисел, то используемый генератор должен
обеспечивать указанные выше статистические характеристики, и, кроме того,
обладать высокой криптостойкостью, не меньшей, чем у самого ГОСТа. Иными
словами, задача определения отсутствующих членов вырабатываемой генератором
последовательности элементов не должна быть проще, чем задача вскрытия шифра.
Кроме того, для отбраковки ключей с плохими статистическими характеристиками
могут быть использованы различные статистические критерии. На практике обычно
хватает двух критериев, – для проверки равновероятного распределения битов
ключа между значениями 0 и 1 обычно используется критерий Пирсона ("хи
квадрат"), а для проверки независимости битов ключа – критерий серий. Об
упомянутых критериях можно прочитать в учебниках или справочниках по
математической статистике.
2. Таблица замен является долговременным ключевым элементом, то есть
действует в течение гораздо более длительного срока, чем отдельный ключ.
Предполагается, что она является общей для всех узлов шифрования в рамках
одной системы криптографической защиты. Даже при нарушении конфиденциальности
таблицы замен стойкость шифра остается чрезвычайно высокой и не снижается ниже
допустимого предела. К качеству отдельных узлов замен можно предъявить
приведенное ниже требование. Каждый узел замен может быть описан четверкой
логических функций, каждая из которых имеет четыре логических аргумента.
Необходимо, чтобы эти функции были достаточно сложными. Это требование
сложности невозможно выразить формально, однако в качестве необходимого
условия можно потребовать, чтобы соответствующие логические функции,
записанные в минимальной форме (т.е. с минимально возможной длиной выражения)
с использованием основных логических операций, не были короче некоторого
необходимого минимума. В первом и очень грубом приближении это условие может
сойти и за достаточное. Кроме того, отдельные функции в пределах всей таблицы
замен должны отличаться друг от друга в достаточной степени. На практике
бывает достаточно получить узлы замен как независимые случайные перестановки
чисел от 0 до 15, это может быть практически реализовано, например, с помощью
перемешивания колоды из шестнадцати карт, за каждой из которых закреплено одно
из значений указанного диапазона.
Необходимо отметить еще один интересный факт относительно таблицы замен. Для
обратимости циклов шифрования 32–З и 32–Р не требуется, чтобы узлы замен были
перестановками чисел от 0 до 15. Все работает даже в том случае, если в узле
замен есть повторяющиеся элементы, и замена, определяемая таким узлом,
необратима, однако в этом случае снижается стойкость шифра. Почему это именно
так, не рассматривается в настоящей статье, однако в самом факте убедиться
несложно. Для этого достаточно, используя демонстрационную программу
шифрования файлов данных, прилагающуюся к настоящей статье, зашифровать а
затем расшифровать файл данных, использовав для этой процедуры "неполноценную"
таблицу замен, узлы которой содержат повторяющиеся значения.
Если вы разрабатываете программы, использующие криптографические алгоритмы,
вам необходимо позаботиться об утилитах, вырабатывающих ключевую информацию, а
для таких утилит необходим источник случайных чисел (СЧ) высокого
статистического качества и криптостойкости. Наилучшим подходом здесь было бы
использование аппаратных датчиков СЧ, однако это не всегда приемлемо по
экономическим соображениям. В качестве разумной альтернативы возможно (и очень
широко распространено) использование различных программных датчиков СЧ. При
генерации небольшого по объему массива ключевой информации широко применяется
метод "электронной рулетки", когда очередная получаемая с такогодатчика порция
случайных битов зависит от момента времени нажатия оператором некоторой
клавиши на клавиатуре компьютера.
Этот подход использован в программе генерации одного ключа, исходный текст
которой на языке Си с ассемблерными вкраплениями прилагается к настоящей
статье в файле make1key.c. Для выработки случайных чисел из заданного
диапазона используется канал 2 системного таймера, информация считывается с
него при нажатии оператором какой-либо клавиши на клавиатуре дисплея. За одно
нажатие генерируется один байт ключа и на экран выводится точка. Чтобы было
невозможно генерировать байты ключа удержанием клавиши в нажатом состоянии,
между циклами генерации введена временная задержка и в начале каждого цикла
проверяется, было ли во время паузы нажатие клавиши. Если таковое имело место,
выдается звуковой сигнал и нажатие игнорируется. Программу целесообразно
запускать только из "голого" DOSа, в DOS-сеансе Windows 3.x/95 она также
работает, но нет уверенности в обеспечении нужных статистических
характеристик, а под Windows NT программа по вполне понятным причинам (лезет
напрямую в порты) вообще не работает корректно.
В реализации алгоритмов были использованы изложенные ниже подходы, позволившие
достигнуть максимальной производительности. Первые два из них достаточно
очевидны, настолько, что встречаются практически в каждой реализации ГОСТа.
Базовые циклы ГОСТа содержат вложенные циклы (звучит коряво, но по-другому
не скажешь), причем во внутреннем цикле порядок использования восьми
32-битных элементов ключа может быть прямой или обратный. Существенно
упростить реализацию и повысить эффективность базовых циклов можно, если
избежать использования вложенных циклов и просматривать последовательность
элементов ключа только один раз. Для этого необходимо предварительно
сформировать последовательность элементов ключа в том порядке, в котором они
используются в соответствующем базовом цикле.
В основном шаге криптопреобразования 8 раз выполняется подстановка 4-битных
групп данных. Целевой процессор реализации не имеет команды замены 4-битных
групп, однако имеет удобную команду байтовой замены (xlat). Ее использование
дает следующие выгоды:
за одну команду выполняются сразу две замены;
исчезает необходимость выделять полубайты из двойных слов для выполнения
замены, а затем из 4-битовых результатов замен вновь формировать двойное
слово.
достигается значительное увеличение быстродействия кода, однако мир устроен
так, что за все приходится платить, и в данном случае платой является
необходимость преобразования таблицы замен. Каждая из четырех пар 4-разрядных
узлов замен заменяется одним 8-разрядным узлом, который, говоря языком
математики, представляет собой прямое произведение узлов, входящих в пару.
Пара 4-разрядных узлов требует для своего представления 16 байтов, один
8-разрядный – 256 байтов. Таким образом, размер таблицы замен, которая должна
храниться в памяти компьютера, увеличивается до 4·256=1024 байтов, или до
одного килобайта. Конечно, такая плата за существенное увеличение
эффективности реализации вполне приемлема.
После выполнения подстановок кода по таблице замен основной шаг
криптопреобразования предполагает циклический сдвиг двойного слова влево на 11
бит. В силу 16-разрядной архитектуры рассматриваемых процессоров вращение
32-разрядного блока даже на 1 бит невозможно реализовать менее, чем за три
ассемблерные команды, а вращение на большее число разрядов только как
последовательность отдельных вращений на 1 разряд. К счастью, вращение на 11
бит влево можно представить как вращение на 8 бит, а затем еще на 3 бита
влево. Думаю, для всех очевидно, что первое вращение реализуется тремя
командами обмена байтовых регистров (xchg). Но секрет третьей оптимизации даже
не в этом. Замена одного байта по таблице замен осуществляется командой xlat,
которая выполняет операцию над аргументом в регистре AL, для того, чтобы
заменить все байты двойного слова, их надо последовательно помещать в этот
регистр. Секрет третьей оптимизации заключается в том, что эти перестановки
можно организовать так, что в результате двойное слово окажется повернутым на
8 бит влево, то есть в совмещении замены по таблице и во вращении на байт
влево. Еще один момент, на который стоит обратить внимание, это оптимальное
кодирование трех последовательных вращений на 1 бит, это может быть
реализовано по-разному и важно было выбрать оптимальный способ, который
оказался вовсе не очевидным, поскольку потребовал выхода за пределы логики
битовых сдвигов и использования команды суммирования с битами переноса (adc),
то есть бит помещается на свою позицию не командой сдвига, а командой
суммирования!
Описание функций и особенности реализации.
С учетом изложенных выше принципов созданы две реализации ГОСТа для
процессоров семейства Intel x86, близкие по быстродействию к возможному
оптимуму – соответственно для 16-и и 32-х битовых процессоров. Код для