2. Структура и выполнение EXE-файла.
EXE-модуль, созданный компоновщиком, состоит из следующих двух частей: 1) заголовок - запись, содержащая информацию по управлению и настройке программы и 2) собственно загрузочный модуль.
В заголовке находится информация о размере выполняемого модуля, области загрузки в памяти, адресе стека и относительных смещениях, которые должны заполнить машинные адреса в соответствии с относительными шестнадцатеричными позициями. Для EXE-файла все несколько сложнее чем COM-файл. Общеизвестно что EXE файл отличается от COM файла тем что состоит из двух частей - заголовка, содержащего управляющую информацию для загрузки и самого загружаемого модуля - программы. Программа загружается в память, затем производится настройка адресов в соответствии с ТHА, потом из заголовка берутся значения SS:SP и CS:IP. В ES и DS заносится сегментный адрес PSP. Рассмотрим структуру заголовка EXE файла:
ТАБЛИЦА EXE – ФАЙЛА
Смещение относительно начала(hex) | Содержание | Комментарий |
00-01 | 4D5A - подпись компоновщика (признак EXE файла) | Компоновщик устанавливает этот код для идентификации правильного EXE-файла |
02-03 | Длина последнего блока | Число байтов в последнем блоке EXE-файла |
04-05 | Длина файла в блоках по 512 байт | Число 512 байтовых блоков EXE-файла, включая заголовок |
06-07 | Количество элементов таблицы настройки адресов (Relocation table) | Число настраиваемых элементов |
08-09 | Длина заголовка в параграфах | Число 16-тибайтовых блоков (параграфов) в заголовке, (необходимо для локализации начала выполняемого модуля, следующего после заголовка) |
0A-0B | Минимальный объем памяти который надо выделить после конца программы ( в параграфах) | Минимальное число параграфов, которые должны находится после загруженной программы |
0C-0D | Максимальный объем памяти... | Переключатель загрузки в младшие или старшие адреса. При компоновке программист должен решить, должна ли его программа загружаться для выполнения в младшие адреса памяти или в старшие. Обычным является загрузка в младшие адреса. Значение шест.0000 указывает на загрузку в старшие адреса, а шест. FFFF - в младшие. Иные значения определяют максимальное число параграфов, которые должны находиться после загруженной программы |
0E-0F | Сегментный адрес стека относительно начала программы (SS) | Относительный адрес сегмента стека в выполняемом модуле |
10-11 | Значение SP при запуске | Адрес, который загрузчик должен поместить в регистр SP перед передачей управления в выполнимый модуль |
12-13 | Контрольная сумма - результат сложения без переноса всех слов файла | Контрольная сумма - сумма всех слов в файле (без учета переполнений) используется для проверки потери данных |
14-15 | Значение IP | Относительный адрес, который загрузчик должен поместить в регистр IP до передачи управления в выполняемый модуль |
16-17 | Значение CS | Относительный адрес кодового сегмента в выполняемом модуле. Этот адрес загрузчик заносит в регистр CS |
18-19 | Адрес первого элемента ТHА | Смещение первого настраиваемого элемента в файле. |
1A-1B | Номер сегмента перекрытия | Номер оверлейного фрагмента: нуль обозначает, что заго ловок относится к резидентной части EXE-файла |
1С | Номер сегмента перекрытия | Таблица настройки, содержащая переменное число настраиваемых элементов, соответствующее значению по смещению 06 |
Заголовок имеет минимальный размер 512 байтов и может быть больше, если программа содержит большое число настраиваемых элементов. Позиция 06 в заголовке указывает число элементов в выполняемом модуле, нуждающихся в настройке. Каждый элемент настройки в таблице, начинающейся в позиции 1C заголовка, состоит из двухбайтовых величин смещений и двухбайтовых сегментных значений.
Система строит префикс программного сегмента следом за резидентной частью COMMAND.COM (DOS), которая выполняет операцию загрузки. Затем COMMAND.COM выполняет следующие действия:
- Считывает форматированную часть заголовка в память.
- Вычисляет размер выполнимого модуля (общий размер файла в позиции 04 минус размер заголовка в позиции 08) и загружает модуль в память с начала сегмента.
- Считывает элементы таблицы настройки в рабочую область
и прибавляет значения каждого элемента таблицы к началу
сегмента (позиция OE).
- Устанавливает в регистрах SS и SP значения из заголовка
и прибавляет адрес начала сегмента.
- Устанавливает в регистрах DS и ES сегментный адрес
префикса программного сегмента.
- Устанавливает в регистре CS адрес PSP и прибавляет вели
чину смещения в заголовке (позиция 16) к регистру CS.
Если сегмент кода непосредственно следует за PSP, то смещение в заголовке равно 256 (шест.100). Регистровая пара CS:IP содержит стартовый адрес в кодовом сегменте, т.е. начальный адрес программы.
После инициализации регистры CS и SS содержат правильные адреса, а регистр DS (и ES) должны быть установлены в программе для их собственных сегментов данных:
1. PUSH DS ;Занести адрес PSP в стек
2. SUB AX,AX ;Занести нулевое значение в стек
3. PUSH AX ; для обеспечения выхода из программы
4. MOV AX,datasegname ;Установка в регистре DX
5. MOV DS,AX ; адреса сегмента данных
При завершении программы команда RET заносит в регистр IP нулевое значение, которое было помещено в стек в начале выполнения программы. В регистровой паре CS:IP в этом случае получается адрес, который является адресом первого байта PSP, где расположена команда INT 20H. Когда эта команда будет выполнена, управление перейдет в DOS.
ПРИМЕР EXE-ПРОГРАММЫ
Рассмотрим следующую таблицу компоновки (MAP) | программы: |
Start Stop Length Name 00000H 0003AH 003BH CSEG 00040H 0005AH 001BH DSEG 00060H 0007FH 0020H STACK Program entry point at 0000:0000 | Class CODE DATA STACK |
Таблица MAP содержит относительные (не действительные) адреса каждого из трех сегментов. Символ H после каждого значения указывает на шестнадцатеричный формат. Заметим, что компоновщик может организовать эти сегменты в последовательности отличного от того, как они были закодированы в программе.
В соответствии с таблицей MAP кодовый сегмент CSEG находится по адресу 00000 - этот относительный адрес является началом выполняемого модуля. Длина кодового сегмента составляет шест.003B байтов. Следующий сегмент по имени DSEG начинается по адресу шест.00040 и имеет длину шест.001B. Адрес шест.00040 является первым после CSEG адресом, выровненным на границу параграфа (т.е. это значение кратно шест.10). Последний сегмент, STACK, начинается по адресу шест.00060 - первому после DSEG, адресу выровненному на границу параграфа.
С помощью отладчика DEBUG нельзя проверить содержимое заголовка, так как при загрузке программы для выполнения DOS замещает заголовок префиксом программного сегмента. Однако, на рынке программного обеспечения имеются различные сервисные утилиты (или можно написать собственную), которые позволяют просматривать содержимое любого дискового сектора в шестнадцатеричном формате. Заголовок для рассматриваемого примера программы содержит следующую информацию (содержимое слов представлено в обратной последовательности байтов).
00 Шест.4D5A.
02 Число байтов в последнем блоке: 5B00.
04 Число 512 байтовых блоков в файле, включая заголовок: 0200 (шест.0002х512=1024).
06 Число элементов в таблице настройки, находящейся после форматированной части заголовка: 0100, т.е. 0001.
08 Число 16 байтовых элементов в заголовке: 2000 (шест.0020=32 и 32х16=512).
0C Загрузка в младшие адреса: шест. FFFF.
0E Относительный адрес стекового сегмента: 6000 или шест.
60.
10 Адрес для загрузки в SP: 2000 или шест.20.
14 Смещение для IP: 0000.
16 Смещение для CS: 0000.
18 Смещение для первого настраиваемого элемента: 1E00 или шест.1E.
После загрузки программы под управлением отладчика DEBUG регистры получают следующие значения:
SP = 0020 DS = 138F ES = 138F
SS = 13A5 CS = 139F IP = 0000
Для EXE-модулей загрузчик устанавливает в регистрах DS и ES адрес префикса программного сегмента, помещенного в доступной области памяти, а в регистрах IP, SS и SP - значения из заголовка программы.
Регистр SP
Загрузчик использует шест.20 из заголовка для инициализации указателя стека значением длины стека. В данном примере стек был определен, как 16 DUP (?), т.е. 16 двухбайтовых полей общей длиной 32 (шест.20) байта. Регистр SP указывает на текущую вершину стека.
Регистр CS
В соответствии со значением в регистре DS после загрузки программы, адрес PSP равен шест.138F(0). Так как PSP имеет длину шест.100 байтов, то выполняемый модуль, следующий непосредственно после PSP, находится по адресу шест.138F0+100=139F0. Это значение устанавливается загрузчиком в регистре CS. Таким образом, регистр CS определяет начальный адрес кодовой части программы (CSEG). С помощью команды D CS:0000 в отладчике DEBUG можно просмотреть в режиме дампа машинный код в памяти. Обратим внимание на идентичность дампа и шестнадцатеричной части ассемблерного LST файла кроме операндов, отмеченных символом R.
Регистр SS
Для установки значения в регистре SS загрузчик также использует информацию из заголовка:
Начальный адрес PSP 138F0
Длина PSP 100
Относительный адрес стека 60
Адрес стека 13A50
Регистр DS
Загрузчик использует регистр DS для установки начального адреса PSP. Так как заголовок не содержит стартового адреса, то регистр DS необходимо инициализировать в программе следующим образом: