Теперь рассмотрим, как отладчик должен интерпретировать символьную информацию, и какие возможности должны в связи с этим предоставляться пользователю.
Отслеживание выполнения программы по её исходному тексту
В общемслучае, одна строка исходного текста преобразуется компилятором в несколько машинных команд. Даже ассемблерная программа почти всегда содержит макросы, разворачивающиеся при трансляции в несколько инструкций процессора. Отлаживать такую программу по дизассемблеру её кода неудобно, поэтому компиляторы вставляют в отладочную информацию таблицу номеров строк. Она содержит информацию о соответствии номеров строк исходного текста и имён файлов исходного текста абсолютным адресам кода программы. Отладчик отображает на экране исходный текст программы и, следуя этой таблице, может выполнять программу «по строкам», выполняя за один шаг все машинные команды, сгенерированные компилятором для текущей строки.
Таблица номеров строк также позволяет производить контекстные действия с текстом программы, например, выполнять её «до курсора», то есть до указанного пользователем места в исходном тексте, ставить точки останова на указанные строки и т.п. Контекстные действий удобны тем, что разработчику не нужно знать адреса, соответствующие строкам исходного текста: отладчик сам определит их по таблице. Отладчик должен «знать» адреса подпрограмм, функций и меток кода и уметь находить исходный текст функции по её имени.
Отображение данных, используемых в отлаживаемой программе
Для полноценной отладки разработчику необходимо иметь возможность в любой момент просмотреть данные, которыми манипулирует программа. Отладчик должен «уметь» отображать любые используемые программой данные в наиболее подходящем виде.
Как правило, разработчики используют в программах именованные данные, то есть каждому объекту, который используется в программе, присваивается имя. Объекты могут быть разной сложности – от простых ячеек памяти до сложных конструкций языков высокого уровня типа структур, массивов и т.п.
Данные в ассемблерных программах
В ассемблерных программах используются в основном простые данные, то есть ячейки памяти. Применяются также массивы. Для правильного отображения простых данных отладчику нужно «знать»:
- имя объекта;
- адрес объекта в памяти;
- адресное пространство МК, в котором располагается объект. Многие МК имеют более одной области данных. Например, в МК семейства MCS-51 есть внутренняя память данных, внешняя память данных и битовое пространство;
- разрядность объекта, то есть занимаемое им число байт. 16-битные МК, такие как представители семейства MCS-96. «умеют» оперировать 8-, 16-, 32-битными данными. Здесь необходимо отметить один существенный момент. Для разработчика важно, какой логический размер имеет объект. Например, восьмиразрядные МК семейства PIC (Microchip) оперируют только байтами. Если же необходимо иметь в программе, например, 16-битный счётчик, то манипулировать каждым байтом приходится в отдельности. Но программисту при отладке хотелось бы видеть не каждый байт счётчика в отдельности, а оба байта сразу, в виде 16-битной переменной. Популярные кросс-ассемблеры такой возможности не предоставляют. Исключение – кросс-ассемблер PASM-PIC фирмы «Фитон», который позволяет объявлять в программе данные размером байт, слово, двойное слово, а также массивы таких объектов. При отладке программ, написанных с помощью PASM-PIC, все объекты отображаются в виде, соответствующем их логическому размеру и структуре;
- область видимости объекта. Если программа состоит из нескольких модулей, у программиста есть возможность локализовать область видимости имени в пределах одного модуля. Таким образом, в разных модулях могут существовать объекты с одинаковыми именами, но разными остальными атрибутами. Отладчик должен «разбираться», когда какой объект активен, и правильно отображать его. Заметим, однако, что практика использования одинаковых имён в разных модулях часто приводит к путанице и ошибкам. В случае если объект объявлен глобальным (PUBLIC) и виден во всех модулях, трудностей с интерпретацией не возникает.
Обладая вышеизложенной информацией, отладчик должен, получив от пользователя имя объекта, отобразить его значение в соответствии с типом. Наиболее «продвинутые» отладчики дополнительно могут отображать остальные атрибуты объекта.
Данные в программах на языках высокого уровня
Отображать объекты, применяемые в языках высокого уровня, значительно сложнее ввиду разнообразия структуры объектов, способов их размещения в памяти и областей видимости. Для примеров будем использовать язык Си, как наиболее популярный у разработчиков.
Помимо простых переменных разной разрядности, в программах на Си используются также переменные с плавающей запятой, структуры (struct), объединения или союзы (union), указатели, одномерные и многомерные массивы. Последние могут состоять как из простых объектов, так и из сложных (структур, союзов, указателей).
Использование сложных объектов в программах, безусловно, удобно. Однако ввиду сложности их структуры крайне желательно иметь возможность её адекватного отображения на этапе отладки. В отладчиках фирмы «Фитон» сложные объекты могут отображаться как в сжатом (список значений элементов), так и в развёрнутом виде с указанием адреса, значения и типа каждого элемента массива и / или члена структуры. Реализация указателей в разных компиляторах различна. То, что МК обычно имеет несколько адресных пространств, создает дополнительные трудности, так как при работе с указателем должно быть известно, помимо адреса, и адресное пространство, куда указывает указатель. В некоторых реализациях идентификатор адресного пространства является составной частью значения указателя, в других компилятор заранее «знает» это и генерирует соответствующий код.
Кроме этого, компонент адреса в указателе может быть размером от 8 до 32 бит. При отображении значений указателей отладчик должен «знать» все детали их реализации в каждом компиляторе.
Способы размещения объектов в памяти
Помимо статических объектов, адреса которых не изменяются за время выполнения программы, в программе, написанной на языке высокого уровня, могут существовать так называемые автоматические объекты, память под которые временно отводится в стеке МК. Адреса таких объектов не абсолютны, а определяются динамически на этапе выполнения программы. Обычно они отсчитываются от текущего значения некоторой статической переменной, называемой указателем фрейма стека (BasePointer или BP). Так как значение BP формируется программой динамически на этапе выполнения, значения автоматических объектов доступны только в пределах их области видимости, то есть при правильном значении BP. Отладчик при отображении значений автоматических объектов должен «знать» способ, которым определяются адреса, а также отслеживать правильность значения BP.
Возможно также временное размещение переменных в регистрах МК. В этом случае отладчик должен «знать», какие переменные в каких регистрах размещены и в течение какого времени. И, наконец, часто встречается ситуация, когда один и тот же объект за время своей жизни меняет способ размещения в памяти, причём не один раз. Это может происходить, например, когда функция получает один или несколько параметров в регистрах, а затем перемещает их в стек.
Область видимости объекта
Как и в ассемблерных, в программах на Си существуют глобальные объекты, доступные по имени из любого модуля, и объекты, локализованные в модуле (эти объекты объявляются как static). Однако автоматические и регистровые переменные создают отладчикам дополнительные трудности при отображении их значений. Дело в том, что, во-первых, время жизни автоматического объекта ограничено его областью видимости, а во-вторых, охватывающие области видимости могут иметь свои автоматические объекты с теми же именами. Проиллюстрируем это на примере функции, имеющей несколько вложенных областей видимости:
void f (intа)
{
long b;
if (a == 0) a++;
for (b = a * 2; b < 100; b++)
{
longс;
long a = b / 3;
if (a == 0) a++;
for (c = a; с < 10; c++)
{
char a =с == 9?1: 0;
fl(a);
}
f2 (a);
}
f3 (a);
}
Переменная с именем «а» существует всё время, пока выполняется функция f, но в зависимости от того, какая часть функции выполняется, имя «а» обозначает разные переменные. При трассировке функции f отладчик должен в зависимости от того, какая переменная активна, правильно показывать её значение.
Создавая программу, разработчик не заботится о деталях реализации понятий, которые он использовал в программе. Оперируя «само собой разумеющимися» категориями, он зачастую не подозревает, как сложно было реализовать их разработчикам компиляторов и отладчиков. Последним приходится решать задачи совмещения в одной оболочке одновременно простого и интуитивного интерфейса, богатства функциональных возможностей и детальной проработки всего, что связано с реализацией особенностей архитектуры и функционирования конкретного МК. Если отладчик не предоставляет разработчику средств отладки, адекватных сложности решаемой задачи, то разработчик неизбежно теряет в производительности. Кому из нас не приходилось тратить часы и дни в поисках досадной ошибки или опечатки в исходном тексте?!