Delphi World - Лекции по конструированию компиляторов

Delphi World - это проект, являющийся сборником статей и малодокументированных возможностей по программированию в среде Delphi. Здесь вы найдёте работы по следующим категориям: delphi, delfi, borland, bds, дельфи, делфи, дэльфи, дэлфи, programming, example, программирование, исходные коды, code, исходники, source, sources, сорцы, сорсы, soft, programs, программы, and, how, delphiworld, базы данных, графика, игры, интернет, сети, компоненты, классы, мультимедиа, ос, железо, программа, интерфейс, рабочий стол, синтаксис, технологии, файловая система...

Лекции по конструированию компиляторов - Часть 3

Автор: В.А.Серебряков

Для примера 2.3 вначале T={1(a),2(b),3(a)}. Последовательность шагов алгоритма приведена на рис. 2.9. В результате будет построен детерминированный конечный автомат, изображенный на рис. 2.10. Состояния автомата обозначаются как множества позиций, например {1,2,3}, конечное состояние заключено в квадратные скобки [1,2,3,6].

                         a: {1,2,3,4}  T={1(a),2(b),3(a)}

                         b: {1,2,3}       /    /     \
                                       v    v       v
                                      {1,2,3}      {4}

+------------+ +----+    a: {1,2,3,4}  T={1(a),2(b),3(a),4(b)}
|+----+      | |    |    b: {1,2,3,5}     /    /    |    |
||b   |      | |    |                    v    v     v    v
||----+------+-+>Sb |                   {1,2,3}    {4}  {5}
||{pb}|+----+| |----|
|+----+|a   || |    |    a: {1,2,3,4}  T={1(a),2(b),3(a),5(b)}
|      |----++-+>Sa |    b: {1,2,3,6}     /    /    |    |
|      |{pa}|| |    |                    v    v     v    v
|      +----+| |    |                   {1,2,3}    {4}  {6}
+------------+ +----+
                         a: {1,2,3,4}  T={1(a),2(b),3(a),6(#)}
                         b: {1,2,3}       /    /    |
                                         v    v     v
                                        {1,2,3}    {4}

      Рис. 2.8                        Рис. 2.9

         +--------------------b--------------------+
         |           +-----------a--------------+  |
     +-+ |       +-+ | +----a-----+             |  |
     |b| |       |a| | |          |             |  |
     V | V   a   V | V V   b      |       b     |  |
---->{1,2,3}--->{1,2,3,4}----->{1,2,3,5}----->[1,2,3,6]

                        Рис. 2.10

2.4. Построение детерминированного конечного автомата с
       минимальным числом состояний

Рассмотрим теперь алгоритм построения ДКА с минимальным числом состояний, эквивалентного данному ДКА [2].

Алгоритм 2.2. Построение ДКА с минимальным числом состояний.

Шаг 1. Строим начальное разбиение П множества состояний из двух групп: заключительное состояние и остальные S-F.

Шаг 2. Применяем к П следующую процедуру и получаем новое разбиение Пnew (рис. 2.11):

  for каждой группы G в П do
           разбиваем G на подгруппы так, чтобы
           состояния s  и t из G оказались в одной
           группе тогда и только тогда, когда для каждого
           входного символа a состояния s и t имеют
           переходы по a  в состояния из одной и той же
           группы в П;
           заменяем G в Пnew на множество всех
           полученных подгрупп
        end;

             +---+              +-+  +-+
       +-----|s,t|-----+        |s|  |t|
       |     +---+     |        +-+  +-+
       |a             a|         |    |
       |     +---+     |         v    v
       +---->|   |<----+        +-+  +-+
             +---+              | |  | |
                                +-+  +-+
                    Рис. 2.11

Шаг 3. Если Пnew=П, полагаем Пres=П и переходим к шагу 4, иначе повторяем шаг 2 с П:=Пnew.

Шаг 4. Выберем по одному состоянию из каждой группы в разбиении Пres в качестве представителя для этой группы. Представители будут состояниями приведенного ДКА М'. Пусть s - представитель. Предположим, что на входе a в M существует переход из t. Пусть r - представитель группы t. Тогда М' имеет переход из a в r по a. Пусть начальное состояние М' - представитель группы, содержащей начальное состояние s0 исходного M, и пусть заключительные состояния М' - представители в F. Отметим, что каждая группа Пres либо состоит только из состояний из F, либо не имеет состояний из F.

Шаг 5. Если М' имеет мертвое состояние, т.е. состояние d, которое не является допускающим и которое имеет переходы в себя по любому символу, удалим его из М'. Удалим также все состояния, не достижимые из начального.

2.5. Программирование лексических анализаторов

Лексический анализатор, как правило, вызывается как подпрограмма. В результате обращения к ЛА вырабатываются как минимум два результата: тип выбранной лексемы и значение (или указатель на значение) для классов лексем (идентификаторов, чисел, строк и т.д.). Само значение передается, если ЛА не работает с таблицей имен. Если же ЛА сам формирует таблицу имен, то он выдает указатель на имя. Обычно ЛА оформляется как процедура-функция, вырабатывающая тип лексемы и заносящая в некоторую глобальную переменную значение лексемы, если это необходимо. Помимо значения лексемы, эта глобальная переменная может содержать некоторую дополнительную информацию: номер текущей строки, номер символа в строке и другую. Эта информация может использоваться в различных целях, например, для диагностики.

Тело ЛА представляет собой диаграмму переходов соответствующего конечного автомата. Отдельная проблема - анализ ключевых слов. Как правило, ключевые слова - это выделенные идентификаторы. Поэтому возможны два основных способа выделения ключевых слов: либо очередная лексема сначала диагностируется на совпадение с каким-либо ключевым словом и в случае неуспеха делается попытка выделить лексему из какого-либо класса, либо, наоборот, после выборки лексемы идентификатора требуется заглянуть в таблицу ключевых слов на предмет сравнения. Подробнее о механизмах поиска в таблицах будет сказано ниже (гл. 7), здесь отметим только, что поиск ключевых слов может вестись либо в основной таблице имен и в этом случае в нее до начала работы ЛА загружаются ключевые слова, либо в отдельной таблице. При первом способе все ключевые слова непосредственно встраиваются в конечный автомат лексического анализатора, во втором конечный автомат содержит только разбор идентификаторов.

В некоторых языках (например, ПЛ/1 или Фортран) ключевые слова могут использоваться в качестве обычных идентификаторов. В этом случае работа ЛА не может идти независимо от работы синтаксического анализатора. В Фортране возможны, например, следующие строки:

DO 10 I=1,25 и
DO 10 I=1.25

В первом случае строка - это заголовок цикла DO, во втором - оператор присваивания. Поэтому, прежде чем можно будет выделить лексему, лексический анализатор должен заглянуть довольно далеко. Еще сложнее дело в ПЛ/1. Здесь возможны такие операторы:

IF THEN THEN THEN = ELSE; ELSE ELSE = THEN или
DECLARE (ARG1, ARG2, ...., ARGn) ...

и только в зависимости от того, что стоит после ")", можно определить, является ли DECLARE именем подпрограммы или объявлением. Длина такой строки может быть сколь угодно большой и уже невозможно отделить фазу синтаксического анализа от фазы лексического анализа.

Рассмотрим несколько подробнее вопросы программирования ЛА. Основная операция лексического анализатора, на которую уходит большая часть времени его работы, - это взятие очередного символа и проверка на принадлежность его некоторому диапазону. Например, основной цикл при выборке числа в простейшем случае может выглядеть следующим образом:

while (Insym<='9' & Insym>='0') do
 ...
end;

Проверки на принадлежность диапазону сравнениями можно заменить проверками на принадлежность диапазону множества:

while (Insym in ['0'..'9']) do
 ...
end;

Однако с точки зрения качества кода эти программы примерно эквивалентны. Программу можно значительно улучшить следующим образом [2]. Пусть LETTER, DIGIT, BLANK, SLESS - элементы перечислимого типа. Введем массив MAP, входами которого будут символы, значениями - типы символов. Инициализируем массив MAP следующим образом:

      MAP['A']:=LETTER;
          ........
      MAP['z']:=LETTER;
      MAP['0']:=DIGIT;
           ........

      MAP['9']:=DIGIT
      MAP[' ']:=BLANK;
      MAP['<']:=SLESS;
          ........

Тогда приведенный выше цикл примет следующую форму:

while (Map[Insym]=Digit) do
 ...
end;

Выделение ключевых слов может осуществляться после выделения идентификаторов. ЛА работает быстрее, если ключевые слова выделяются непосредственно.

                                        +----------+
                    ------------------->| ключевое |
      +---+ f  +---/не буква и не цифра | слово if |
      | i |--->|   |                    +----------+
      +---\    +---\буква или цифра  +---------------+
        |  \        ---------------->| Идентификатор |
       n|   \                        +---------------+
        |    \                           ^ ^  ^
        |     \ Не f  и не t             | |  |
        v      --------------------------+ |  |
      +---+       Не t                     |  |
      |   |--------------------------------+  |
      +---+                                   |
       t|                                     |
        v                                     |
      +---+ Буква или цифра                   |
      |   |-----------------------------------+
      +---+
        | Не буква и не цифра
        v
+--------------------+
| Ключевое слово int |
+--------------------+

                         Рис. 2.12

Для этого строится конечный автомат, описывающий множество ключевых слов. На рис. 2.12 приведен фрагмент такого автомата. Рассмотрим пример программирования этого конечного автомата на языке Си, приведенный в [3]:

 case 'i':
 if (cp[0]=='f' &&!(map[cp[1]] & (digit | letter)))
 {cp++; return IF;}
 if (cp[0]=='n' && cp[1]=='t'
  &&!(map[cp[2]] & (digit | letter)))
 {cp+=2; return INT;}

Здесь cp - указатель текущего символа. В массиве map классы символов кодируются битами. Поскольку ЛА анализирует каждый символ входного потока, его скорость существенно зависит от скорости выборки очередного символа входного потока. В свою очередь, эта скорость во многом определяется схемой буферизации. Рассмотрим несколько возможных эффективных схем буферизации. В первой схеме используется буфер, размер которого - двойная длина блока обмена N (рис. 2.13).

   N         N
 +----------------+               +-------------------+
 |       |        |               |  # |            # |
 +----------------+               +-------------------+
          ^    ^                         ^   ^
          |    |Продвижение              |   |Продвижение
          |Начало лексемы (cp)           |Начало лексемы

       Рис. 2.13                   Рис. 2.14

Чтобы не читать каждый символ отдельно, в каждую из половин буфера одной командой чтения считывается N символов. Если на входе осталось меньше N символов, в буфер помещается специальный символ (eof). На буфер указывают два указателя: продвижение и начало. Между указателями размещается текущая лексема. Вначале они оба указывают на первый символ выделяемой лексемы. Один из них, продвижение, продвигается вперед, пока не будет выделена лексема, и устанавливается на ее конец. После обработки лексемы оба указателя устанавливаются на символ, следующий за лексемой. Если указатель продвижение переходит середину буфера, правая половина заполняется новыми N символами. Если указатель продвижение переходит правую границу буфера, левая половина заполняется N символами и указатель продвижение устанавливается на начало буфера. При каждом продвижении указателя необходимо проверять, не достигли ли мы границы одной из половин буфера. Для всех символов, кроме лежащих в конце половин буфера, требуются две проверки. Число проверок можно свести к одной, если в конце каждой половины поместить дополнительный 'сторожевой' символ '#' (рис. 2.14).

В этом случае почти для всех символов делается единственная проверка на совпадение с '#' и только в случае совпадения нужно проверить, достигли ли мы середины или правого конца. В третьей схеме используются три указателя (рис. 2.15). Непросмотренная часть буфера заключена между текущим и границей (граница - это указатель на последний элемент буфера). Анализ очередной лексемы начинается после сканирования незначащих пробелов. Если после этого текущий указывает на '#' в конце буфера, делается перезагрузка буфера (предполагается, что '#' не может входить в состав лексемы). Барьер выбирается таким образом, чтобы между барьером и границей всегда помещалась любая лексема. Если начало очередной лексемы оказывается правее барьера, то часть буфера от текущего до границы переписывается левее буфера и буфер перезагужается. Тем самым начало лексемы конкатенируется с ее концом. Так обрабатывается ситуация, когда граница буфера прошла через лексему.

      +----------+                   +-----+
      |     N    |                   | N   |
      v          v                   v     v
 +------------------+           +-------------+
 |    |          |\n|           |    |     | #|
 +------------------+           +-------------+
          |   |   |Граница         |      |  |Граница
          |   |Барьер              |      |Барьер
          |Текущий                 |Текущий
   а) Пока текущий < барьер       б) После чтения

                    Рис. 2.15

В результате большинство входных символов обрабатываются непосредственно в буфере. Копируются только идентификаторы и строковые константы в соответствующие таблицы.

2.6. Конструктор лексических анализаторов LEX

Для автоматизации разработки лексических анализаторов было разработано довольно много средств. Как правило, входным языком для них служат либо КС (автоматные) грамматики, либо язык регулярных выражений. Одной из наиболее распространенных систем является LEX, входным языком которого являются регулярные выражения. LEX-программа состоит из трех частей:

Объявления
%%
Правила трансляции
%%
Вспомогательные процедуры

Секция объявлений включает объявления переменных, констант и определения регулярных выражений. Правила трансляции LEX программ имеют вид

p1 { действие_1 }
p2 { действие_2 }
...............
pn { действие_n }

где каждое pi - регулярное выражение, а каждое действие_i - фрагмент программы, описывающий, какое действие должен сделать лексический анализатор, когда образец pi сопоставляется лексеме. В LEX действия записываются на Си. Третья секция содержит вспомогательные процедуры, необходимые для действий. Эти процедуры могут транслироваться раздельно и загружаться с лексическим анализатором.

Лексический анализатор, сгенерированный LEX, взаимодействует с синтаксическим анализатором следующим образом. При вызове его синтаксическим анализатором лексический анализатор посимвольно читает остаток входа, пока не находит самый длинный префикс, который может быть сопоставлен одному из регулярных выражений pi. Затем он выполняет действие_i. Как правило, действие_i возвращает управление синтаксическому анализатору. Если это не так, т.е. в соответствующем действии нет возврата, то лексический анализатор продолжает поиск лексем до тех, пока действие не вернет управление синтаксическому анализатору. Повторный поиск лексем вплоть до явной передачи управления позволяет лексическому анализатору правильно обрабатывать пробелы и комментарии. Синтаксическому анализатору лексический анализатор возвращает единственное значение - тип лексемы. Для передачи информации о лексеме используется глобальная переменная yylval.

Пример 2.4. На рис. 2.16 приведена LEX-программа.

%{ /*определения констант LT,LE,EQ,NE,GT,
  GE,IF,THEN,ELSE,ID,NUMBER,RELOP например
  через DEFINE или скалярный тип*/ %}
 /*регулярные определения*/
 delim  [ \t\n]
 ws       {delim}+
 letter   [A-Za-z]
 digit    [0-9]
 id       {letter}({letter}|{digit})*
 number   {digit}+(\.{digit}+)?(E[+\-]?{digit}+)?
 %%
 {ws}     {/* действий и возврата нет */}
 if       {return(IF);}
 then     {return(THEN);}
 else     {return(ELSE);}
 {id}     {yylval=install_id(); return(ID);}
 {number} {yylval=install_num(); return(NUMBER);}
 "<"      {yylval=LT; return(RELOP);}
 "<="     {yylval=LE; return(RELOP);}
 "="      {yylval=EQ; return(RELOP);}
 "<>"     {yylval=NE; return(RELOP);}
 ">"      {yylval=GT; return(RELOP);}
 ">="     {yylval=GE; return(RELOP);}
 %%
 install_id(){/*процедура, которая помещает лексему,
               на первый символ которой указывает yytext,
               длина которой равна yyleng, в таблицу
               символов и возвращает указатель на нее*/
            }
 install_num(){/*аналогичная процедура для размещения
                лексемы числа*/
             }
                       Рис. 2.16.

В разделе объявлений, заключенном в скобки %{ и %}, перечислены константы, используемые правилами трансляции. Все, что заключено в эти скобки, непосредственно копируется в программу лексического анализатора lex.yy.c и не рассматривается как часть регулярных определений или правил трансляции. То же касается и вспомогательных процедур третьей секции. На рис. 2.16 это процедуры install_id и install_num. В секцию определений входят также некоторые регулярные определения. Каждое такое определение состоит из имени и регулярного выражения, обозначаемого этим именем. Например, первое определенное имя - это delim. Оно обозначает класс символов { \t\n}, т.е. любой из трех символов: пробел, табуляция или новая строка. Второе определение - разделитель, обозначаемый именем ws. Разделитель - это любая последовательность одного или более символов-разделителей. Слово delim должно быть заключено в скобки, чтобы отличить его от образца, состоящего из пяти символов delim. В определении letter используется класс символов. Сокращение [A-Za-z] означает любую из прописных букв от A до Z или строчных букв от a до z. В пятом определении для id для группировки используются скобки, являющиеся метасимволами LEX. Аналогично, вертикальная черта - метасимвол LEX, обозначающий объединение.

В последнем регулярном определении number символ '+' используется как метасимвол "одно или более вхождений", символ '?' как метасимвол "ноль или одно вхождение". Обратная черта используется для того, чтобы придать обычный смысл символу, использующемуся в LEX как метасимвол. В частности, десятичная точка в определении number обозначается как '\.', поскольку точка сама по себе представляет класс, состоящий из всех символов, за исключением символа новой строки. В классe символов [+\-] обратная черта перед минусом стоит потому, что знак минус используется как символ диапазона, как в [A-Z]. Если символ имеет смысл метасимвола, то придать ему обычный свысл можно и по-другому, заключив его в кавычки. Так, в секции правил трансляции шесть операций отношения заключены в кавычки.

Рассмотрим правила трансляции, следующие за первым %%. Согласно первому правилу, если обнаружено ws, т.е. максимальная последовательность пробелов, табуляций и новых строк, никаких действий не производится. В частности, не осуществляется возврат в синтаксический анализатор. Согласно второму правилу, если обнаружена последовательность букв 'if', нужно вернуть значение IF, которое определено как целая константа, понимаемая синтаксическим анализатором как лексема 'if'. Аналогично обрабатываются ключевые слова 'then' и 'else' в двух следущих правилах.

В действии, связанном с правилом для id, два оператора. Переменной yylval присваивается значение, возвращаемое процедурой install_id. Определение этой процедуры приведено в разделе 3.1. Переменная yylval определена в программе lex.yy.c, выходе LEX, и она доступна синтаксическому анализатору. yylval хранит возвращаемое лексическое значение, поскольку второй оператор в действии, return(ID), может только возвратить код класса лексем.

Функция install_id заносит идентификаторы в таблицу символов. Текущая лексема доступна благодаря двум указателям: yytext и yyleng. Переменная yytext - это указатель на первый символ лексемы, yyleng - это целое, дающее длину лексемы. Например, при занесении идентификатора в таблицу могут быть скопированы yyleng символов, начиная с yytext. Аналогично обрабатываются числа в следующем правиле. В последних шести правилах yylval используется для возврата кода операции отношения, возвращаемое же функцией значение - это код лексемы relop.

Если, например, в текущий момент лексический анализатор обрабатывает лексему 'if', то этой лексеме соответствуют два образца: 'if' и {id} и более длинной строки, соответствующей образцу, нет. Поскольку образец 'if' предшествует образцу для идентификатора, конфликт разрешается в пользу ключевого слова. Такая стратегия разрешения конфликтов позволяет легко резервировать ключевые слова.

Если на входе встречается '<=', то первому символу соответствует образец '<', но это не самый длинный образец, который соответствует префиксу входа. Стратегия выбора самого длинного префикса легко разрешает такого рода конфликты.