Что такое компиляция программы в промежуточный код

Содержание

Искал инфу по языку программирования 1С, и там такая строчка была. Гугл, кроме ещё большего смятения, ничего не дал — «предварительно компилируемый» пишут не только для 1С. Так что же это всё таки такое?

Отслеживать
51k 83 83 золотых знака 262 262 серебряных знака 500 500 бронзовых знаков
задан 8 сен 2011 в 8:42
185 1 1 золотой знак 9 9 серебряных знаков 28 28 бронзовых знаков

5 ответов 5

Сортировка: Сброс на вариант по умолчанию

Предварительно компилируемый язык (в отличие от языков динамического разбора) — это тот язык, программы на котором надо сначала компилировать, потом выполнять (например C, C++). Результатом компиляции здесь будет машинный код.

К ним же относятся и такие интерпретируемые (скриптовые) языки, как Python, Perl, Ruby, ибо компиляция (так называемая «прекомпиляция», или «компиляция на лету») у них происходит автоматически перед выполнением программы самим интерпретатором. Здесь результатом предкомпиляции будет «байт-код».

Что такое компиляция, линковка? Что такое run time?

Языки динамического разбора, напротив же, считывают инструкции из файла программы минимально требующимися блоками, и исполняют эти блоки, не читая дальнейший код. Например shell (sh и прочая), command.com.

Источник: ru.stackoverflow.com

Промежуточный код

Байт-код (байтко́д; англ. bytecode, также иногда p-код, p-code от portable code) — стандартное промежуточное представление, в которое может быть переведена компьютерная программа автоматическими средствами. По сравнению с исходным кодом, удобным для создания и чтения человеком, байт-код — это компактное представление программы, уже прошедшей синтаксический и семантический анализ. В нём в явном виде закодированы типы, области видимости и другие конструкции. С технической точки зрения байт-код представляет собой машинно-независимый код низкого уровня, генерируемый транслятором из исходного кода.
Многие современные языки программирования, особенно интерпретируемые, используют байт-код для облегчения и ускорения работы интерпретатора. Трансляция в байт-код является методом, промежуточным по эффективности между прямой интерпретацией и компиляцией в машинный код.
По форме байт-код похож на машинный код, но предназначен для исполнения не реальным процессором, а виртуальной машиной. В качестве виртуальной машины обычно выступает интерпретатор соответствующего языка программирования (иногда дополненный JIT- или AOT-компилятором). Спецификации байт-кода и исполняющих его виртуальных машин могут сильно различаться для разных языков: часто байт-код состоит из инструкций для стековой виртуальной машины, однако могут использоваться и регистровые машины. Тем не менее, большинство инструкций байт-кода обычно эквивалентны одной или нескольким командам ассемблера.

Компиляция. Как работает компилятор

Байт-код называется так, потому что длина каждого кода операции традиционно составляет один байт. Каждая инструкция обычно представляет собой однобайтовый код операции (от 0 до 255), за которым могут следовать различные параметры, например, номер регистра или адрес в памяти.

Байт-код во многом похож на машинный код, только он использует набор инструкций не реального процессора, а виртуального. При этом он может включать в себя участки, ориентированные на использование JIT-компилятора, оптимизирующего выполнение команд под реальный процессор, на котором запущена программа.
JIT-компиляция (англ. Just-in-time compilation, компиляция «на лету») или динамическая компиляция (англ. dynamic translation) — это технология увеличения производительности программных систем, использующих байт-код, путём компиляции байт-кода в машинный код или в другой формат непосредственно во время работы программы. «Официально» в Java до 9-й версии был только JIT-компилятор. В Java 9 появился ещё один компилятор, причём компилирует он с опережением (AoT). Эта возможность позволяет компилировать классы Java в нативный код перед запуском на виртуальной машине. Данная функция предназначена для улучшения времени запуска и малых, и больших приложений, с ограниченным влиянием на максимальную производительность.
Для CISC процессоров некоторые инструкции могут объединяться в более сложные конструкции, поддерживаемые процессором, а для RISC – наоборот разбиваться на более простые последовательности команд.

Программа на байт-коде обычно выполняется интерпретатором байт-кода (обычно он называется виртуальной машиной, поскольку подобен компьютеру). Преимущество — в портируемости, т. е. один и тот же бинарный код может исполняться на разных платформах и архитектурах. То же самое преимущество дают интерпретируемые языки.

Однако, поскольку байт-код обычно менее абстрактный, более компактный и более «компьютерный» чем исходный код, эффективность байт-кода обычно выше чем чистая интерпретация исходного кода, предназначенного для правки человеком. По этой причине, многие современные интерпретируемые языки на самом деле компилируют в байт-код и запускают интерпретатор байт-кода. К таким языкам относятся Perl, PHP и Python. Программы на Java обычно передаются на целевую машину в виде байт-кода, который перед исполнением транслируется в машинный код «на лету» — с помощью JIT-компиляции. В стандарте открытых загрузчиков Open Firmware фирмы Sun Microsystems байт код представляет операторы языка Forth.

Компиляция. 6: промежуточный код

Первый этап — разбор синтаксиса нашего джей-скрипа — пройден; подбираемся к генерации кода.

его было легко генерировать;
его было легко обрабатывать.

Далее в посте:

Выбор кода
Компиляция
Выполнение
Backpatching

Выбор кода

Часто п-код делают стековым (например, MSIL): вообразим себе процессор, внутри которого нет пронумерованных регистров, а есть один большой стек, и все действия выполняются с верхними значениями на стеке. (Те, кому довелось программировать для х87, с такой моделью знакомы.) Стековый код действительно удобно генерировать и удобно выполнять, но не слишком удобно обрабатывать — например, в нём тяжело отслеживать зависимости между командами.

О выборе между стековым и регистровым промежуточным кодом выразительно отзывается создатель языка Beep:

Регистровый без вариантов:

Упрощение рантайма. Меньше манипуляций с указателями. Отсутствует понятие переполнения стека. Меньше кода, меньше работы с памятью — меньше места для критических ошибок.
Увеличивается сложность компиляции: появляется фаза выделения регистров. В случе исполнения на виртуальной машине нам не важно количество регистров, можем сделать их достаточное количество для того, что бы вообще не делать аллокацию, а просто маппить все параметры и переменные функции на регистры (см. Lua). Если количество параметров будет превышать количество регистров, то можно выделять часть activation record в хипе, но проще сделать так, что бы компилятор предлагал автору такого кода лечить голову.
В любом случае, если стоит вопрос упрощения рантайма ценой усложнения компилятора, так и следует поступать.
Возможность оптимизации: маппинг N регистров виртуальной машины на регистры процессора. На стековой машине это сделать значительно сложнее.

Все команды равной длины (у нас — по 4 байта)
Первый байт — номер команды (по отдельному опкоду под каждую возможную операцию)
Второй байт — номер регистра для результата (256 регистров достаточно любому!)
Остаток — либо два номера регистров-операндов, либо непосредственное значение—операнд.

загрузка непосредственного значения в регистр;
чтение из памяти в регистр;
запись из регистра в память;
условный переход;
вывод строки или числа;
ввод числа;
остановка.

Работа с памятью для нас пока не актуальна: если не все переменные удастся разместить в регистрах, значит программисту не повезло. Операции, которых в джей-скрипе пока нет, вроде вызова функций, тем более не закладываем в п-код.

Упорядочим опкоды так, чтобы команды похожей структуры (в плане используемых регистров) шли подряд, и вынесем определение структуры команды в отдельный файл jsk.h : она потребуется и компилятору, и интерпретатору.
typedef unsigned char regnum;

struct command enum opcodes hlt,
store, // dst>
jz, // dst>
echo, // dst>
mov, // >dst
load, // >dst
input, // >dst
add, // src>dst
sub, // src>dst
mul, // src>dst
div, // src>dst
eq, // src>dst
ne, // src>dst
ge, // src>dst
le, // src>dst
gt, // src>dst
lt // src>dst
>;

opcodes opcode;
regnum dest;
union struct regnum src1, src2;
>;
short imm;
>;
command(opcodes opcode, regnum dest, regnum src1, regnum src2) :
opcode(opcode), dest(dest), src1(src1), src2(src2) <>
command(opcodes opcode, regnum dest, short imm) :
opcode(opcode), dest(dest), imm(imm) <>
>;

Чтобы под опкод действительно выделялся один байт, при компиляции придётся указывать ключ

Компиляция

Строки для echo будем хранить вместе с кодом программы, в самом конце; одинаковые строки объединим, чтобы хранилась только одна копия. Для этого будем хранить map всех строк, где значением будет «идентификатор» строки (её порядковый номер в программе).

Все переменные в джей-скрипе — глобальные. В отдельном map будем хранить по имени переменной номер выделенного ей регистра.

Выполнение

Отобразим файл с п-кодом в память, и будем работать с ним, как с массивом структур command . Собственно выполнение — это цикл из 4 строк, и реализация функций-команд; большая же часть кода — вспомогательная шелуха.

int pc = 0 ; // индекс команды (не смещение)
bool halted = false ;
int mem[ 1000 ]; // размер не важен: всё равно пока не пользуемся

typedef int (*op)( int src1, int src2, int dest, int imm); // все возможные входные значения

const char * fdata = NULL ; // весь прочитанный п-код

extern op ops[]; // объявлен ниже

int main( int argc, char ** argv)

if (argc!= 2 ) printf( «Missing pcode file name. n » );
exit( 1 );
>

int fd = open(argv[ 1 ], O_RDONLY);
if (fd < 0 ) printf( «Cannot open pcode file. n » );
exit( 1 );
>
struct stat finfo;
fstat(fd,
fdata = ( const char *)mmap( 0 , finfo.st_size, PROT_READ, MAP_PRIVATE, fd, 0 );
if (!fdata) printf( «Cannot read pcode file. n » );
exit( 1 );
>

const command* pcode = ( const command*) fdata;

int r[ 256 ] = < 0 >; // registers

while (!halted) command next = pcode[pc++];
r[next.dest] = ops[next.opcode](r[next.src1], r[next.src2], r[next.dest], next.imm);
>

munmap(( void *)fdata, finfo.st_size);
close(fd);
return 0 ;
>

int hlt( int src1, int src2, int dest, int imm) < halted = true ; return dest; >
int store( int src1, int src2, int dest, int imm) < mem[imm] = dest; return dest; >
int jz( int src1, int src2, int dest, int imm) < if (!dest) pc+=imm; return dest; >
int echo( int src1, int src2, int dest, int imm) < if (imm) printf( » %s » , fdata+imm); else printf( » %d » , dest); return dest; >
int mov( int src1, int src2, int dest, int imm) < return imm; >
int load( int src1, int src2, int dest, int imm) < return mem[imm]; >
int input( int src1, int src2, int dest, int imm) < int d; scanf( » %d » , return d; >
int add( int src1, int src2, int dest, int imm) < return src1+src2; >
int sub( int src1, int src2, int dest, int imm) < return src1-src2; >
int mul( int src1, int src2, int dest, int imm) < return src1*src2; >
int div( int src1, int src2, int dest, int imm) < return src1/src2; >
int eq( int src1, int src2, int dest, int imm) < return src1==src2; >
int ne( int src1, int src2, int dest, int imm) < return src1!=src2; >
int ge( int src1, int src2, int dest, int imm) < return src1>=src2; >
int le( int src1, int src2, int dest, int imm) < return src1
int gt( int src1, int src2, int dest, int imm) < return src1>src2; >
int lt( int src1, int src2, int dest, int imm)

Фанфары! Запускаем первую в мире программу на джей-скрипе:

Backpatching

Сейчас в каждом узле дерева хранится список всех соответствующих ему команд, и каждая реализация emit включает в себя объединение команд из дочерних узлов — в том самом порядке (слева направо), в котором эти узлы создавались во время парсинга. Можно сэкономить и память на хранение команд, и код на их объединение, если все генерируемые команды сразу же сваливать в результат, а в символах хранить только «метаинформацию» типа номеров регистров.

Самая резкая разница — что теперь нам вообще не потребуется дерево: для каждого символа оказывается достаточно хранить один скаляр. Более того: у символов операторов теперь вовсе нет значения — весь результат их разбора немедленно сваливается в вектор готового п-кода; поэтому свёртках, где не генерируется код, даже наследовать ничего не нужно.

Небольшая проблема возникает в конструкциях типа if и while , где после проверки условия нужно вставить прыжок вперёд, если условие не выполняется; и до конца разбора конструкции неизвестно, на сколько нужно прыгать. Придётся оставить на месте прыжка команду-пустышку, и заполнять её в конце разбора. Такая система однопроходной генерации кода с пустышками, и их последующего «залатывания», называется backpatching. Она весьма универсальна, и не только позволяет компилировать все привычные управляющие конструкции, но и упрощает реализацию операторов типа break , прыгающих вперёд на неизвестное расстояние.

5 ответов 5

Промежуточный код

Компиляция. 6: промежуточный код

Далее в посте:

Выбор кода

Регистровый без вариантов:

Компиляция

Выполнение

Backpatching

Составьте блок схему и программу вычисления значения функции вариант 3

Напиши программу которая в последовательности натуральных чисел определяет количество чисел кратных

Как записать музыку на сд диск в формате сд программа

Какая нужна программа на телефон чтобы скачивать музыку на телефон

Если не хватает места на диске с для установки программы

Задачи по ознакомлению с формой и геометрическими фигурами в программе радуга

Как расширение имени файла связано с форматом файла и программой обработки

Что программа 12111 переводит число 50 в число 20 определите значение b