Как создать эмулятор?

Wind

Итак, давайте более подробно рассмотрим «динамическую рекомпиляцию»
Как я уже писал ранее, скорость достигается за счет того, что создается «кеш» ранее откомпилированного кода, любая программа это в конечном итоге цикл, т.е. например при загрузке уровня в каком-нибудь файтинге наступает момент когда весь код, используемый в данный момент времени становится откомпилированным т.е. происходит только его исполнение, из этого стоит сделать вывод чем лучше откомпилирован код, тем выше скорость его исполнения:
Ну для начала рассмотрим пример из PCSX:

Код:

void execute() {
   void (**recFunc)() = NULL; /* указатель на вход в откомпилированный код */
   char *p;

   p = (char *)PC_REC(psxRegs.pc); 
   if (p != NULL) recFunc = (void (**)()) (u32)p; /* собственно получения указателя на точку входа в откомпилированный код */
   else { recError(); return; }

   if (*recFunc == 0) { /* в случае если код еще не скомпилирован вызов компилятора */
      recRecompile();
   }
   (*recFunc)(); /* исполнение кода */
}

К сожалению, компилятор в PCSX из себя представляет мало интересного, ибо никаких мало-мальских оптимизаций при компиляции кода не использует.

Итак какие же основные способы оптимизации компилируемого кода:
В первую очередь это конечно «регкешинг», т.е. мы загружаем регистр из памяти в регистр процессора под который пишем компилятор, и используем его как можно дольше, т.е. пример:

Код:

Add r1, r2, r3
Add r1, r1, r2

Если компилятор встретит такой код он загрузит регистр r2 в случае x86-проца, например в EAX, далее r3 в ECX, потом сложит регистры и загрузит результат сложения в EDX, далее при компилировании второй инструкции сложения уже EDX сложит с EAX, и в конце блока измененные регистры и только измененные загрузит обратно в память, заметьте R1 в EDX ни разу из памяти не был считан ибо его значение нас не интересует:

Далее пример кода откомпилированного кода:

Код:

MOV EAX, dword ptr [R2]
MOV ECX, dword ptr [R3]
LEA EDX, [EAX + ECX]
ADD EDX, EAX
MOV dword ptr [R1], EDX

Итог, 4 инструкции вместо двух в изначальном коде, много это или мало? Сложно сказать, но если встречается много арифметических вычислений и минимум обращений к оперативной памяти может быть и меньше чем в изначальном коде.

Кроме, «регкешинга» при компиляции кода применяется также сверстка констант, дело в том что за постоянную длину команд необходимо платить и зачастую высокую цену, не соизмеримую с выгодой от постоянной длины команды, т.е. чтобы загрузить 32бита в регистр в MIPS необходимо обычно две команды:

Код:

LUI R1, IMM_HIGH
ADDI R1, R1, IMM_LOW
ADD  R2, R2, R1

Что же сделает компилятор кода встретит такой кусок кода,
На первой команде он пометит регистр R1 как константу и присвоит ему значение IMM_HIGH, на второй команде он проверит R1 не константа ли он и соответственно убедившись что да, прибавит к константе IMM_LOW, и только на третьей команде он впервые что-то запишет в память для последующего исполнения:

Итог весь код будет представлен одной инструкцией:

Код:

ADD dword ptr [R2], (IMM_HIGH + IMM_LOW)

Не нужно думать, что я привожу очень удобные для компиляции куски кода, в реальном коде бывает и не такое, по всей видимости это следствие отсутствия достойных компиляторов для архитектур отличных от x86.

Далее, третий способ оптимизации, это так называемая линковка блоков, суть ее проста, но реализовать всегда не так просто много подводных камней, поэтому применяется далеко не всегда, и по моим собственным экспериментам не дает существенного выигрыша в скорости в сравнении с ценой использования, но тем не менее не сказать двух словах о данном методе я не могу: Как мы все прекрасно знаем львиная доля переход как условных так и безусловных в коде это переход на известный адрес, т.е. вызов ф-ии, это не что иное как переход на точку входа в ф-ию, соответственно, удобно встретив в конце блока переход на константный адрес, почему бы сразу не собрать следующий блок и слинковать переход в одну инструкцию вместо проверки на то существует ли данный блок и дальше во время исполнения сразу переходить куда нам нужно одной инструкцией, более того в следствии того что длина команд опять же постоянна, часто бывает код в котором переход указывает на инструкцию перехода, потому что ну нельзя такой далекий переход сделать за один раз, только разбив на два, а то и на три, в итоге мы можем целый блок скипануть а перейти сразу на нужное место, но как я сказал выше куча подводный камней, основной из них это инвалидация кода, т.е. представьте если код обновился, в оперативной памяти нашей системы, мы его в буфере тоже пометили как инвалид, а вот пометить инвалидным его для всех блоков которые на прямую переходят на этот блок без проверок весьма проблематично, нельзя сказать что это совсем невозможно, но нельзя сказать что овчинка стоит выделки, в общем всегда решается по месту нужно или нет.

Бывают иные более сложные способы оптимизации, но они уже узкоспециализированы, например: при оптимизации фпу команд, можно попробовать отслеживать, а нет ли однотипных парных команд сложения, вычитания, умножения и т.д. т.е. пробывать собирать эти пары и выполнять нашими любимыми SSE1,2,3…, но это довольно сложно и крайне сложно отлаживаемо, но возможность такая существует

Ну думаю для начала о динамической рекомпиляции достаточно, если есть вопрос буду рад ответить:

Как создать эмулятор?

Кто сейчас на конференции