besm6 | Оптимизации АЛУ

spamsink posting in

После переписывания дорогих команд сборки, разборки и сдвига в многотактный вид и исправления нормализации вправо инвертированных мантисс (прибавлять младший бит инверсии можно по ходу нормализации, и в окончательном суммировании РМРу участвовать больше не нужно) всё стало гораздо компактнее:

There are 31 levels of combinational cells 2-input LUTs: 309 3-input LUTs: 231 4-input LUTs: 228 5-input LUTs: 375 6-input LUTs: 726 Total LUT area: 1869 State : 204 (FF) : 204 CARRY4 : 132 DSP : 6

Коммит будет сегодня вечером.

Flat | Top-Level Comments Only

From:

vak

Больше чем в два раза, неплохо. Может быть теперь и Xilinx этот код скушает.

Вот твои старые оценки для микро-БЭСМ, для сравнения:
с микрокодом в логике: 15771 LUT, 5166 FF;
с микрокодом в блочной памяти: 9904 LUT, 10 BRAM.

Но это всё вместе, не только АУ.

From:

spamsink

Теперь должен, раз комбинационных циклов больше не осталось.

А если реализовать сложение, умножение и деление с помощью двухрядного кода (желательно, предварительно поняв, как именно работало деление без сравнения абсолютных значений мантисс),
то CARRY4 и DSP пропадут, и останутся считаные сотни LUTs.

From:

x86128

Класс!
Я когда увидел конструции в pack/unpack и умножение как $signed * $signed только и изумился: "А что так можно было?!! 😂 😂". Но для RTL модели ведь можно, верно?

А дальше уже когда к железу "как в БЭСМ6" ближе спускаться, можно и убрать.
Я потому скрипт для сложения и сделал, пытаясь разобраться с тем как это было в самой БЭСМ реализовано (хотя и не точно).

Но вот с умножением получился пока затык, читаю книги с теорией и практикой реализации 2's compl умножителей в железе, вижу что в БЭСМ6 алгоритм Бута, но он какой-то модифицированный. Сам алгоритм придумали в 1951 году, поэтому "наши" о нём 100% знали, но улучшили.

Вот нашел, что есть еще один интересный вариант реализации умножения когда пропускаются повторяющиеся биты в множителе.

Постараюсь сделать python скрипт.

From:

spamsink

Так нужно было! Не зря же System Verilog придумали. $signed уже все должны уметь синтезировать за столько-то лет существования System Verilog.

В БЭСМ-6 хитрость: умножение на 2 разряда делается за полтакта благодаря тому, что есть защелки по обоим фронтам тактового сигнала, поэтому произведение двигается вправо на 4 разряда за такт (в формулах АУ это видно). Но нам спешить особо некуда, можно и по 2 разряда за такт.

Кстати, сейчас флаг sticky правильно отражает необходимость округления для сложения, и сравнение rmr с нулем в STATE_ROUND нужно только для умножения. Когда умножение будет делаться пошагово, можно будет устанавливать sticky по ходу дела.

В скрипте для сложения есть ошибка: округление нужно делать, если в процессе нормализации вправо РМР когда-либо был ненулевым, даже если в конце концов все единицы из него уехали.

From:

spamsink

Модуль mesm6_cpu.sv сам по себе синтезируется в 847 LUTs, 475 FFs (что-то многовато), 17 CARRY4 и 90 CLB MUXes. Если ликвидировать uop_rom и заменить на case statement, получается 811 LUTs. Но на него, понятное дело, смотреть еще рано, пока нет прерываний и экстракодов.

Механизм прерываний может быть, например, такой: при возбуждении любого прерывания формируется слово: 15-1рр: М20, 30-16рр - адрес возврата, 47-42рр - режимы, 48р - признак правой команды, остальное - для маски прерываний. С этим словом выполняется как бы ЗП (М17).

ВЫПР, соответственно, будет работать как бы как МОД + РЖ + еще кое-что. Магазинность аналогична МОД.

From:

vak

15 индекс-регистров (на самом деле 16) по 15 бит это уже 240 FFs, половина. Аккумулятор и командное слово из памяти - ещё сотня. Ну и остальное по мелочи набегает. Так что 475 триггеров по божески получается.

Не хотелось бы при прерывании трогать стек пользователя, и вообще ходить в память. Мы как-то уже обсуждали на Гитхабе: https://github.com/besm6/mesm6/issues/3#issuecomment-475087151

Есть идея ввести для режима прерываний/экстракодов отдельный набор регистров K[1]...K[15]. В режиме пользователя (после ВЫПР) возможны обращения только к M[1]...M[15]. При переключении в режим прерываний обращения идут к регистрам K[1]...K[15]. Из режима прерываний можно читать-писать регистры пользователя командами ITA/ATI, обращаясь к ним как к регистрам K[17]...K[31].

Преимущества:

Обработчики прерывания имеют отдельный стек, задаваемый регистром K[15].

Не надо упрятывать регистры в стеке. Ускоряется обработка прерываний. Достаточно упрятать сумматор и РМР.

Не нужны дополнительные регистры для сохранения информации о прерывании. Например, прерванный счётчик команд PC прячется в K[1], регистр режимов пользователя - в K[2], исполнительный адрес экстракода - в K[3].

From:

spamsink

Если нет приписки, то память всё равно общая, нет смысла возиться с дополнительным полным набором регистров. Ускорять обработку прерываний на несколько команд такой ценой тоже неясно, имеет ли смысл. А вот сделать теневой K[15], действительно, хорошо бы.

From:

x86128

Перенесу сюда из темы на гитхаб.

Что делать с текущим К1 при вызове вложенного экстракода?

Можно сделать Экстракоды так чтобы они всегда выталкивали полный текущий PC_next по адресу [K15--], а команда ВЫПР возвращалась на [++K15]. При необходимости, программное выталкивание К2, К3 прописать в "соглашении о программных вызовах".

From:

spamsink

Я всё же за простую и понятную архитектуру, максимально приближенную к БЭСМ-6. Раз мы разрешаем вложенные экстракоды (или прерывания в режиме экстракода), то упрятывание регистров всё равно понадобится, и проще делать его всегда программно, не умножая сущности.

Напомню, что стек в БЭСМ-6 растёт в сторону увеличения адресов, и 15-й регистр указывает на первую свободную ячейку стека. Поэтому push - это присваивание mem[M15++], а pop - это чтение из mem[--M15].

From:

vak

Экстракоды внутри экстракодов можно сделать, но по жизни они не особо нужны, ведь всегда можно просто вызвать нужную функцию через VJM, переход с возвратом.

From:

x86128

Хотя вот действительно. Если основной язык для платформы это паскаль, то лучше сделать теневую копию М регистров, как предлагает Сергей, что позволит писать обработчики прерываний на паскале без изменений компилятора. Если будет рантайм, то вызывать всякие печати на экран(терминал), синусы и косинусы через VJM, а не через Э*. Сами же КОПы экстракодов зарезервировать для каких-то инструкций которых нет в БЭСМ6, но будут в системе на чипе МЭСМ6.

Есть мысль, чтобы процессор ходил в память через арбитр как в БЭСМ6, что позволит реализовать подсистемы блочного ввода/вывода с SD-карты, Ethernet (через шилд от ардуины), UART (протокол похожий на SLIP). Обращение к регистрам ввода/вывода сделать через команду УВВ (033), запрет/разрешение прерываний по маске через РЕГ 002.

From:

vak

Дополнительный набор регистров удобно иметь, чтобы не заниматься записью регистров в стек при входе в прерывание, и восстановлением потом. Хотелось бы писать обработчики экстракодов прямо на Паскале, с минимальной обвязкой.