Изучение с "нуля" VHDL и ПЛИС Xilinx

Вид для печати

Показывать 40 сообщений этой темы на одной странице

25.05.2015, 19:26
Ynicky

Вложений: 1

Могу предложить следующую структуру обработки данных.
Преимущество такого построения - уменьшается на один такт
конвейер процессора.
25.05.2015, 20:19
Ynicky

Стандартный конвейер процессора имеет регистры после мультиплексоров регистрового файла,
т.е. на входах АЛУ. В состав АЛУ входит выходной мультиплексор, оканчивающийся своим
регистром. Тут мы видим 3 такта конвейера: декодирование команды, собственно операция АЛУ
и запись в регистровый файл.
У меня немного по другому. На стадии декодирования мы вычисляем операции АЛУ,
заканчивающиеся регистрами на каждую операцию, а затем на шаге записи в регистровый файл
мультиплексируем результаты каждой операции. На самом деле количество регистров можно
сократить, например, объединив несколько быстрых логических операций, суммирование и
вычитание имеют свои регистры.
Сигналы bypassRA и bypassRB нужны, если RD предыдущей команды совпал с RA или RB текущей,
т.е. когда результат предыдущей команды еще не попал в регистровый файл.

Типичный заголовок алу может быть следующим:

library IEEE;
use IEEE.std_logic_1164.all;
use IEEE.std_logic_arith.all;
use IEEE.std_logic_unsigned.all;
use work.my_arith.all;

entity alu32pe is
port (
opa : in std_logic_vector(31 downto 0);
opb : in std_logic_vector(31 downto 0);
opalu : in std_logic_vector(4 downto 0);
reset : in std_logic;
sclk : in std_logic;
cealu : in std_logic;
cb_in : in std_logic;
result: out std_logic_vector(31 downto 0);
cc : out std_logic_vector(3 downto 0)
);
end;

Что касается самих операций АЛУ, то их лучше оформить в отдельном файле библиотеки (package, у меня это my_arith.vhd),
и вызывать их в файле описания АЛУ.
Если надо, могу дать свой.

P.S.
Сигнал cealu - разрешение записи в регистры АЛУ (может быть использован для остановки
конвейера при извлечении операнда из синхронной памяти данных за 2 такта).
cb_in - (carry/borrow) вход переноса/заема от предыдущего вычисления.
Выходные флаги сс лучше хранить в одном из регистров регистрового файла (сделать его
специализированным, например, регистром флагов).
Если этот регистр делать отдельно - это увеличит аппаратуру.
25.05.2015, 21:33
Ynicky

Цитата:

Сообщение от Viktor2312

Как-то я немного по другому это всё представляю. В виде единого файла, где есть интерфейс entity и архитектура, но это всего процессора, а АЛУ внутри в архитектуре, как небольшая его часть.

Единый файл у Вас будет оооооочень большой.

Цитата:

Сообщение от Viktor2312

Где можно про это более подробно почитать?

У Вас же есть книжка Паттерсона, со стр.388.
Только там регистровый файл выполнен в виде ОЗУ.
И вычисление адреса памяти данных выполняется в АЛУ. У меня не так.
Вычисление адреса происходит на том же такте, что и операции АЛУ.

Цитата:

Сообщение от Viktor2312

Я пока не знаю насколько один регистр увеличит аппаратуру, поэтому мне сложно ориентироваться, нужно понимать сколько логических ячеек занимает один регистр, чтобы стало понятно, учитывая логические ячейки семейства Spartan-6.

Это я не могу посчитать, но потребуются свои дешифраторы, отдельный код операции и что-нибудь еще.

Цитата:

Сообщение от Viktor2312

Я так понимаю, что это трёх уровневый конвейер, но в самом АЛУ, то есть как бы есть АЛУ и есть местное устройство управления, которое имеет конвейер?

Нет, это я просто вычленил схему вычисления данных из общей архитектуры своего процессора.
26.05.2015, 11:32
s_kosorev

Цитата:

Сообщение от Viktor2312

Это к тому, что меня тогда заинтересовало в datasheet ds160 (Memory Controller Blocks are not supported in the -3N speed grade.)

Выбор чипа имеет весьма косвенное отношение к реализации.
Емкость чипа вообще есть смысл выбирать уже по занимаемым ресурсам после синтеза.
Разработку в симуляторе вести надо.
26.05.2015, 13:42
s_kosorev

Цитата:

Сообщение от Viktor2312

Но у меня наоборот, микросхема ПЛИС является определяющей и проект будет делаться так, чтобы он, удовлетворял её возможностям.

Честно говоря я не пойму, какова цель тогда тут что то спрашивать?, тебе говорят, ты же в ответ, извиняюсь за выражение "херню городишь".

Выбор вечно не по прямому простому пути, а через непонятные дали.

Цитата:

Сообщение от Viktor2312

Пока ограничимся головой и текстовым редактором

Это как на гитаре по книжке учиться играть, не беря в руки гитару.
26.05.2015, 14:07
Strijar

Цитата:

А пока ещё и нечего брать, код даже для АЛУ ещё не написан, самой гитары нет.

АЛУ не самое сложное. ИМХО не с него надо начинать.

Цитата:

Не пойму, это к чему. Здесь и сейчас изучается и будет применяться микросхема ПЛИС фирмы Xilinx семейства Spartan-6.

Мой совет - не закладываться вообще на конкретный ПЛИС. Делать чтобы работало на чем угодно. Это вполне возможно. Я в качестве изучения переделывал Forth процессор J1 под себя (переписал с Verilog на VHDL, сделал его 32 битным, дописал байтовый доступ к памяти, инструкции ускорений циклов итд итп) все делал на чистом VHDL под эмулятором ghdl. Планирую делать из них 2D сеть на LX25 или LX75 (есть 2 платы от ztex)
26.05.2015, 14:10
s_kosorev

Цитата:

Сообщение от Viktor2312

В общим по теме есть что сказать, полезного?

По всей видимости нет, я понял, это у тебя такой вид тролинга.
26.05.2015, 14:16
Strijar

Цитата:

Сообщение от Viktor2312

Так же ещё не разобрался с умножением, так как постоянно натыкаюсь на то, что результат получается в два раза больше по разрядности, как-то не приходилось сталкиваться с умножением.

Берем 1 и сдвигаем на 1 бит - это умножение на 2. Получается 2 бита. Сдвигаем еще на 1 бит - это умножение на 4. Получается 3 бита. Все логично. Если не понятно как делается умножение - делайте его в столбик как с десятичными числами - там получается сдвиг и суммирование с переносом.
26.05.2015, 14:40
Strijar

Цитата:

Ну пока это единственное, что мне кажется стало более менее понятным, по крайней как будет выглядеть код, и как вообще этот блок работает, поэтому начинаю с него. Хотя как мне видится, не важно с чего начинать.

В этом конечно что-то есть. Но например fetch и decode намного проще alu но их реализация уже создает иллюзию работы (; Да и потом к ним alu цеплять и проверять проще, чем один alu "в воздухе"

Цитата:

Но тут выбор уже сделан, так как смысл написать код, который влезет только в LX16

Мой 32 битный процессор занимает четверть от LX25, а уж я там себя не сдерживал (; Кстати он получился даже меньше чем "самый маленький 32 битный с поддержкой gcc toolchain" (ZPU)
26.05.2015, 15:06
Strijar

Цитата:

Интересно, и это оправдано?

Мне было интересно смогу ли я. Смог. Заодно разобрался как он работает просто досконально.

Цитата:

снизилась частота дизайна.

Я оригинальную частоту не знаю. У меня на LX25 получилось 106Мгц. Меня соотношение размер/fmax устроил.

Вся эпопея здесь - http://strijar.livejournal.com/tag/k32

Цитата:

И смысл тогда в байтовом доступе к памяти, если он уже может оперировать 4-мя?

Экономия RAM - можно иметь быстрый доступ (за один такт) к байтовым массивам. У меня в качестве теста реализована игра Life

---------- Post added at 15:06 ---------- Previous post was at 14:48 ----------

Цитата:

Сообщение от MVV

Я собирал оригинальный дизайн J1 (ссылка на мою git) на verilog под CycloneIV -7 для ReVerSE-U16 и переписал также на vhdl без доработок

Посмотрел ваш код. У вас получился "подстрочный перевод". Я сделал по честному - логично связанные сигналы упаковывал в record (;

Код:

entity k32 is port ( clk : in std_logic; rst : in std_logic; en : in std_logic; ibus_in : in ibus_in_type; ibus_out : out ibus_out_type; data_in : in dbus_in_type; data_out : out dbus_out_type; io_in : in dbus_in_type; io_out : out dbus_out_type; exception : out exception_type ); end k32;

А циклические сдвиги делал через srl и sll

Код:

when x"8" => ds_top <= alu_a srl to_integer(unsigned(alu_b(4 downto 0))); when x"9" => ds_top <= alu_a sll to_integer(unsigned(alu_b(4 downto 0)));

Показывать 40 сообщений этой темы на одной странице