Таки вот сидел читал... меня разродило.
Архитектура (малой кровью) может быть такая - имеется мастер-проц (тот же ARM например) и имеется несколько Z80 (или eZ80?).
Фишка в том, что каждый процессор работает в общих 64К.
То есть если выставлена стандартная конфигурация (по страничкам) ПЗУ-5-2-0, то они все сидят в нём и никак не иначе; есть варианты временно блокировать переключение страниц (0м портом) или выполнять запуск прерывания при out (#7ffd) и похожих. Сами порты страниц должны прописываться и объявляться их блокировка мастер-процом.
Удобство - что 48 к приложения можно запускать хоть пачками, будут работать.
В этом случае очень удобно получается работать с памятью - она будет общая.

Второй вариант - при чтении (уж не знаю как ты будешь схемотехнически решать вопрос доступа к памяти), возможно делать следующее - в зависимости от номера проца адрес выборки памяти вычисляется как 128к*номер проца+реально затребованный адрес памяти - при формировании RD\WR кроме линий А0-А15 и адреса банки будет в верхние разряды А17-А18 подаваться номер проца. То есть первый проц работает в адресах 0-128к, второй 128-256К, третий 256-384, последний 384-512. Мастер проц будет видеть все сразу но его рабочая программа должна (очевидно) сидеть в высшей области памяти, выше 512к дабы не быть похеренной при случае. Схемотехнически оно реализуется проще всего (просто добавлением рассыпухи для А17-А18), поддержка обычных программ будет максимальной.
Это даст возможность каждому процу сидеть в независимых 128К, естественно синхронизация содержимого памяти возможна только посредством мастер проца или внешних накопителей. Какой из процессоров рулит экраном тоже просто задаётся - каждый пишет в свою 5/7 страницу, для генератора экрана просто будет подстановка нужного адреса при выборке области памяти (2 разряда) (а что собственно уже и происходит при выборе 5/7 экрана), причём выборку текущей экранной области (от какого из процов) можно будет задавать тупо кнопкой связанной со 2х разрядным счётчиком.
Хотя на 4 проца я нехило замахнулcя? ;-)
Скорость памяти тут очевидно будет нужна минимум количество_процов*частоту_ роцов. То есть для 3,5 мегагерца и 4 проца будет 14 мегагерц :-) для 7 мгц и 4 проца 28 :-) В принципе надо брать чуть быстрее память, дабы мастер-проц имел гарантированную полосы для доступа к памяти.