Самое простое использовать память с организацией 4Mx1, тогда потребуется только 16 корпусов чтобы сделать требуемые 2Mx16 (с маской записи задаваемой с точностью в два бита). Но будет использовано только половина накопителя и могут быть проблемы с регенерацией из-за другого мультиплексирования адресных бит.
У чипов с 4-мя и более битами данных на корпусе нет раздельных входов и выходов - под них нужно заводить буфер минимум на 16 бит и память должна работать на в двое/в трое большей частоте (чтение-модификация-запись), чип CPLD для этого потребуется 5 Вольтовый, с корпусом не меньше 64 выводов - в общем сплошной гемор... Лучше уж сразу небольшой кеш на FPGA и туда же сам процессор, кхе-хе...
Вот ещё табличка с аналогами: Вложение 66852 (взято тут).