в оригинале вроде каждый четвёртый адрес вызывал цикл типа N даже при последовательном доступе
Это да, при доступе к dram по границам 16 байт (или 4 байт, если смотреть на одну 8-битную линейку озу) всегда N. DMA (видео, звук) всегда выровнены и N+S+S+S, а в доступ проца число S максимум 3.