Досообразил более компактный (но и чуть более медленный) вариант ускорения цикла, апгрейдил unlzsa1_small и unlzsa2. Вряд ли я первым изобретаю этот велосипед, тема оптимизации циклов с 16 разрядным счетчиком актуальна и для z80 (речь не про ldir), наверняка спектрумисты и/или msxники уже писали что-то такое, интересно бы сравнить.
Из сообщений может показаться, что все упирается только в пересылку, на самом деле например в последних модификациях dzx1 основной выигрыш связан с другими модификациями. Скорость переброски наиболее важна в простых распаковщиках типа lzsa1.

- - - Добавлено - - -

Действительно, msxники писали про эту тему, и я даже когда-то давно читал, но потом забыл. Компактный вариант фактически украл с z80 (с поправкой на отсутствие djnz), а вот более быстрый я получается все же допридумал. Но с z80 просто не было необходимости, у них компактный по скорости равен быстрому, у 8080 inr/dcr/inx/dcx медленнее, поэтому есть разница.