Это происходит потому, что сдвиговый регистр условно говоря 32-битный. И ему все равно, что сдвигать, 16 бит или 32 бита.
Дополнительные 8 тактов занимает лишь копирование второго слова в сдвиговый регистр (4 такта), и копирование после сдвига обратно (4 такта). И все.

