Мне именно pi32 представляется самым перспективным вариантом и по количеству рассчитываемых цифр и по возможности ускорения.
Мелкий момент - связки JNC $+4 \ INR A лучше заменить на ACI 0 (это не я придумал, прочитал в журнале МПСиС, номер не помню).