Повторы - это повторяющиеся цепочки символов, я так понимаю?
Повторы это повторы, хоть символы, хоть цепочки которые идут подряд.
Сообщение от weiv
Например, для текста важна зависимость вероятности текущего символа от предыдущего
Какие зависимости для энтропийного сжатия?
Сообщение от weiv
Можно просмотреть весь поток/файл полностью, выявить все повторяющиеся цепочки, построить словарь - расширение алфавита, размером с количество входных символов + количество выделенных повторяющихся цепочек. Далее считаем энтропию. Никакого перебора.
Чего так архиваторы не делают?
"Во времена всеобщей лжи говорить правду - это экстремизм" - афоризм.