Существует ли идеальное сжатие без потери данных?

Вид для печати

13.08.2017, 08:17
CodeMaster

Существует ли идеальное сжатие без потери данных?

Определённого конкретного набора данных, если единственным критерием будет коэффициент сжатия? Если да, то каково (примерно) различие идеального с оптимальным значением коэффициент/время?
13.08.2017, 11:35
Shiny

http://krepeg-s.ru/files/tiski.jpg
13.08.2017, 12:38
Bedazzle

Да, существует. Любой набор данных можно упаковать в один байт (версия пакера), при условии что упаковщик/распаковщик будут модифицироваться под каждый конкретный входной файл и содержать полный словарь. :)
13.08.2017, 13:23
CodeMaster

Шынни, велика вероятность потери данных. Да и не ко всем типам данных подходит.

Цитата:

Сообщение от Bedazzle

Любой набор данных можно упаковать в один байт (версия пакера)

Очень маленькое количество данных можно так упаковать. Понятно, что 2 байтами гораздо больше, но так же понятно, что и вопрос был не об этом.
13.08.2017, 13:54
Black Cat / Era CG

Ну имхо несерьезное восприятие данной темы вполне естественно.
Вы ставите проблему, опираясь на два сомнительных предмета:

Цитата:

идеальное сжатие без потери данных

Можно говорить о максимальном сжатии. Об идеальном сжатии - вряд ли.

Цитата:

оптимальным значением коэффициент/время

Оптимальное для чего? Оптимальность - это в корне относительное понятие, крайне зависящее от конкретных задач и условий.

И далее вы предлагаете сравнить гипотетическое идеальное с относительным. Как?
13.08.2017, 14:20
CodeMaster

Цитата:

Сообщение от Black Cat / Era CG

Можно говорить о максимальном сжатии. Об идеальном сжатии - вряд ли.

Это всё софистика, думатцо 99,99% понятно, что речь идёт о минимальном размере набора служебные данные + словарь + сжатые данные.

Цитата:

Сообщение от Black Cat / Era CG

И далее вы предлагаете сравнить гипотетическое идеальное с относительным. Как?

Ответ в первом посте.

Цитата:

Сообщение от CodeMaster

примерно

Т.е. максимальное теоретически возможное (a.k.a. идеальное) сжатие для данного набора данных и данного алгоритма равно, например, 51%, то в оптимальном для 90% случаев сжатии оно составляет например ~60% или может ~52%, интересно понять соотношение этих величин.
13.08.2017, 15:04
shurik-ua

Если оцифровать белый шум с любой разрядностью - то

Цитата:

Сообщение от CodeMaster

максимальное теоретически возможное (a.k.a. идеальное) сжатие для данного набора данных

равно 0%.
13.08.2017, 19:36
SfS

Математически доказано, что для любого алгоритма Z сжатия данных можно подобрать два набора данных D1 и D2, таких, что:

1. Алгоритм Z для набора данных D1 будет самым эффективным из всех алгоритмов.
2. Алгоритм Z для набора данных D2 будет неэффективным (т.е. выходной файл данных будет по размеру больше входного).

То есть, если на минутку стать омерзительным философом-интеллегентом, о можно мрачно сказать "Ах, в этом мире нет ничего идеального!" и пойти пить водку:)
13.08.2017, 21:40
nlo_j77

Вообще... - если брать в рассчёт теорию... - любой массив данных (включая бесконечный), можно упаковать (множественными проходами) в 2кб (учитывая, что данные 8-миразрядные!!)
эти два кб упакованных данных будут содержать 4 равных части - 1 словарь, 2 перекрестный словарь, 3 распаковщик и 4 сами упакованные данные :)
При каждом проходе распаковки, оба словаря обновляются, распаковщик остаётся без изменений.
Однако... - при множественной распаковке.... - чем больше объём данных, тем больше времени на распаковку (бесконечный объём данных будет распаковываться бесконечно) :)

P.S. Похоже на ахинею, но могу обосновать :)

P.P.S Про белый шум - добавляем к разрядности один пустой бит.... и всё замечательно пакуется! :)
13.08.2017, 22:01
NEO SPECTRUMAN

Цитата:

Сообщение от CodeMaster

идеальное сжатие без потери данных?

ну идеального быть не может
для каждого типа файла/конкретного файла идеальным будет свое сжатие

Цитата:

Сообщение от nlo_j77

Вообще...

но как ни старайся в один бит
больше чем 1 бит данных ты не запихнешь...

самое оптимальное не жать каждый файл по отдельности
а жать все вместе
оптимальное в нахождении максимально похожих участков

мне интересно почему до сих пор нету пакера с готовым встроенным словарем так мегабайт на 1000
13.08.2017, 22:10
CodeMaster

Цитата:

Сообщение от NEO SPECTRUMAN

для каждого типа файла/конкретного файла идеальным будет свое сжатие

Та это всё понятно. Вот например берём мы Войну и Мир в txt пакуем алгоритмом PPM (будем считать, что он лучший для текста) на выходе мы получим единственно возможный файл с упакованными данными минимального размера независимо от вычислительных возможностей? Другими словами, если нам дан конкретный набор данных и известен его тип, можно математически высчитать его минимальный размер в упакованном виде?

Цитата:

Сообщение от nlo_j77

P.S. Похоже на ахинею, но могу обосновать

Ну вот на ВиМ и обоснуй, упакуй в 2 КБ, текст книги ведь не бесконечный ;-)
13.08.2017, 22:30
nlo_j77

Цитата:

Сообщение от NEO SPECTRUMAN

но как ни старайся в один бит
больше чем 1 бит данных ты не запихнешь...

Одного бита вполне хватит для маркера изменённых данных.

Цитата:

Сообщение от CodeMaster

Ну вот на ВиМ и обоснуй, упакуй в 2 КБ, текст книги ведь не бесконечный ;-)

Чтобы упаковать, надо не теоретически доказать, а написать пакер... - за него мне платить точно никто не будет (да и не нужен он никому, ибо больно медленно будет паковать/распаковывать)... - мне работа пока важнее :)
14.08.2017, 07:33
CodeMaster

Цитата:

Сообщение от nlo_j77

Чтобы упаковать, надо не теоретически доказать, а написать пакер...

Мне пакер не нужен, мне теоретическое обоснование гораздо интереснее.

Цитата:

Сообщение от nlo_j77

да и не нужен он никому, ибо больно медленно будет паковать/распаковывать

Это всё относительно.
14.08.2017, 22:18
nlo_j77

Ну смотри - допустим мы преобразуем 8-ми битные данные в 7-ми и добавляем один бит маркера - дальше некоторые байты изменяем (допустим меняем на 0) и помечаем маркером в итоге получается пакующаяся последовательность (до этого ищем что и как изменить чтобы последовательность паковалась), пакуем и получаем опять последовательность (в теории упакованную процентов на 5-10, опять преобразуем данные в 7 бит с добавлением маркера... - в итоге получим нулевую последовательность с двумя словарями распаковки и данными, которые при паковке-преобразовании не будут менять своего размера - который, чисто в теории равен около 512 байт

Но процесс упаковки-распаковки, может с таким алгоритмом занять несколько лет, если не десятков лет.
Причём, как мы в своё время считали есть оптимальный размер файла, который будет паковаться за наименьшее время... - всё что больше, или меньше этой длины, будет паковаться дольше. (всё это относится исключительно к изначально непакующимся разнородным данным)

P.S. немного поясню - у нас непакующаяся последовательность 512 байт, а мы пакуем 513 - после, как минимум 512 проходов, её раздует до намного большего размера, а потом ещё за 512 проходов она упакуется в 512 байт (немного грубо, но смысл передаёт)
14.08.2017, 22:39
NEO SPECTRUMAN

Цитата:

Сообщение от nlo_j77

чисто в теории равен около 512 байт

8 битами как ни старайся можно описать 256 разнообразных уникальных файлов
как ни старайся ты не упакуешь больше
это же относится ко всему остальному
в один бит не вместишь 2Кб рандомных значений...
14.08.2017, 22:43
Spectramine

Цитата:

Сообщение от CodeMaster

Та это всё понятно. Вот например берём мы Войну и Мир в txt пакуем алгоритмом PPM (будем считать, что он лучший для текста) на выходе мы получим единственно возможный файл с упакованными данными минимального размера независимо от вычислительных возможностей? Другими словами, если нам дан конкретный набор данных и известен его тип, можно математически высчитать его минимальный размер в упакованном виде?

Ну вот на ВиМ и обоснуй, упакуй в 2 КБ, текст книги ведь не бесконечный ;-)

Существует такое понятие, как информационная энтропия. Энтропия сообщения определяет предел сжатия. Так что насчет "всё можно упаковать в 2 кб" - это из области вечных двигателей.
15.08.2017, 06:23
CodeMaster

Цитата:

Сообщение от weiv

Так что насчет "всё можно упаковать в 2 кб" - это из области вечных двигателей.

Это не ко мне обращение.

Цитата:

Сообщение от weiv

Существует такое понятие, как информационная энтропия. Энтропия сообщения определяет предел сжатия.

Мне интересен не предел как таковой, а математическое обоснование этого предела. Насколько я понял, вот как раз для энтропийных алгоритмов сжатия можно математически высчитать максимальный коэф сжатия, а для словарных нет, там только методом перебора можно подобрать максимальное сжатие.
15.08.2017, 13:21
Spectramine

Цитата:

Сообщение от CodeMaster

Мне интересен не предел как таковой, а математическое обоснование этого предела. Насколько я понял, вот как раз для энтропийных алгоритмов сжатия можно математически высчитать максимальный коэф сжатия, а для словарных нет, там только методом перебора можно подобрать максимальное сжатие.

Насколько я понимаю, энтропия сообщения определяется зависимостями символов сообщения. Чем более глубоко и разнообразно вычисляются зависимости символов друг от друга, тем более точно рассчитывается энтропия.

Словарные методы сжатия кодируют преобразованный алфавит входного потока, дополненный символами повторяющихся цепочек (либо символами длин и смещений). Добавьте эти символы к входному алфавиту, рассчитывайте энтропию с учетом этих символов и - вуаля, можно вычислить энтропию для словарных методов сжатия.
15.08.2017, 16:01
HardWareMan

Вы слышали про вавилонскую библиотеку? К сожалению, только английский текст, но есть ЛЮБОЙ! Не верите? Проверьте сами.
15.08.2017, 19:26
CodeMaster

Цитата:

Сообщение от weiv

Насколько я понимаю, энтропия сообщения определяется зависимостями символов сообщения.

Вроде нет. Она определяется вероятностью повторов.

Цитата:

Сообщение от weiv

Чем более глубоко и разнообразно вычисляются зависимости символов друг от друга

Не знаю как с зависимостью, но количество повторов в данных, вроде бы, вычисляется однозначно.

Цитата:

Сообщение от weiv

Добавьте эти символы к входному алфавиту, рассчитывайте энтропию с учетом этих символов и - вуаля, можно вычислить энтропию для словарных методов сжатия.

Это и есть перебор: добавили словарь одного размера, посчитали энтропию, добавили второй, опять посчитали и т.д. пока не нашли идеальный размер словаря для конкретных данных.

Цитата:

Сообщение от HardWareMan

Вы слышали про вавилонскую библиотеку?

А как это относится к данной теме?
15.08.2017, 20:36
NEO SPECTRUMAN

Цитата:

Сообщение от HardWareMan

К сожалению, только английский текст, но есть ЛЮБОЙ! Не верите? Проверьте сами.

в принципе можно ужать фаил в одну хеш суму 2К
а потом бруталфорсом перебирать все возможные варианты файла

так же можно сохранить указатель какой по счету файл с такой хеш суммой соответствует исходному

только этот файл должен быть с контролем ошибок

в итоге после перебирания всех возможных комбинаций файла
получется несколько десятков\сотен\тысяч\итд осмысленных файлов которые будут проходить контроль ошибок
и один из них будет соответствовать тому что мы запаковали

но это из разряда первую половину вечности файл пакуем
вторую распаковываем....

- - - Добавлено - - -

Цитата:

Сообщение от HardWareMan

только английский текст, но есть ЛЮБОЙ! Не верите? Проверьте сами.

вот только путь к нужной книге будет занимать больше места чем сама книга...:v2_tong2:

- - - Добавлено - - -

Цитата:

Сообщение от HardWareMan

Вы слышали про вавилонскую библиотеку?

я думал о таком только для картинок небольшого разрешения
но размеры и сложность обработки сразу.... ...что все это...
15.08.2017, 20:49
CodeMaster

Цитата:

Сообщение от NEO SPECTRUMAN

один из них будет соответствовать тому что мы запаковали

Даже не поднимая вопрос, как компьютер будет проверять осмысленность данных (пусть даже текста, ибо не факт, что ему можно будеть объяснить, что "Сильмариллион" это осмысленный текст), как компьютер узнает, какой именно текст мы запаковали?
15.08.2017, 21:05
NEO SPECTRUMAN

Цитата:

Сообщение от CodeMaster

Даже не поднимая вопрос, как компьютер будет проверять осмысленность данных (пусть даже текста, ибо не факт, что ему можно будеть объяснить, что "Сильмариллион" это осмысленный текст), как компьютер узнает, какой именно текст мы запаковали?

дык кодирование с контролем ошибок
контрольные суммы на каждые 256 байт например
номер файла с такой же хеш суммой по счету (скорей всего будет гигантских размеров)
ИИ (в далеком будещем например)

а так вероятность того что под эту же хеш суму
попадет какойто другой текст
без орфографических ошибок
лишних запятых
без непечатаемых символов итд
и содержащий осмысленный текст
наверное не так сильно высока

- - - Добавлено - - -

Цитата:

Сообщение от NEO SPECTRUMAN

Даже не поднимая вопрос, как компьютер будет проверять осмысленность данных

проблема не так проверить осмысленность данных
а перебрать все возможные комбинации байтов файла (ну или не все можно и как то оптимизировать)

при самых простых контрольных суммах на это уйдет неимоверное количество времени

но оно хорошо дружит с многопоточностью!!!

- - - Добавлено - - -

Цитата:

Сообщение от CodeMaster

какой именно текст мы запаковали?

наверное придется перебирать ручками
а оно ли это :v2_tong:
наверное это не сильно далеко уходит от "библиотеки" которую упомянул HardWareMan

понадобится еще целая куча места чтобы описать как отличить нужный файл
15.08.2017, 21:21
Spectramine

Цитата:

Сообщение от CodeMaster

Вроде нет. Она определяется вероятностью повторов.

Энтропия вычисляется на основании вероятностей/частот символов. Простая энтропия - независимыми вероятностями символов, условная - вероятностями с учётом предшествующих символов.

Зависимости символов возможны очень разные, и они определяют их вероятности появления, чем больше выявлено зависимостей, тем точнее вычисляются вероятности появления символов. Например, для текста важна зависимость вероятности текущего символа от предыдущего, а для экрана спектрума - зависимость вероятности текущего байта не только от предыдущего, но и от байта, отстоящего на 256 байт назад.

Повторы - это повторяющиеся цепочки символов, я так понимаю? Жмутся не только повторяющиеся цепочки, но и отдельные символы с разной частотой появления. Cуществуют и другие специфические "артефакты" входного потока, поддающиеся сжатию.

Цитата:

Это и есть перебор: добавили словарь одного размера, посчитали энтропию, добавили второй, опять посчитали и т.д. пока не нашли идеальный размер словаря для конкретных данных.

Можно просмотреть весь поток/файл полностью, выявить все повторяющиеся цепочки, построить словарь - расширение алфавита, размером с количество входных символов + количество выделенных повторяющихся цепочек. Далее считаем энтропию. Никакого перебора.
15.08.2017, 21:22
CodeMaster

Цитата:

Сообщение от NEO SPECTRUMAN

наверное придется перебирать ручками

Тогда уж сжимать книгу в код ISBN, а при распаковке брать её с полки и сканировать ручным сканером и распознавать OCR...

Думацо можно уже прекращать постить тут всякий бред.
15.08.2017, 21:27
NEO SPECTRUMAN

Цитата:

Сообщение от CodeMaster

Думацо можно уже прекращать постить тут всякий бред.

на основе этого бреда
мну вспомнил
один свой старый алгоритм по сжатию (с нимоверно долгой распаковкой)
и внезапно почти придумал еще один новый (который может даже будет что то жать но явно не в 2к любой файл...)
15.08.2017, 21:34
CodeMaster

Цитата:

Сообщение от weiv

Повторы - это повторяющиеся цепочки символов, я так понимаю?

Повторы это повторы, хоть символы, хоть цепочки которые идут подряд.

Цитата:

Сообщение от weiv

Например, для текста важна зависимость вероятности текущего символа от предыдущего

Какие зависимости для энтропийного сжатия?

Цитата:

Сообщение от weiv

Можно просмотреть весь поток/файл полностью, выявить все повторяющиеся цепочки, построить словарь - расширение алфавита, размером с количество входных символов + количество выделенных повторяющихся цепочек. Далее считаем энтропию. Никакого перебора.

Чего так архиваторы не делают?
15.08.2017, 22:53
Spectramine

Цитата:

Повторы это повторы, хоть символы, хоть цепочки которые идут подряд.

А, понятно, о каких повторах идет речь. Количество этих повторов действительно можно вычислить однозначно, но к вычислению энтропии они имеют отдаленное отношение. Для вычисления безусловной энтропии "повторы" вообще не используются, для условной они - редкий частный случай зависимости вероятности очередного символа от предыдущих.

Цитата:

Какие зависимости для энтропийного сжатия?

Для сжатия с фиксированными частотами символов, зависимостью можно считать общую таблицу частот символов. По оси X - номер символа, по оси Y - его частота. Зависимость, заданная таблично, плюс сумма частот символов =1, то есть частоты взаимозависимы.
Также для энтропийного сжатия используются зависимости частот символов от N-го количества предыдущих символов (условная энтропия).

Цитата:

Чего так архиваторы не делают?

Если размер буфера >= размера файла, они так и делают. В остальном - видимо, ограничения на объем используемой памяти/время архивации поджимают.
15.08.2017, 23:01
NEO SPECTRUMAN

А где нибудь применяется упаковка с потерями
а потом отдельная упаковка разницы с оригиналом?

так чтоб в итоге получалось без потерь
18.08.2017, 06:56
CodeMaster

Цитата:

Сообщение от weiv

Если размер буфера >= размера файла, они так и делают.

Появится время, проверю на практике.

Цитата:

Сообщение от NEO SPECTRUMAN

так чтоб в итоге получалось без потерь

Практически уверен, что коэффициент сжатия будет меньше, а время больше.
18.08.2017, 16:05
NEO SPECTRUMAN

Цитата:

Сообщение от CodeMaster

Практически уверен, что коэффициент сжатия будет меньше, а время больше.

~~разница для изображений\звука будет +\- несколько цифер~~ нет не будет
можно будет вообще срезать часть битов оставив знак и 2-4 бита на разницу
в придачу эти данные тоже можно будет запаковать

Цитата:

Сообщение от CodeMaster

коэффициент сжатия будет меньше, а время больше.

мне кажетсо должно быть среднее между сжатием с потерями и сжатием без потерь
а время должно увеличится не так значительно
сжатие с потерями, как по мне, требует больше ресурсов чем сжатие без потерь

- - - Добавлено - - -

взял png картинку 375кб
ужал жипиэгом в 28кб
разница запихнутая в png 300кб

если жо положить Jpg и разницу в bmp в архив
получается 215 кб

оригинал в bmp пожатый 7z-ипом, как и ожидалось, занимает 220кб
при этом сам png практически не жмется 373кб

выгодней хранить пакованные bmp-щки
18.08.2017, 17:30
Reobne

NEO SPECTRUMAN, Попробуй ещё сжать ту-же картинку, Jpg-ом на максимальном качестве. Это подразумевает без потерь.
19.08.2017, 11:43
NEO SPECTRUMAN

Цитата:

Сообщение от Reobne

Это подразумевает без потерь.

АГАЩАС без потерь...
19.08.2017, 19:10
Reobne

Когда экспериментировал, у меня получилось на максимальном сжатии 10% пикселей получили +-1. И ни одного пикселя не получили +-2 и более. И эта разница, после zip, в 5 раз меньше чем jpg.
Картинка картинке рознь.
19.08.2017, 21:13
NEO SPECTRUMAN

Цитата:

Сообщение от Reobne

И ни одного пикселя не получили +-2 и более.

плавные градиенты наверное лучше пожмуться

Цитата:

Сообщение от Reobne

Картинка картинке рознь.

ну до
06.10.2017, 00:15
Barmaley_m

Насколько я понимаю, стоит задача сжать один конкретный набор данных таким образом, чтобы размер депакера + размер запакованных данных были минимальными.

В таком случае теория знает эту задачу под названием "Колмогоровская сложность". Грубо говоря, колмогоровская сложность - это минимальная длина программы, которая выводит на экран заданную строку. При этом под "строкой" можно понимать распакованные данные, а под "выводом на экран" - процесс распаковки. Колмогоровская сложность зависит от того, на каком компьютере работает программа, но для компьютеров и языков общего назначения различия невелики.

К сожалению, в теории доказывается, что колмогоровская сложность невычислима. Не существует алгоритма, который мог бы по заданной строке рассчитать ее колмогоровскую сложность.

Следствие - не существует алгоритма, который бы по заданной строке нашел бы программу минимальной длины, которая выводит эту строку на экран. В самом деле, если бы такой алгоритм существовал - то можно было бы тупо измерить длину получившейся программы и тем самым вычислить колмогоровскую сложность, что противоречит п. 1.

Также невозможно проверить, является ли заданная программа минимальной для вывода на экран некоторой строки.

Если бы алгоритм расчета колмогоровской сложности существовал - то были бы возможны следующие чудеса. Например: мы берем последовательно числа 0, 1, 2, 3 и т.д. Шифруем эти числа каким-нибудь неизвестным науке шифром, ключ не запоминаем. Получаем абракадабру на несколько гигабайт. И скармливаем её программе расчета колмогоровской сложности (которая, как мы на минуту представили, существует). Так вот, при этом программа расчета колмогоровской сложности "увидела бы", что та абракадабра, которую мы ей скормили, является на самом деле зашифрованным текстом; нашла бы алгоритм шифрования и ключ. И оформила бы вывод этой абракадабры на экран самым коротким образом - "синтезировав" программу, фактически повторяющую процесс шифрования.

Текущее время: 09:32. Часовой пояс GMT +3.