Языковые модели искусственного интеллекта могут превосходить PNG и FLAC по степени сжатия без потерь, говорится в исследовании

Эффективное сжатие — это поиск закономерностей, позволяющих уменьшить размер данных без потери информации. Если алгоритм или модель могут точно угадать следующий фрагмент данных в последовательности, это свидетельствует о том, что они хорошо умеет находить такие закономерности. Это связывает идею правильного угадывания, что очень хорошо получается у таких больших языковых моделей, как GPT-4, с достижением хорошего сжатия.

В научно-исследовательской работе на arXiv под названием «Языковое моделирование — это сжатие» («Language Modeling Is Compression»), исследователи подробно рассказывают о том, что большая языковая модель (LLM) DeepMind под названием Chinchilla 70B способна сжимать без потерь фрагменты изображений из базы данных ImageNet до 43,4% от их исходного размера, опережая алгоритм PNG, который сжимал те же данные до 58,5%. Что касается аудио, то Chinchilla сжимает образцы из набора аудиоданных LibriSpeech всего до 16,4% от их исходного размера, опережая FLAC-сжатие на 30,3%.

В данном случае меньшие цифры в результатах означают, что сжатие происходит сильнее. А сжатие без потерь означает, что в процессе сжатия не теряются данные. Он отличается от метода сжатия с потерями, например JPEG, при котором часть данных теряется, а часть восстанавливается с помощью аппроксимации в процессе декодирования, что позволяет значительно уменьшить размер файла.

Результаты исследования показывают, что, несмотря на то, что Chinchilla 70B была обучена в основном работе с текстом, она удивительно эффективно сжимает и другие типы данных, причем зачастую лучше, чем алгоритмы, специально разработанные для этих задач. Это открывает возможность рассматривать модели машинного обучения не только как инструменты для предсказания и написания текстов, но и как эффективные способы уменьшения размера различных типов данных.

В последние два десятилетия некоторые ученые-компьютерщики предложили считать, что способность эффективно сжимать данные сродни общему интеллекту. Эта идея основана на том, что понимание мира часто связано с выявлением закономерностей и осмыслением сложностей, что, как уже было сказано выше, аналогично тому, что делает хорошее сжатие данных. По мнению сторонников этой идеи, алгоритм сжатия данных, сокращая большой набор данных до более компактной и удобной формы и сохраняя при этом их основные характеристики, демонстрирует определенную форму понимания или представления этих данных.

Премия Хаттера является примером, позволяющим сфокусировать внимание на идее сжатия как формы интеллекта. Премия, названная в честь Маркуса Хаттера, исследователя в области ИИ и одного из авторов статьи DeepMind, присуждается тому, кто сможет наиболее эффективно сжать определенный набор англоязычных текстов. В основе премии лежит предположение о том, что для высокоэффективного сжатия текста необходимо понимать семантические и синтаксические закономерности языка, аналогично тому, как их понимает человек.

Таким образом, теоретически, если машина может сжимать такие данные очень хорошо, это может свидетельствовать о наличии у нее общего интеллекта — или, по крайней мере, о шаге в этом направлении. Хотя не все специалисты в этой области согласны с тем, что победа в конкурсе «Премия Хаттера» свидетельствует о наличии общего интеллекта, конкурс подчеркивает совпадение задач сжатия данных и целей создания более интеллектуальных систем.

В связи с этим исследователи DeepMind утверждают, что связь между прогнозированием и сжатием данных не является односторонней. Они утверждают, что если у вас есть хороший алгоритм сжатия, например gzip, то его можно перевернуть и использовать для генерации новых, оригинальных данных на основе того, что он узнал в процессе сжатия.

В одном из разделов работы (раздел 3.4) исследователи провели эксперимент по генерации новых данных в различных форматах — текст, изображение и аудио — заставив gzip и Chinchilla предсказать, что будет следующим в последовательности данных после обработки образца. Понятно, что gzip справился с задачей не очень хорошо, выдав совершенно бессмысленный результат, по крайней мере, для человеческого разума. Это показывает, что, хотя gzip можно заставить генерировать данные, они могут быть не очень полезны, кроме как в качестве экспериментальной диковинки. С другой стороны, Chinchilla, созданная для обработки языка, предсказуемо показала гораздо лучшие результаты в генеративной задаче.

Хотя статья DeepMind о сжатии языковых моделей ИИ не прошла рецензирование, она представляет собой интригующее окно в потенциальные новые области применения больших языковых моделей. Взаимосвязь между сжатием и интеллектом является предметом постоянных дискуссий и исследований, поэтому в ближайшее время мы, вероятно, увидим новые работы на эту тему.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *