Обходные пути машинного обучения оказались малоэффективными

Будущее, пронизанное искусственным интеллектом, несет огромные обещания практически во всех аспектах нашей жизни — от медицины до образования, от промышленности до финансов.

Но это имеет свою цену — буквально. Чтобы обучить GPT-4, компания OpenAI потратила 100 миллионов долларов, по словам генерального директора Сэма Альтмана.

Хотя некоторые чат-боты предлагаются бесплатно, небольшие компании, желающие создать чат-бот сервис, заплатят около 4000 долларов, согласно блогу Accubits. И согласно компании по искусственному интеллекту Figure Eight, создание набора данных для машинного обучения может стоить до 100 долларов за задачу. Более того, исследование Стэнфордского университета выявило, что маркировка всего одного набора изображений для машинного обучения стоит 3,50 доллара за изображение. Аренда необходимых облачных вычислительных платформ может превышать 5 долларов в час.

Поэтому экономия является актуальным вопросом среди потенциальных пользователей.

Исследователи из Университетского колледжа Лондона и Эдинбургского университета разработали систему измерения, которая сравнивала результаты стандартных подходов машинного обучения и альтернативных средств, рассматриваемых компаниями в качестве мер по экономии затрат. Они обнаружили, что альтернативные методы машинного обучения принесли лишь минимальные результаты.

Они провели исследование нескольких вариаций трех основных категорий моделей эффективности.

«В большинстве случаев эти методы, которые зачастую значительно более сложны и требуют больших усилий по реализации, в наших экспериментах на самом деле не привели к значительному улучшению», — сказал Оскар Кей из Университетского колледжа Лондона и соавтор доклада.

Три категории, которые изучала команда:

Пакетный выбор, который включает обработку групп данных, а не отдельных компонентов. Простым примером было бы добавление слова к имени файла большого количества цифровых фотографий, чтобы более четко идентифицировать их. Пакетная операция, которая переименовывает их мгновенно, быстрее и, в конечном итоге, дешевле, чем изменение имен по одному.

Наложение слоев, при котором используется несколько слоев блоков нейронной сети при последовательной обработке данных. Это позволяет моделям изучать сложные языковые структуры и взаимосвязи. Например, модели используют наложение, чтобы распознавать грамматику, семантику и тональность языкового ввода и соответствующим образом формировать вывод в режиме реального времени. Стиль, тон и голос модифицируются в соответствии с подсказками на различных слоях нейронной сети.

Эффективные оптимизаторы, которые, как следует из их названия, представляют собой алгоритмы, направленные на ускорение поисковых функций, минимизацию бесполезных операций, ускорение процесса обучения и, в идеале, получение лучших решений. Исследователи использовали относительно новый оптимизатор София, который, по утверждениям, вдвое быстрее, чем более распространенный передовой оптимизатор Адам.

Несмотря на успешное пропускание ненужных данных, игнорирование менее актуальных данных и оптимизацию полезных и уместных данных, эти подходы привели к худшим результатам.

Наложение слоев было единственным процессом, который привел к незначительным приростам в «обучении и валидации», согласно отчету. Но такие приросты «исчезают» по мере увеличения продолжительности обучения.

Другими словами, оптимизация машинного обучения может использовать меньше вычислительных мощностей и быть менее дорогой, но результаты хуже, и их можно улучшить только за счет дополнительного обучения и затрат.

«Обучение моделей до разумных показателей работы обычно очень дорого», — говорит Жан Каддур, еще один автор доклада.

Доклад «Без тренировки нет прибыли: пересмотр эффективных алгоритмов обучения для моделей языка на основе трансформера» опубликован на сервере препринтов arXiv.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *