Такие языковые модели, как GPT-4 и Claude, мощные и полезные, но данные, на которых они обучены, являются тщательно охраняемой тайной. Исследовательский институт искусственного интеллекта Аллена (AI2) стремится изменить эту тенденцию, представив новый огромный текстовый набор данных, который бесплатен для использования и открыт для проверки.
Набор данных, названный Dolma, призван стать основой для планируемой исследовательской группой открытой языковой модели, или OLMo (Dolma — это сокращение от «Данные для утоления аппетита OLMo»). Поскольку предполагается, что модель будет свободно доступна для использования и модификации исследовательским сообществом ИИ, то же самое (утверждают исследователи AI2) должно относиться и к используемому ими набору данных для ее создания.
Это первый «артефакт данных», который AI2 предоставляет в связи с OLMo, и в блоге Лука Солдани из этой организации объясняет выбор источников и обоснование различных процессов, которые команда использовала, чтобы сделать его пригодным для потребления ИИ. («Более подробная статья находится в работе», — отмечают они в самом начале).
Хотя такие компании, как OpenAI и Meta*, публикуют некоторые из жизненно важных статистических данных о наборах данных, которые они используют для построения своих языковых моделей, большая часть этой информации считается собственностью компании. Помимо известного последствия сдерживания широкомасштабного контроля и улучшения, есть предположения, что, возможно, этот закрытый подход обусловлен тем, что данные были получены неэтично или незаконно: например, что в базы данных были включены пиратские копии книг многих авторов.
Конечно, это прерогатива этих компаний в контексте острой конкурентной борьбы в области ИИ — оберегать секреты процессов обучения своих моделей. Но для исследователей за пределами компаний это делает эти наборы данных и модели менее прозрачными и трудными для изучения или воспроизведения.
Набор данных Dolma от AI2 призван стать противоположностью этому, при этом все его источники и процессы — например, как и почему он был сокращен до оригинальных текстов на английском языке — публично документируются.
Это не первая попытка сделать открытый набор данных, но это самый большой (3 миллиарда токенов, мера объема контента, принятая в ИИ) и, по их заявлению, наиболее прямолинейный в плане использования и разрешений. Он использует «лицензию ImpACT для артефактов среднего риска». В основном она требует от потенциальных пользователей Dolma:
- Предоставить контактную информацию и предполагаемые сценарии использования
- Раскрыть информацию о любых производных от Dolma
- Распространять эти производные по той же лицензии
- Соглашаться не применять Dolma к различным запрещенным областям, таким как наблюдение или дезинформация
Для тех, кто беспокоится, что, несмотря на все усилия AI2, часть их персональных данных могла попасть в базу данных, доступна форма запроса на удаление. Это для конкретных случаев, а не просто общего «не используйте меня».
Если все это звучит для вас хорошо, доступ к Dolma доступен через Hugging Face.
*Meta признана экстремистcкой организацией в России.