Microsoft открыла исходный код EvoDiff, нового искусственного интеллекта, генерирующего белки

Белки — природные молекулы, выполняющие ключевые клеточные функции в организме, — являются строительными блоками всех болезней. Характеристика белков позволяет выявить механизмы развития заболевания, в том числе способы замедления его развития или потенциального обращения вспять, а создание белков может привести к появлению совершенно новых классов лекарств и терапевтических средств.

Однако нынешний процесс создания белков в лаборатории требует больших затрат — как вычислительных, так и человеческих. Для этого необходимо придумать структуру белка, которая могла бы выполнять определенную задачу в организме, затем найти последовательность белков — последовательность аминокислот, из которых состоит белок, — способную «складываться» в эту структуру. (Белки должны правильно складываться в трехмерные формы, чтобы выполнять свои функции).

Это не обязательно должно быть так сложно.

На этой неделе компания Microsoft представила универсальный фреймворк EvoDiff, который, как утверждает компания, может генерировать «высокоточные» и «разнообразные» белки на основе белковой последовательности. В отличие от других систем генерации белков, EvoDiff не требует никакой структурной информации о целевом белке, что избавляет от самого трудоемкого этапа.

По словам старшего научного сотрудника Microsoft Кевина Янга, EvoDiff может использоваться для создания ферментов для новых терапевтических средств и методов доставки лекарств, а также новых ферментов для промышленных химических реакций.

Мы предполагаем, что EvoDiff расширит возможности белковой инженерии, выйдя за рамки парадигмы «структура-функция» и перейдя к программируемому проектированию с учетом последовательности», — сказал Янг, один из соавторов EvoDiff, в интервью. С помощью EvoDiff мы демонстрируем, что для управляемого конструирования новых белков нам, возможно, не нужна структура, а достаточно лишь «последовательности белка»».

Основой системы EvoDiff является модель с 640 млн. параметров, обученная на данных по различным видам и функциональным классам белков. («Параметры» — это части модели искусственного интеллекта, полученные на основе обучающих данных и определяющие, по сути, квалификацию модели в решении той или иной задачи — в данном случае генерации белков). Данные для обучения модели были взяты из набора данных OpenFold для выравнивания последовательностей и UniRef50, подмножества данных из UniProt, базы данных белковых последовательностей и функциональной информации, поддерживаемой консорциумом UniProt.

EvoDiff — это диффузионная модель, схожая по архитектуре со многими современными моделями генерации изображений, такими как Stable Diffusion и DALL-E 2. EvoDiff учится постепенно вычитать шум из исходного белка, почти полностью состоящего из шума, приближая его — медленно, шаг за шагом — к белковой последовательности.

Диффузионные модели находят все большее применение в областях, не связанных с созданием изображений: от создания конструкций новых белков, как в EvoDiff, до создания музыки и даже синтеза речи.

«Если что-то и можно вынести из EvoDiff, то это идею о том, что мы можем — и должны — заниматься созданием белков, а не последовательностей, благодаря общности, масштабу и модульности, которых мы можем достичь», — сказала старший научный сотрудник Microsoft Ава Амини, еще один соавтор EvoDiff. «Наш диффузионный фреймворк дает нам возможность делать это, а также контролировать, как мы проектируем эти белки для достижения конкретных функциональных целей».

По словам Амини, EvoDiff может не только создавать новые белки, но и, так сказать, заполнять «пробелы» в существующей конструкции белка. Например, при наличии части белка, которая связывается с другим белком, модель может сгенерировать вокруг этой части аминокислотную последовательность белка, удовлетворяющую заданным критериям.

Поскольку EvoDiff проектирует белки в «пространстве последовательностей», а не в структуре белков, она также может синтезировать «неупорядоченные белки», которые в конечном итоге не складываются в конечную трехмерную структуру. Как и нормально функционирующие белки, неупорядоченные белки играют важную роль в биологии и болезнях, например, усиливают или снижают активность других белков.

Следует отметить, что исследования, положенные в основу EvoDiff, не прошли рецензирование — по крайней мере, пока. Сара Аламдари, специалист по данным из Microsoft, принимавшая участие в проекте, признает, что предстоит еще «много работы по масштабированию», прежде чем фреймворк будет использоваться на коммерческой основе.

«Это всего лишь модель с 640 млн. параметров, и мы можем увидеть улучшение качества генерации, если увеличим масштаб до миллиардов параметров», — сказала Аламдари. «Хотя мы продемонстрировали несколько стратегий, для достижения еще более тонкого контроля мы хотели бы дополнить EvoDiff текстом, химической информацией или другими способами задать желаемую функцию».

В качестве следующего шага команда EvoDiff планирует протестировать белки, сгенерированные моделью, в лабораторных условиях, чтобы определить, насколько они жизнеспособны. Если они окажутся жизнеспособными, то начнется работа над следующим поколением фреймворка.

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *