Инженеры-биомедики из Университета Дьюка продемонстрировали новый метод, который значительно повышает эффективность моделей машинного обучения при поиске новых молекулярных терапевтических средств, используя лишь небольшую часть доступных данных. Работая с алгоритмом, который активно выявляет пробелы в наборах данных, исследователи в некоторых случаях могут более чем вдвое повысить точность своих моделей.
Этот новый подход может упростить задачу ученым в идентификации и классификации молекул с характеристиками, которые могут быть полезны для разработки новых лекарственных препаратов и других материалов.
Эта работа была опубликована в журнале Digital Discovery, издаваемом Королевским химическим обществом 23 июня.
Алгоритмы машинного обучения все чаще используются для идентификации и прогнозирования свойств малых молекул, таких как лекарственные препараты и другие соединения. Несмотря на значительный прогресс в вычислительной мощности и алгоритмах машинного обучения, их возможности в настоящее время ограничены существующими наборами данных, на которых они обучаются, которые далеки от идеальных.
Одной из основных проблем является предвзятость данных. Это происходит, когда значительное количество точек данных демонстрируют одно свойство гораздо чаще, чем другое, например, потенциальную способность молекулы ингибировать определенный белок или характеристики ее структуры.
«Это похоже на то, если вы обучите алгоритм различать фотографии собак и кошек, но дадите ему миллиард фотографий собак для обучения и всего сто фотографий кошек», — объяснил Дэниел Рекер, доцент биомедицинской инженерии в Университете Дьюка. «Алгоритм станет настолько хорош в определении собак, что все будет казаться собакой, и он забудет все остальное в мире».
Это особенно проблематично для открытия и разработки лекарств, где ученые часто имеют дело с наборами данных, в которых более 99% протестированных соединений являются «неэффективными», и только небольшая доля молекул помечена как потенциально полезные.
Чтобы преодолеть эту проблему, исследователи используют процесс, известный как субдискретизация данных, при котором их алгоритм учится на небольшом, но репрезентативном подмножестве данных. Хотя этот процесс может устранить предвзятость, давая модели равное количество примеров для обучения, он также может исключить ключевые точки данных и негативно сказаться на общей точности алгоритма. Чтобы компенсировать это, исследователи разработали сотни техник субдискретизации, чтобы ограничить количество потерянной информации.
Но Рекер и его коллеги хотели исследовать, может ли техника, известная как активное машинное обучение, решить эту давнюю проблему.
«С активным машинным обучением алгоритм в основном может задавать вопросы или запрашивать дополнительную информацию, если он запутался или обнаружил пробел в данных, а не просто просматривать их пассивно», — сказал Рекер. «Это делает модели активного обучения очень эффективными в прогнозировании результатов».
Обычно Рекер и другие исследователи применяют алгоритмы активного обучения для генерации новых данных, например, для идентификации новых лекарств, но Рекер и его команда хотели исследовать, что произойдет, если алгоритму разрешить работать с существующими наборами данных. В то время как это применение активного машинного обучения с субдискретизацией изучалось в других исследованиях, Рекер и его команда были первыми, кто протестировал алгоритм в молекулярной биологии и разработке лекарств.
Чтобы проверить эффективность своего подхода активной субдискретизации, команда собрала наборы данных молекул с различными характеристиками, включая молекулы, которые могут проникать через гематоэнцефалический барьер, молекулы, которые могут ингибировать белок, связанный с болезнью Альцгеймера, и соединения, которые показали способность ингибировать репликацию ВИЧ. Затем они протестировали свой алгоритм активного обучения на моделях, которые обучались на полном наборе данных, и на 16 передовых стратегиях субдискретизации.
Команда показала, что активная субдискретизация способна идентифицировать и прогнозировать молекулярные характеристики более точно, чем каждая из стандартных стратегий субдискретизации, и, что самое важное, в некоторых случаях она была на 139% более эффективна, чем алгоритм, обученный на полном наборе данных. Их модель также могла точно корректировать ошибки в данных, что указывает на то, что она может быть особенно полезной для низкокачественных наборов данных.
Но самое удивительное заключалось в том, что команда обнаружила, что оптимальное количество данных, которое следует использовать, было гораздо меньше, чем ожидалось, в некоторых случаях требовалось всего 10% доступных данных.
«Существует точка, где модель активной субдискретизации собирает всю необходимую информацию, и если вы добавите больше данных, это наносит вред производительности», — пояснил Рекер. «Эта проблема была для нас особенно интересной, потому что она намекает на то, что существует точка перегиба, где дополнительная информация больше не полезна, даже в подвыборке».
В то время как Рекер и его команда надеются исследовать эту точку перегиба в будущих работах, они также планируют использовать этот новый подход для идентификации новых молекул для потенциальных терапевтических целей. Поскольку активное машинное обучение становится популярным во многих различных областях исследований, команда оптимистична относительно того, что их работа поможет ученым лучше понять этот алгоритм и его устойчивость к ошибкам в данных.
«Этот подход не только повышает производительность машинного обучения, но также может сократить потребность в хранении данных и затраты на это, поскольку он работает с более уточненным набором данных», — сказал Рекер. «Это делает машинное обучение более воспроизводимым, доступным и мощным для всех».