∇²DFT: Прорыв в квантовой химии и машинном обучении для медицинской химии
На конференции NeurIPS 2024 в Канаде была представлена работа «∇²DFT: универсальный датасет квантово-химических свойств лекарственных молекул и бенчмарк нейросетевых моделей». Исследование, выполненное группой ученых под руководством Елены Тутубалиной из AIRI и ИСП РАН, представляет крупнейший в мире датасет с объемом данных свыше 200 Тб и открывает новые горизонты в области компьютерного моделирования молекул, медицинской химии и разработки лекарств.
1. Что такое ∇²DFT и в чем его уникальность?
Ключевые особенности датасета
∇²DFT — это значительное расширение предыдущего датасета nablaDFT, направленное на исследование молекул, применимых в медицинской химии:
- Масштаб:
- Более 2 миллионов молекул.
- Более 16 миллионов конформаций молекул (различные геометрические структуры).
- Типы данных:
- Энергии, силы взаимодействия, матрицы Гамильтона и перекрытий, а также волновые функции.
- Траектории геометрической релаксации молекул для изучения их стабильных состояний.
- Расчеты: выполнены на уровне теории функционала плотности (DFT) с использованием ωB97X-D/def2-SVP метода.
Почему это важно?
- Большинство существующих методов квантовой химии, таких как Post-Hartree-Fock или Quantum Monte Carlo, обладают высокой точностью, но требуют огромных вычислительных ресурсов.
- ∇²DFT упрощает обучение нейросетевых потенциалов (NNPs) — моделей, способных предсказать свойства молекул на основе их структуры, что позволяет значительно ускорить вычисления.
2. Вклад в развитие медицинской химии
Задачи и применение
- Предсказание свойств молекул:
- Оценка энергии и сил взаимодействия между атомами позволяет моделировать поведение лекарственных молекул.
- Пример: улучшение понимания стабильности молекулярных структур и их активности в биологических системах.
- Оптимизация структуры молекул:
- Датасет включает траектории релаксации для более чем 60 тысяч конформаций, что позволяет моделировать пути к стабильным геометрическим состояниям молекул.
- Разработка новых лекарств:
- Машинное обучение на основе ∇²DFT позволяет значительно ускорить поиск потенциальных лекарственных молекул, снижая потребность в дорогостоящих экспериментах.
Пример практического использования
Предыдущие квантово-химические наборы данных, такие как QM9 и ANI-1, ограничены небольшим количеством молекул и типов атомов. В отличие от них, ∇²DFT охватывает широкий спектр лекарственных молекул, включая атомы C, N, S, O, F, Cl, Br и H, что делает его идеальным для медицинской химии.
3. Бенчмарк и фреймворк для нейросетевых моделей
Бенчмарк задач
Исследователи предложили бенчмарк для оценки нейросетевых моделей по трем ключевым задачам:
- Предсказание матрицы Гамильтона (основа квантовых расчетов).
- Предсказание энергии и сил взаимодействия.
- Оптимизация геометрии молекул (конформационная релаксация).
Результаты тестирования моделей
В рамках исследования были протестированы 10 современных моделей, включая SchNet, PaiNN, GemNet-OC и EquiformerV2.
- Лучшие результаты для предсказания энергии и сил были достигнуты моделями GemNet-OC и PaiNN, особенно на больших наборах данных.
- В задаче оптимизации геометрии модели на основе NNP значительно обошли классические методы, такие как RDKit-MMFF и полуэмпирические подходы (xTB), по метрике pctsuccess (вероятность успешной релаксации).
4. Сравнение с существующими датасетами
Датасет | Молекулы | Конформации | Свойства | Размер |
---|---|---|---|---|
QM9 | 134,000 | 134,000 | Энергия, дипольные моменты | 230 Мб |
ANI-1x | 57,000 | 20 млн | Энергия, силы | 4.5 Тб |
∇²DFT (новый) | 2 млн | 16 млн | Энергия, силы, Гамильтониан | 220 Тб |
Таким образом, ∇²DFT значительно превосходит существующие наборы данных по объему, типам молекулярных свойств и релевантности для фармацевтической отрасли.
5. Выводы и рекомендации
Основные выводы:
- ∇²DFT — крупнейший и наиболее универсальный квантово-химический датасет для лекарственных молекул.
- Новый бенчмарк и фреймворк позволяют ускорить разработку и тестирование нейросетевых моделей.
- Потенциал для медицинской химии: модели, обученные на ∇²DFT, могут значительно улучшить предсказание свойств молекул и ускорить разработку новых лекарств.
Рекомендации:
- Разработчикам нейросетевых моделей: использовать ∇²DFT для улучшения предсказательной мощности алгоритмов.
- Исследователям в медицинской химии: интегрировать модели на основе ∇²DFT для оптимизации лекарственных молекул.
- Индустрии: развертывать инфраструктуру для работы с большими наборами данных (более 200 Тб).
Заключение
Работа, представленная на конференции NeurIPS, демонстрирует огромный прорыв в области квантовой химии и машинного обучения. ∇²DFT не только расширяет возможности для моделирования молекулярных систем, но и закладывает основу для более быстрого и точного поиска новых лекарств.