Новости

      ∇²DFT: Прорыв в квантовой химии и машинном обучении для медицинской химии

      ∇²DFT: Прорыв в квантовой химии и машинном обучении для медицинской химии

      На конференции NeurIPS 2024 в Канаде была представлена работа «∇²DFT: универсальный датасет квантово-химических свойств лекарственных молекул и бенчмарк нейросетевых моделей». Исследование, выполненное группой ученых под руководством Елены Тутубалиной из AIRI и ИСП РАН, представляет крупнейший в мире датасет с объемом данных свыше 200 Тб и открывает новые горизонты в области компьютерного моделирования молекул, медицинской химии и разработки лекарств.

      1. Что такое ∇²DFT и в чем его уникальность?

      Ключевые особенности датасета

      ∇²DFT — это значительное расширение предыдущего датасета nablaDFT, направленное на исследование молекул, применимых в медицинской химии:

      • Масштаб:
        • Более 2 миллионов молекул.
        • Более 16 миллионов конформаций молекул (различные геометрические структуры).
      • Типы данных:
        • Энергии, силы взаимодействия, матрицы Гамильтона и перекрытий, а также волновые функции.
        • Траектории геометрической релаксации молекул для изучения их стабильных состояний​.
      • Расчеты: выполнены на уровне теории функционала плотности (DFT) с использованием ωB97X-D/def2-SVP метода.

      Почему это важно?

      • Большинство существующих методов квантовой химии, таких как Post-Hartree-Fock или Quantum Monte Carlo, обладают высокой точностью, но требуют огромных вычислительных ресурсов.
      • ∇²DFT упрощает обучение нейросетевых потенциалов (NNPs) — моделей, способных предсказать свойства молекул на основе их структуры, что позволяет значительно ускорить вычисления​.

      2. Вклад в развитие медицинской химии

      Задачи и применение

      1. Предсказание свойств молекул:
        • Оценка энергии и сил взаимодействия между атомами позволяет моделировать поведение лекарственных молекул.
        • Пример: улучшение понимания стабильности молекулярных структур и их активности в биологических системах.
      2. Оптимизация структуры молекул:
        • Датасет включает траектории релаксации для более чем 60 тысяч конформаций, что позволяет моделировать пути к стабильным геометрическим состояниям молекул.
      3. Разработка новых лекарств:
        • Машинное обучение на основе ∇²DFT позволяет значительно ускорить поиск потенциальных лекарственных молекул, снижая потребность в дорогостоящих экспериментах.

      Пример практического использования

      Предыдущие квантово-химические наборы данных, такие как QM9 и ANI-1, ограничены небольшим количеством молекул и типов атомов. В отличие от них, ∇²DFT охватывает широкий спектр лекарственных молекул, включая атомы C, N, S, O, F, Cl, Br и H, что делает его идеальным для медицинской химии​.

      3. Бенчмарк и фреймворк для нейросетевых моделей

      Бенчмарк задач

      Исследователи предложили бенчмарк для оценки нейросетевых моделей по трем ключевым задачам:

      1. Предсказание матрицы Гамильтона (основа квантовых расчетов).
      2. Предсказание энергии и сил взаимодействия.
      3. Оптимизация геометрии молекул (конформационная релаксация).

      Результаты тестирования моделей

      В рамках исследования были протестированы 10 современных моделей, включая SchNet, PaiNN, GemNet-OC и EquiformerV2.

      • Лучшие результаты для предсказания энергии и сил были достигнуты моделями GemNet-OC и PaiNN, особенно на больших наборах данных​.
      • В задаче оптимизации геометрии модели на основе NNP значительно обошли классические методы, такие как RDKit-MMFF и полуэмпирические подходы (xTB), по метрике pctsuccess (вероятность успешной релаксации)​.

      4. Сравнение с существующими датасетами

      ДатасетМолекулыКонформацииСвойстваРазмер
      QM9134,000134,000Энергия, дипольные моменты230 Мб
      ANI-1x57,00020 млнЭнергия, силы4.5 Тб
      ∇²DFT (новый)2 млн16 млнЭнергия, силы, Гамильтониан220 Тб

      Таким образом, ∇²DFT значительно превосходит существующие наборы данных по объему, типам молекулярных свойств и релевантности для фармацевтической отрасли​.

      5. Выводы и рекомендации

      Основные выводы:

      1. ∇²DFT — крупнейший и наиболее универсальный квантово-химический датасет для лекарственных молекул.
      2. Новый бенчмарк и фреймворк позволяют ускорить разработку и тестирование нейросетевых моделей.
      3. Потенциал для медицинской химии: модели, обученные на ∇²DFT, могут значительно улучшить предсказание свойств молекул и ускорить разработку новых лекарств.

      Рекомендации:

      • Разработчикам нейросетевых моделей: использовать ∇²DFT для улучшения предсказательной мощности алгоритмов.
      • Исследователям в медицинской химии: интегрировать модели на основе ∇²DFT для оптимизации лекарственных молекул.
      • Индустрии: развертывать инфраструктуру для работы с большими наборами данных (более 200 Тб).

      Заключение

      Работа, представленная на конференции NeurIPS, демонстрирует огромный прорыв в области квантовой химии и машинного обучения. ∇²DFT не только расширяет возможности для моделирования молекулярных систем, но и закладывает основу для более быстрого и точного поиска новых лекарств.

      Hi, I’m rinn

      Добавить комментарий

      Ваш адрес email не будет опубликован. Обязательные поля помечены *