При предсказании индексов удерживания с помощью глубокого обучения обычно нет способа оценить надежность предсказания для конкретной молекулы. В данной работе на примере неподвижных фаз на основе полиэтиленгликоля и базы данных NIST 17 показано, что в среднем предсказание тем точнее, чем более близкая по структуре к соединению, для которого выполняется предсказание, молекула находилась в обучающем наборе данных. Сходство по Танимото “молекулярных отпечатков пальцев” ECFP – наиболее подходящий для этой задачи алгоритм вычисления молекулярного подобия из четырех рассмотренных. Показано, что для ряда продуктов трансформации несимметричного диметилгидразина, структура которых была установлена с использованием такого предсказания, оно могло быть весьма ненадежным.
Изучено влияние способа стандартизации структуры молекулы и параметров расчета молекулярных отпечатков пальцев на точность предсказания константы кислотности. Показано, что стандартизация, т.е. выбор таутомерной формы и способа записи структуры молекулы, с помощью OpenEye QuacPac дает наилучшие результаты, однако библиотека RDKit позволяет достигнуть сравнимой точности. Установлено, что способ выбора зарядового состояния оказывает большое влияние на точность предсказания. Исследована точность предсказания в зависимости от радиуса (размера подструктур) круговых молекулярных отпечатков пальцев, лучшие результаты достигаются при использовании радиуса r = 2. Использован случайный лес – один из алгоритмов машинного обучения. Кроме того, показано, что метод опорных векторов также дает достаточно высокую точность при оптимизации гиперпараметров.
Индексирование
Scopus
Crossref
Высшая аттестационная комиссия
При Министерстве образования и науки Российской Федерации