При предсказании индексов удерживания с помощью глубокого обучения обычно нет способа оценить надежность предсказания для конкретной молекулы. В данной работе на примере неподвижных фаз на основе полиэтиленгликоля и базы данных NIST 17 показано, что в среднем предсказание тем точнее, чем более близкая по структуре к соединению, для которого выполняется предсказание, молекула находилась в обучающем наборе данных. Сходство по Танимото “молекулярных отпечатков пальцев” ECFP – наиболее подходящий для этой задачи алгоритм вычисления молекулярного подобия из четырех рассмотренных. Показано, что для ряда продуктов трансформации несимметричного диметилгидразина, структура которых была установлена с использованием такого предсказания, оно могло быть весьма ненадежным.
Изучено влияние способа стандартизации структуры молекулы и параметров расчета молекулярных отпечатков пальцев на точность предсказания константы кислотности. Показано, что стандартизация, т.е. выбор таутомерной формы и способа записи структуры молекулы, с помощью OpenEye QuacPac дает наилучшие результаты, однако библиотека RDKit позволяет достигнуть сравнимой точности. Установлено, что способ выбора зарядового состояния оказывает большое влияние на точность предсказания. Исследована точность предсказания в зависимости от радиуса (размера подструктур) круговых молекулярных отпечатков пальцев, лучшие результаты достигаются при использовании радиуса r = 2. Использован случайный лес – один из алгоритмов машинного обучения. Кроме того, показано, что метод опорных векторов также дает достаточно высокую точность при оптимизации гиперпараметров.
Индексирование
Scopus
Crossref
Higher Attestation Commission
At the Ministry of Education and Science of the Russian Federation