Машинное обучение открывает новые потенциальные противотуберкулезные препараты

Машинное обучение — это вычислительный инструмент, который используют многие биологи для анализа огромных объемов данных, помогая им определять потенциальные новые лекарства. Исследователи Массачусетского технологического института теперь включили новую функцию в эти типы алгоритмов машинного обучения, улучшив их способность делать прогнозы.

Используя этот новый подход, который позволяет компьютерным моделям учитывать неопределенность в данных, которые они анализируют, команда Массачусетского технологического института определила несколько многообещающих соединений, нацеленных на белок, необходимый для бактерий, вызывающих туберкулез.

По словам Бонни Бергер, профессора математики Саймонса и главы группы по вычислениям и биологии, этот метод, который ранее использовался компьютерными учеными, но не получил широкого распространения в биологии, может оказаться полезным при разработке белков и во многих других областях биологии. в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL).

«Этот метод является частью известного раздела машинного обучения, но люди не использовали его в биологии», — говорит Бергер. «Это смена парадигмы, и именно так должны проводиться биологические исследования».

Бергер и Брайан Брайсон, доцент кафедры биологической инженерии Массачусетского технологического института и сотрудник Института Рагона при MGH, Массачусетском технологическом институте и Гарварде, являются старшими авторами исследования, которое сегодня публикуется в Cell Systems. Аспирант Массачусетского технологического института Брайан Хи — ведущий автор статьи.

Лучшие прогнозы

Машинное обучение — это тип компьютерного моделирования, в котором алгоритм учится делать прогнозы на основе данных, которые он уже видел. В последние годы биологи начали использовать машинное обучение для просмотра огромных баз данных о потенциальных лекарственных соединениях в поисках молекул, которые взаимодействуют с конкретными целями.

Одним из ограничений этого метода является то, что, хотя алгоритмы хорошо работают, когда данные, которые они анализируют, похожи на данные, на которых они были обучены, они не очень хороши в оценке молекул, которые сильно отличаются от тех, которые они уже видели.

Чтобы преодолеть это, исследователи использовали метод, называемый гауссовским процессом, для присвоения значений неопределенности данным, на которых обучаются алгоритмы. Таким образом, когда модели анализируют данные обучения, они также принимают во внимание, насколько надежны эти прогнозы.

Например, если данные, входящие в модель, предсказывают, насколько сильно конкретная молекула связывается с целевым белком, а также неопределенность этих прогнозов, модель может использовать эту информацию для прогнозирования взаимодействий белок-мишень, которых у нее нет. видел раньше. Модель также оценивает достоверность собственных прогнозов. При анализе новых данных предсказания модели могут иметь меньшую уверенность для молекул, которые сильно отличаются от данных обучения. Исследователи могут использовать эту информацию, чтобы помочь им решить, какие молекулы тестировать экспериментально.

Еще одно преимущество этого подхода состоит в том, что алгоритму требуется лишь небольшой объем обучающих данных. В этом исследовании команда Массачусетского технологического института обучила модель с помощью набора данных из 72 небольших молекул и их взаимодействия с более чем 400 белками, называемыми протеинкиназами. Затем они смогли использовать этот алгоритм для анализа почти 11 000 малых молекул, взятых из базы данных ZINC, общедоступного хранилища, содержащего миллионы химических соединений. Многие из этих молекул сильно отличались от таковых в обучающих данных.

Используя этот подход, исследователи смогли идентифицировать молекулы с очень сильной предсказанной аффинностью связывания с протеинкиназами, которые они использовали в модели. К ним относятся три киназы человека, а также одна киназа, обнаруженная у Mycobacterium tuberculosis. Эта киназа, PknB, имеет решающее значение для выживания бактерий, но не является мишенью для каких-либо противотуберкулезных антибиотиков.

Затем исследователи экспериментально проверили некоторые из своих лучших результатов, чтобы увидеть, насколько хорошо они фактически связываются со своими целями, и обнаружили, что прогнозы модели были очень точными. Среди молекул, которым модель присвоила наибольшую достоверность, около 90 процентов оказались истинными попаданиями — намного выше, чем 30-40 процентов существующих моделей машинного обучения, используемых для проверки на наркотики.

Исследователи также использовали те же данные для обучения традиционному алгоритму машинного обучения, который не учитывает неопределенность, а затем проанализировали ту же библиотеку из 11000 молекул. «Без неопределенности модель просто ужасно сбивается с толку и предлагает очень странные химические структуры, взаимодействующие с киназами», — говорит Хие.

Затем исследователи взяли некоторые из своих самых многообещающих ингибиторов PknB и протестировали их против Mycobacterium tuberculosis, выращенных в бактериальной культуральной среде, и обнаружили, что они ингибируют рост бактерий. Ингибиторы также работали в иммунных клетках человека, инфицированных этой бактерией.

Хорошая отправная точка

Еще одним важным элементом этого подхода является то, что, как только исследователи получают дополнительные экспериментальные данные, они могут добавить их в модель и повторно обучить, улучшая прогнозы. Исследователи говорят, что даже небольшой объем данных может помочь модели стать лучше.

«Вам действительно не нужны очень большие наборы данных на каждой итерации, — говорит Хи. «Вы можете просто переобучить модель с помощью, возможно, 10 новых примеров, которые биолог может легко создать».

Это первое за многие годы исследование, предлагающее новые молекулы, которые могут нацеливаться на PknB, и должно дать разработчикам лекарств хорошую отправную точку для разработки лекарств, нацеленных на киназу, говорит Брайсон. «Теперь мы предоставили им несколько новых сведений, помимо того, что уже было опубликовано», — говорит он.

Исследователи также показали, что они могут использовать тот же тип машинного обучения для увеличения флуоресцентного излучения зеленого флуоресцентного белка, который обычно используется для маркировки молекул внутри живых клеток. По словам Бергера, он также может быть применен ко многим другим типам биологических исследований, которые сейчас используют его для анализа мутаций, которые приводят к развитию опухоли.

Исследование финансировалось Министерством обороны США через Национальную стипендию по науке и технике обороны США; Национальные институты здоровья; Институт Рэгона при MGH, Массачусетском технологическом институте и Гарварде и Департамент биологической инженерии Массачусетского технологического института.