Журнал исследований фармацевтики и доставки лекарств

Подход ансамблевого обучения для прогнозирования связей в крупномасштабных графах биомедицинских знаний для повторного использования и открытия лекарств

Кай Лю, Винеш Прабхакар, Чау Ву, Дженнифер Кроуфорд и Джозеф Уэйт

Генерация вложений графа знаний (KGE) для представления сущностей (узлов) и отношений (ребер) в крупномасштабных наборах данных графа знаний была сложной проблемой в обучении представлению. Это в первую очередь связано с тем, что вложения/векторные представления, необходимые для кодирования полного объема данных в большом неоднородном графе, должны иметь высокую размерность. Ориентация большого количества векторов требует много места, что достигается путем проецирования вложений на более высокие измерения. Это не масштабируемое решение, особенно когда мы ожидаем, что граф знаний будет увеличиваться в размерах, чтобы включить больше данных. Любые попытки ограничить вложения меньшим количеством измерений могут быть проблематичными, поскольку недостаточное пространство для пространственной ориентации большого количества вложений/векторных представлений в ограниченном количестве измерений может привести к плохому выводу в последующих задачах, таких как прогнозирование связей, которое использует эти вложения для прогнозирования вероятности существования связи между двумя или более сущностями в графе знаний. Это особенно актуально для больших графов биомедицинских знаний, которые связывают несколько различных сущностей, таких как гены, заболевания, сигнальные пути, биологические функции и т. д., которые клинически значимы для применения KG для открытия лекарств. Поэтому размеры графов биомедицинских знаний намного больше по сравнению с типичными эталонными наборами данных графов знаний. Это создает огромную проблему при создании вложений/векторных представлений хорошего качества для представления скрытой семантической структуры графа. Попытки обойти эту проблему путем увеличения размерности вложений часто приводят к аппаратным ограничениям, поскольку создание высокоразмерного вложения является вычислительно затратным и часто неосуществимым. Для практического представления скрытой структуры таких крупномасштабных графов знаний (KG) в нашей работе предлагается модель ансамблевого обучения, в которой полный граф знаний разбивается на несколько меньших подграфов, а модели KGE генерируют вложение для каждого отдельного подграфа. Результаты прогнозирования связей из моделей KGE, обученных на каждом подграфе, затем объединяются для создания консолидированного набора прогнозов связей по всему графу знаний. Экспериментальные результаты продемонстрировали значительное улучшение показателей оценки на основе рангов в прогнозах связей, специфичных для задач, а также общих прогнозов связей на четырех открытых наборах данных биомедицинского графа знаний.

Отказ от ответственности: Этот реферат был переведен с помощью инструментов искусственного интеллекта и еще не прошел проверку или верификацию