Почти 15 лет прошло с тех пор, как ученые впервые секвенировали человеческий геном, открыв путь к огромному объему данных, в которых закодирована жизнь. Расшифровать их — это именно та задача, которую можно доверить компьютеру. DeepVariant помогает превратить сложные данные в картину полного генома, автоматически идентифицируя небольшие проявления мутаций.
Высокопроизводительное секвенирование стало широко доступно в 2000-х и позволило облегчить этот процесс. Но данные, созданные с его помощью, давали лишь ограниченный и небезошибочный срез полного генома. Обычно ученым непросто отделить небольшие мутации от случайных ошибок, вызванных самим процессом секвенирования, особенно в повторяющихся участках генома. Однако эти мутации могут оказаться напрямую связанными с такими заболеваниями, как рак. Существует ряд программ для интерпретации этих данных (GATK, VarDic и FreeBayes), но они обычно применяют упрощенные методы статистики или машинного обучения для идентификации мутаций.
DeepVariant был разработан специалистами Google Brain и Verily, другого подразделения Alphabet, занимающегося биологией и медициной. Ученые собрали миллионы высокопроизводительных ридов (отдельных прочтений фрагмента ДНК) и полностью секвенированных геномов, взятых в открытом проекте Genome in the Bottle (GIAB). Они скормили эти данные системе глубокого обучения и старательно меняли параметры модели, пока она не научилась интерпретировать данные с высокой точностью.
Как сообщает MIT Technology Review, DeepVariant будет доступен на платформе Google Cloud.
Зависимость от смартфона меняет химию мозга
Кейсы
Выход DeepVariant важен еще и потому, что он демонстрирует, что глубокое обучение может использоваться в генетике для автоматического обучения систем, которые показывают лучшие результаты, чем сложные, созданные вручную системы», — говорит Брендан Фрей, глава канадской компании Deep Genomics, которая собирается разрабатывать лекарства нового поколения.