Истории / Искусственный интеллект

Как большие данные меняют биологию. Михаил Гельфанд – о генах и эволюции

С помощью больших данных предсказывают даже «жизнь» умершей клетки

03 декабря 2019, 20:08

Как большие данные меняют биологию. Михаил Гельфанд – о генах и эволюции

Биология, как и многие другие науки, сегодня развивается благодаря исследованию больших данных. Почему ответить на многие биологические вопросы можно, только проведя вычисления на компьютере, как предсказать дальнейшую «жизнь» умершей клетки и какие вопросы не решит нейронная сеть, рассказал доктор биологических и кандидат физико-математических наук Михаил Гельфанд. Знаменитый российский биоинформатик выступил на прошедшей технологической конференции «Яндекса» – YaTalks.

От философии до больших данных

Как раньше была устроена биология? Сначала она была разделом философии. Когда Аристотель говорил, что у мухи восемь ног, он это делал исходя из базовых принципов. Ноги мухам никто не считал, и то, что у мухи шесть ног, обнаружилось много веков спустя. Это скорее городская легенда, но она отражает содержательную часть.

Потом началась наблюдательная биология, из которой появилась ботаника и зоология классическая. Ученые довольно поздно сообразили, что можно делать эксперименты над живыми существами. Например, посадить мышку под стеклянный колпак, откачать кислород и посмотреть, что будет. Появились эксперименты и люди начали смотреть в микроскоп и видеть клетки. Люди стали наблюдать не сами явления, а их последствия. Переход от непосредственного наблюдения к косвенному эксперименту предвосхитил бионформатику. Сегодня есть разделение биологии на in vivo и in silicо – экспериментальная и на компьютере.

Фото: Павел Лебедев

Биоинформатика в значительной степени не наука, а набор навыков, который хороший биолог употребляет в разных ситуациях. На огромное количество биологических вопросов можно ответить, лишь проводя вычисления на компьютере.

У меня есть такая история. Была ученица, к окончанию мехмата имела несколько статей биоинформатических параллельно с основным дипломом. Потом сказала, что хочет заниматься экспериментальной биологией и поступила в аспирантуру в UCLA в Лос-Анджелес. Довольно давно уже дело было. Там ей надо было найти белок, который некторая бактерия впрыскивает в нашу клетку, чтобы эта бактерия в этой клетке могла потом жить.

Она долго пыталась найти этот белок, но не могла. Ее новый начальник вспомнил, что она занималась биоинформатикой и может провести вычисления. Неделю она посидела за компьютером и нашла четыре потенциальных кандидата, которые могли бы эту функцию выполнять. Сэкономилось несколько месяцев работы. И это то, как была устроена биологическая биоинформатика, которой я в частности занимаюсь, где-то до нулевых годов.

В нулевых годах произошел некоторый перелом, потому что экспериментальные технологии стали насколько эффективными и настолько дешевыми, что данных стало очень много. Биология двинулась по тому же пути таких почтенных наук, как, например, астрофизика или физика высоких энергий.

В бионформатике, во-первых, появились большие данные, а во-вторых, теперь мы можем изучать не отдельные белки и гены, а смотреть на работу клетки целиком.

Я вас обманул, как любой нормальный лектор, когда сказал, что биоинформатика – не наука. За биоинформатикой стоит фундаментальная наука, которая называется молекулярная эволюция. На самом деле все эмпирические приемы, которые мы используем, имеют глубокий эволюционный субстрат. Чтобы понять, как оно работает сейчас, надо понять, как оно появилось. В некоторых отраслях это продвинулось сильнее, как в классической молекулярной биологии, в некоторых хуже, например, в структурной биологии.

Большие данные в структурной биологии имеются для разрозненных организмов: человек, дрозофила, дрожжи, между ними слишком большие расстояния. Но начинают проводиться работы, в которых, например, изучают, как работают мозги у приматов, не сразу у всех, а у нескольких дюжин, и вот в этом месте можно эволюционные вещи делать, но такие работы только начинаются.

Факторы транскрипции

Я расскажу одну довольно узкую линию. В том, что я попытаюсь рассказывать, будет единый сюжет, но тематически – это далеко не вся биоинформатика. Я буду рассказывать про факторы транскрипции и про белки, которые связываются с молекулами ДНК.

У меня был челлендж, потому что есть замечательная книжка Александра Маркова и Елены Наймарк «Перспектива отбора». Там написано, что нельзя пугать читателя термином сайт-связывания транскрипционных факторов. Книжку советую, но об транскрипционном анализе рассказывать буду.

У нас есть белки. Белок с одной стороны – это просто строка из 20 букв-аминокислот. С молекулярной точки зрения – последовательность, которая свернута в структуру. То, как белок связывается с ДНК, будет зависеть от того, как он связался с какой-то малой молекулой. У нас есть участок, который кодирует белок, нам надо работу гена включать и отключать в зависимости от внешних условий. Есть фермент РНК-полимераза, который копирует ген. Есть последовательность, которая называется оператор и с ним связывается белок-репрессор. Если репрессор связан с РНК, ДНК не может работать.

Для того чтобы понять, как регулируется работа гена, надо понять, какие операторы перед этим геном в последовательности находятся, это одна из задач молекулярной биологии. Ну, например, мы можем искать их экспериментально.

Оказалось, что, когда появились большие данные, мы можем описывать, как работает клетка целиком. Часто бывает, что мы экспериментально не знаем ничего, а мотив найти хотим. Мы же можем смотреть не на один геном, а сразу на много. Тут стоит вспомнить принцип Вальда.

Фото: пресс-служба «Яндекса»

Эта история из Второй мировой войны. Абрахам Вальд был математик, по происхождению австрийский еврей, который в конце 30-х годов успел сообразить, что происходит, и из Австрии переехать в Соединенные Штаты. Там он работал в стратегическом бюро на Манхэттене, в конторе, которая решала математические задачи по заказам военных. Это может быть поучительно, я сейчас скажу почему, даже в контексте более широком, чем бионформатика.

Самолеты союзников, которые летали бомбить Германию, несли большие потери от зениток. Стало ясно, что надо укреплять броню. Проблема в том, что если у бомбардировщика как следует укрепить броню, то он из бомбардировщика превратится в танк и летать не сможет, просто по весу.

У заказчиков было следующее техзадание – посчитать дырки на вернувшихся самолетах, сказать, в каких областях самолета больше всего дырок. И мы потом эти места в самолете будем прикрывать броней. Всем ли понятно, почему это плохое техзадание? Потому что здесь ошибка выжившего. Дырки считаются в тех самолетах, которые вернулись, а не в тех, которые упали. Вальд это понял и решил противоположную задачу, он посчитал, в каких местах самолетов дырок меньше, чем ожидается.

Мораль этой истории в том, что не надо слушать заказчика, надо решать не ту задачу, которую он говорит, а ту, которая ему на самом деле нужна. И это никакая нейронная сеть вам не сделает.

Мутации

Что происходит с последовательностью геномов? А то же самое. У нас есть случайный поток мутаций из-за ошибок копирования. Дальше, если какая-нибудь мутация оказалась нейтральной, эволюция их не замечает и приспособленность организмов оказывается такой же. А есть мутации плохие, которые понижают жизнеспособность. Например, испортилась регуляция какого-либо гена или испортилась последовательность какого-либо гена и он кодирует неправильный белок.

Мутации будут консервативны, мутации в базовых позициях будут происходить гораздо реже, чем в нейтральных. Действительно, те позиции, в которых связываются факторы транскрипции, консервативны, образуют консервативные островки на этом выравнивании. ДНК – это линейная молекула, и где-то она упакована более рыхло, а где-то более компактно. Там, где упакована плотно – гены молчат. А там, где ДНК упакована более рыхло – там гены работают.

Тут есть некая великая загадка, для нас, многоклеточных, в особенности, почему геном каждой клетки одинаковый, а клетки и ткани разные. Потому что в разных типах клеток работают разные гены, работа генов регулируются факторами транскрипции и, кроме того, упаковкой.

Там есть сложная игра, до сих пор не очень понятно, что первично, что вторично. Наблюдение состоит в том, что интенсивно работающие области генома – в них ДНК более рыхлое.

Как узнать где рыхлое, где не рыхлое? Делается следующий эксперимент. Берем белок. Выделяем ДНК сначала, но так нежно, чтобы упаковку не поменять, разрушаем клетки, мембраны клеток и наливаем белок. Белок режет ДНК. Фишка в том, что рыхлые участки этому белку разрезать легко, а плотно упакованные участки белку разрезать трудно, молекуле трудно добраться до каждой конкретной точки в белке. ДНК выделяем на большой популяции клеток.

От рыхлых участков будет много коротких фрагментов, от компактных участков будет больше длинных фрагментов. Связывание белков или фрагментов генома – вещи биологически определенные. Там, где ДНК была рыхлая, попало много фрагментов, а где ДНК была плотно упакована – разрезов мало.

«Астрология для людей с хорошей памятью»

Коллеги научились предсказывать не только как гены работают сейчас, в момент эксперимента, но и то, как эти клетки работали бы через некоторое время, если бы мы эту клетку не убили. Фишка в том, что на изображении каждая клетка превращается в вектор – ее состояние сейчас и состояние, которое проецируется в будущее. Можем посмотреть на эти векторные поля. Поток изменений клеток идет слева направо. На картинке видно как предшественники превращаются в разные типы клеток. Чтобы такие картинки рисовать и интерпретировать, нужна хорошая математика.

Фото: пресс-служба «Яндекса»

Если вы знаете, какие гены регулируют работу других генов, можете сделать изображение в виде сети. Можете смотреть, как устроены иерархии, маленькие элементы сети. Это такая зоологическая часть этой науки. А можно делать ислледования в эволюционной биологии.

Мы изучали эволюцию регуляторной системы и по дороге сделали кучу конкретных предсказаний. И у нас была большая таблица, где выписано, где какой ген и как регулируется. Мы опубликовали статью, а потом я давал семинар в Гессене в Германии, и, как полагается, после семинара желающие со мной пообщаться записываются и мы общаемся.

Я захожу в очередную лабораторию – там вот такая фрау-профессор серьезного вида, у нее на столе наша статья и галочками в таблице помечено. И я понимаю, что где-то сидит аспирант и по строчке проверяет предсказания. Она заметила, что я обратил внимание на таблицу, улыбнулась и сказала: «Пока все в порядке». На самом деле это наука рискованная, такая астрология, но легко проверяемая, «астрология для людей с хорошей памятью».

В целях сохранения благозвучности некоторые цитаты приведены не дословно.

Фото на обложке: пресс-служба «Яндекса»

Авторы