История одного проекта, или хакатон как челлендж

Александр Фролов

Автор проекта DMPipeline

Расскажите друзьям
Виктория Кравченко
Александр Фролов

Хакатон, кодфест, марафон программирования, hack day – как ни назови, сегодня это один из самых популярных форматов мероприятий в ИТ-сфере.

Такой вид соревнований похож на классическую работу над полноценным проектом, только жизненный цикл сокращается до 24 или 48 часов и условия диктуют номинации от организаторов и партнеров. 

Александр Фролов, автор проекта DMPipeline, написал колонку для Rusbase, в которой рассказал о том, что было сделано за 48 часов на AI Hackathon, организованном Science guide совместно с Flint Capital, Haxus и Embria Ventures.

Победа или участие – что важнее на хакатоне?

Наш проект получил второе место и признание представителей венчурных фондов потенциала, который заложен в применении технологий искусственного интеллекта, машинного обучения и работы с большими данными в медицине и фармацевтике.


Отправная точка любого успеха — это желание


Я стараюсь следить за интересными IT-мероприятиями, семинарами и конференциями в нашем городе. Где-то за месяц до начала хакатона увидел в интернете информацию и зарегистрировался. Вначале думал присоединиться к какой-нибудь команде, чья идея мне понравилась бы, потом все же решил участвовать со своим проектом.


Моделирование и разработка молекул — это что-то вроде небольшого хобби для меня. Есть фраза: «физика — это то, чем занимаются физики в свободное время по вечерам».


Эта фраза полностью описывает меня, в свободное время по выходным мне интересно читать статьи, разбираться в современных алгоритмах и подходах хемоинформатики, computational biology и drug design. Поэтому нисколько не сомневался, что надо идти и участвовать в AI Hackathon.



Мне хотелось услышать мнения о проекте со стороны, посмотреть, какие вопросы появятся у экспертов, чтобы оценить привлекательность идеи «со стороны», понять, где кроются проблемы и какие могут быть точки улучшения. Сразу хочу сказать, что это был мой первый прототип, разработанный вместе с командой, до этого были только идеи, статьи, эксперименты. Опыт участия в таком масштабном хакатоне на 270 человек также для меня в новинку.


Прогресс происходит вне зоны комфорта


Вообще, разработка лекарств на основе малых молекул – это сложная и ресурсоемкая задача.


В среднем у фармацевтических компаний уходит от 7 до 15 лет на разработку лекарственной молекулы, проведение множества тестов и клинических испытаний.


На одном из этапов разработки из разных фрагментов собираются молекулы, синтезируются. На этих молекулах проводятся различные тесты – молекулы должны быть растворимы, обладать низкой кардиотоксичностью, обладать хорошей проницаемостью в клетку и так далее. А также они должны быть активными по отношению к онкологической мишени.


Это все дорого и долго. Как правило, даже у больших фармкомпаний нет возможности синтезировать и изучить все возможные химические структуры. Хакатон стал для меня выходом из, что называется, зоны комфорта, и pipeline был призван автоматизировать часть из вышеупомянутых процессов.



Мы можем на компьютере перебрать огромное химическое пространство молекул, чего никогда не удастся сделать в реальной лаборатории, оценить их физико-химические свойства и получить структуры наиболее привлекательные, чтобы стать лекарством от того или иного заболевания!


Берись и делай


Мы реализовали проект в виде SaaS-приложения и назвали DMPipeline (Druggable Molecules Pipeline). Главная цель проекта – улучшить качество лекарственных молекул и снизить затраты на R&D.



Довести проект до прототипа было сложной задачей, так как постоянно присутствовал соблазн погрузиться в изучение статей об алгоритмах ML и экспериментов с разными библиотеками. Мы даже успели пообучать сетку на Шекспире, как, наверное, все когда-то делали :)


В финале DMPipeline состоял из трех блоков:

  1. Генерация молекул предобученной RNN на основе прототипа (лекарственная молекула). Мы обучили рекурентную сеть (lstm) на выборке из 17 млн. drug like молекул.
  2. Прогнозирование физико-химических свойств (растворимость, проницаемость через кровь) с помощью xgboost. Обучающая выборка включает 1800 молекул с известной растворимостью и 700 структур с данными по проницаемости через кровь.
  3. Ранжирование и выбор топа наиболее близких по свойствам молекул к прототипу. Осуществляется процесс с помощью анализа фармацевтической молекулы (прототипа), в результате которого сервис предоставляет набор похожих молекул, обладающих приемлемыми фармакологическими свойствами и активностью по отношению к заболеванию.

В дальнейшем мы планируем реализовать и четвертый блок: предсказание схемы синтеза.


Стек технологий у нас достаточно тривиален:

  • бекенд – python, Flask, gunicorn как wsgi и все стартует supervisor,
  • ML – xgboost, char-rnn,
  • работа с молекулами – rdkit, AutoDock.

Конечно, мы понимаем, что в виде Saas-платформы наш сервис не будет востребован. Для фармацевтических компаний одна из главных ценностей — это данные, и они не готовы их отдавать на сторону, то есть загружать в сторонние приложения. Pipeline скорее должен быть выполнен как Daas-приложение. Но у нас есть несколько идей и относительно того, как сделать загрузку на наш сервис безопасной, с точки зрения утечки информации, и мы планируем их реализовать.



Кроме того, мы хотим улучшить UI/UX, расширить функциональность и спектр решаемых задач, а также добавить возможность интеграции с существующими платформами, применяемыми в фармацевтических компаниях.


Проект Stanislavsky Ventures ищет 15 компаний из Москвы, которых 5 месяцев будет бесплатно готовить к осенним международным стартап-конкурсам и конференциям. Заявки принимаются до 16 мая 2017, старт программы подготовки — в июне. Узнайте подробности и подайте заявку по ссылке.



В споре рождается истина, или все занимаются всем


С командой мы познакомились только в первый день хакатона, до этого были знакомы только виртуально. Особенно важно, что среди нас нет профессиональных data science специалистов. И для нас было очень интересно погружение в область AI, своего рода челлендж! Вся команда – это четыре человека.


  • Миша – очень крутой разработчик,
  • Таня – биоинформатик, закончила Академический Университет, работала в фармкомпании,
  • Света – закончила ФиЗфак СПбГУ (ФизФак чемпион!), сейчас работает программистом,
  • Я так же закончил ФизФак (молекулярная биофизика), занимался drug design'ом, сейчас работаю в одном крутом стартапе.

Могу сказать, что все занимались всем. И подготовку данных для обучения, и стек технологий, и презентацию – все это мы обсуждали и готовили вместе. Каждый делился своими знаниями, высказывал мнение, именно поэтому на выходе мы получили продукт, в который верит каждый из нас.


Вся работа проходила на площадке. По домам разъезжались на несколько часов, чтобы немного поспать и почитать чуть-чуть про алгоритмы ML.

Молекула, которая находится в активном центре онкологической мишени


Если вы игнорируете подготовку – вы готовитесь к неудаче


Вопрос, как использовать 48 часов у нас не стоял. В первый же день мы нашли выборку молекул, почистили ее, и запустили обучаться сеть. К концу хакатона сеть так до конца и не дообучалась, поэтому пришлось генерировать молекулы на недообученной сети. Но, признаться, качество структур оказалось весьма приемлемым. Я ожидал более плохого результата.


В первый день мы быстренько набросали прототип бекенда, потом в последний день его уже переделывали, точнее, Миша в срочном порядке его доделывал, пока готовили презентацию. Фактически за первый день мы разобрались с генерацией молекул, а второй день посвятили фильтрации по физико-химическим свойствам и активности. Мы нашли несколько датасетов, попробовали разные модели.

Хотел бы отметить, что модель для оценки растворимости показала себя весьма неплохо! Молекулы, которые в итоге оказались в финальной выборке имели хвостики с ионизированным азотом или сульфамидом, которые действительно обеспечивают растворимость!


Уже в последний день мы все собирали в единый pipeline, отлаживали наше приложение и готовили выступление. А спустя день после хакатона заметили, что наша сетка поняла, что кислород и азот могут быть ионизованными, но не всегда правильно расставляет заряд.


Так появилась новая задачка для нас – придумать, как усовершенствовать нашу сеть, чтобы при заданном pH она отбирала правильные структуры.


Следуйте за видением, а не за деньгами, и тогда деньги придут


Мы не ожидали победы, поэтому оказались приятно удивлены. Кроме приза в 200 000 рублей, нам еще предоставили возможность на три месяца оставить себе сервер с GPU!


Мне очень нравится фраза: «Чем больше ты делаешь, тем больше ты сможешь сделать». Если есть идея, нужно пробовать! Хакатон — отличное мероприятие, чтобы попробовать свои силы и в программировании, и в качестве организатора или креативщика, проверить свою выдержку, смелость, умение делать презентации и общаться с людьми.


«Быть самым богатым человеком на кладбище не имеет для меня никакого значения. Ложиться спать с мыслью, что мы сделали нечто прекрасное – вот что для меня важно» — думаю, все знают, чьи это слова.


Поэтому ключевым фактором в любой истории или бизнесе является возможность заниматься любимым и интересным делом. Только такой путь – правильный и успешный! А если же твой проект еще и помогает другим, спасает жизни людей, то он найдет свою нишу.


Не рискует только тот, кто ничего не делает


Сейчас мы пробуем разные идеи, которые не успели опробовать в рамках хакатона.


За последние несколько лет появилось много стартапов в области healthcare. Большинство из них связано с персонализированной медициной или генетикой. В области малых молекул у нас пока, наверное, нет конкуренции – на память приходят только две компании: Atomwise и Insilo Medicine (наши соотечественники, ребята большие молодцы, у них есть интересные наработки).


  • С одной стороны, у нас есть четкое понимание, как должен выглядеть продукт, кто потенциальные пользователи и какие у них на сегодняшний день есть потребности.
  • С другой стороны, мы знаем, насколько эта предметная область сложна (можно сказать, что она только на этапе становления), и как мало пока сделано. Но надо работать, изучать и пробовать новое, экспериментировать!

Что касается продвижения, среди моих знакомых многие работают в фармкомпаниях, лабораториях, университетах. Мы часто общаемся, делимся новостями и могу сказать, что как минимум топ 20 фармацевтических компаний сотрудничают со стартапами или имеют свои внутренние команды, которые работают на стыке AI, химии, биологии. Востребованность есть, возможности огромны!


Но через 2 или 4 месяца ждать готовый прототип, появление новой компании и завоевание рынка не стоит – рано ☺


Успех обычно приходит к тем, кто слишком занят, чтобы его просто ждать


Конечно, хакатонами сегодня уже никого не удивить, и не на каждом из них рождается что-то, даже условно похожее на продукт. Однако если жизнь подсказывает и подкидывает вам разные варианты для эксперимента, извлекайте из них максимум.


  1. На AI Hackathon я нашел себе в команду недостающие «умы». Так, еще и нам очень помогли советами специалисты по Data Science, которые присутствовали на площадке.
  2. Мы задавали экспертам технические вопросы, даже узнавали об их опыте профессионального роста в своих компаниях.
  3. Много полезного вынесли после представления прототипа – тут уже нам были заданы очень полезные вопросы, которые теперь стоит обдумать и проанализировать.
  4. Еще на представлении идей (а их было 57 вместе с нашим) я для себя отметил несколько интересных проектов. Некоторые из алгоритмов планирую применить в нашем pipeline.

Вообще, новые знакомства лишними не бывают! И лично мы попали на хакатоне в такую атмосферу кодинга, когда столько людей в одном месте рождают проекты, что само по себе мотивирует на достижение высоких планок.


Материалы по теме:

Как в Кремниевой долине делают смерть «необязательной»: часть 1

Медицинские исследователи из Гарварда разработали приставку для смартфонов, измеряющую мужскую фертильность

Alphabet представила «умные» часы для медицинских исследований

Apple разрабатывает устройство для борьбы с сахарным диабетом

«Яндекс» запустит сервис телемедицины до конца апреля — «Известия»

В Стэнфорде изобрели эластичную синтетическую кожу (прямо как в «Мире Дикого Запада»)



Комментарии

  • noonv 09:17, 19.04.2017
    0
    Отличная история! Успехов!
Комментарии могут оставлять только авторизованные пользователи.
IT Synergy
23 ноября 2017
Ещё события


Telegram канал @rusbase