Искусственный интеллект, медицина и творчество: разговор с датасайентистом медтех-стартапа
Технологии искусственного интеллекта – одно из самых перспективных направлений в мире информационных технологий. Благодаря сложной архитектуре нейросетей и способности к обработке огромного количества данных искусственный интеллект может применяться в самых разных сферах человеческой жизни, выполняя задачи, которые раньше считались прерогативой человека. А что насчёт сферы здравоохранения, как искусственный интеллект разрабатывается и применяется там?
Цельс с 2017 года занимается разработкой и внедрением систем искусственного интеллекта, которые помогают врачам-рентгенологам точнее и быстрее выявлять патологии на медицинских снимках. Мы решили взять интервью у Маши Гарец, которая уже три года работает в компании в качестве специалиста по Data Science. Она рассказала, каково работать в медицинской отрасли, будучи техническим специалистом, и чем эта отрасль так необычна.
Расскажи в двух словах о том, чем ты занимаешься в проекте
Я – ML-инженер, дата-сайентист, тимлид. Моя команда состоит из четырёх человек, мы работаем над направлением флюорографии и рентгена лёгких в Цельсе. Наша работа направлена на то, чтобы дать врачу дополнительное (второе) мнение о диагнозе пациента.
Процесс выглядит следующим образом: мы получаем рентгенологический снимок, обрабатываем его с помощью алгоритмов и подсвечиваем «зоны интереса» – области, куда врачу стоит внимательнее посмотреть, так как в этих областях могут находиться злокачественные новообразования или их зарождения. Наш продукт – это «рука помощи» врачу, которая, надеемся, делает его работу легче.
Я в этом процессе выполняю две роли: как тимлид я планирую работу и взаимодействие в команде, как ML-инженер я создаю и обучаю алгоритмы.
Маша Гарец и её команда
В твоей работе есть элемент творчества?
Нетривиальных задач очень много – и с точки зрения организаторских моментов, и технических.
Наша работа предполагает тестирование множества гипотез, мы не знаем, какие гипотезы увеличат метрики продукта, а какие нет. В таких условиях мы не можем точно спрогнозировать время – поэтому нам не подходят стандартные методологии, по которым работают IT-компании. Мы сделали выборку лучших практик из разных методологий и адаптировали этот «гибрид» под ML-разработку.
В технических задачах творчества, наверное, ещё больше. Я помню, как мы превращали флюорографические снимки в рентгенологические. Это было больше года назад, наш сервис работал только с флюорографией, а нам предложили добавить функционал для обработки рентген-снимков. Как обычно это бывает, размеченного набора данных с рентгенографическими данными для обучения нейросети у нас не было. Мы сделали анализ снимков и заметили, что флюорографические данные очень похожи на рентген – но только в «плохом» качестве, менее чётком.
У нас появилась идея превратить флюорографию в рентгенографию и воспользоваться существующим набором данных, на котором была разметка патологий. Мы использовали нейронную сеть, которая переводит один домен в другой: например, может превратить зебру в лошадь и обратно. Наш эксперимент показал, что действительно, флюорографические исследования стали более чёткими – но полного перехождения в другой домен всё же не получилось.
Чем отличается специфика работы с медицинскими данными от любых других данных?
Давайте начнем с того, что медицинские данные — это очень сложно и больно. Рентгенография и флюорография – снимки, на которых нет чёткой видимости объектов внутри лёгких, потому что это двухмерные изображения, которые отображают лёгкие в одной плоскости.
Зачастую врачам сложно однозначно поставить диагноз по снимку без дополнительной информации о пациенте: возраст, пол, температура тела, история о перенесённых заболеваниях и прочее. Это ведёт к конфликту мнений между врачами. Например, если мы попросим пять врачей разметить один и тот же снимок, скорее всего, мы не получим полного согласия по поводу размеченных патологий.
В будущем нам, ML-инженерам, предстоит придумать, как использовать при разработке продуктов опыт всех врачей, а также исключить человеческий фактор (например, врач устал и разметил патологию не тем классом).
Дополнительная сложность в медицинской сфере – тестирование моделей. Нам, ML-щикам, без медицинского образования очень сложно проводить визуальное тестирование нейронных сетей. Поэтому мы стараемся, как можно чаще взаимодействовать с врачами, устраивать совместные сессии и получать фидбек о работе нашего сервиса.
Изменилось ли твоё мнение о врачах в процессе работы?
Есть такой стереотип: если тебе не нахамили в поликлинике – значит, ты не был в поликлинике. Мой опыт общения с врачами полностью опровергает этот стереотип. Как правило, это очень вежливые и тактичные люди, которые терпеливо отвечают на все наши многочисленные вопросы. И врачи совсем не против технологического развития в медицине – а наоборот двигают его вперёд, сотрудничая с разработчиками.
У тебя появилась какая-то профдеформация в связи с тем, что твоя работа связана с медициной?
Да! За три года работы со снимками лёгких (флюорография и рентген) я повидала самые ужасные стадии сколиоза, которые действительно пугают. Поэтому, каждый раз, когда ловлю себя на том, что сутулюсь, моментально выпрямляю спину. И ещё я не курю.
Вообще до работы в Цельсе я меньше задумывалась о раке, не знала статистики заболеваний среди женщин и мужчин. Теперь знаю, что рак молочной железы самый распространенный среди женщин и что раз в год женщинам надо делать снимки груди (до 40 лет – УЗИ, после 40 – маммографию). Об этом важно помнить и этим не стоит пренебрегать.
Для тебя важна миссия в твоей работе?
Да. У меня есть глобальная цель: чтобы Цельс был удобным и качественным сервисом – настолько качественным, чтобы заменил врача. Шутка, конечно, никакой ИИ-сервис не заменит врача. Хочется, чтобы Цельс был достойным помощником, к мнению которому врач будет прислушиваться. Которым он будет пользоваться не потому, что заставили, а потому, что это действительно помогает. И в такой коллаборации – Врач-Цельс – не пропустим ни одного злокачественного новообразования.
Что сильнее всего мешает достичь этого результата? Технические нюансы или консервативность медицинской сферы, неосведомлённость?
По поводу бизнес-специфики, маркетинга и прочего я не могу сказать: это не моя зона компетенции. Но мы участвуем в эксперименте Департамента здравоохранения Москвы, где ИИ-сервисы используются в реальной клинической практике. Так что заинтересованность в применении таких технологий в рентгенологии есть.
Причина того, что сейчас мы не можем сделать идеальный продукт, заключается в том, что нам сложно добыть согласованную, верифицированную разметку патологий для обучения нейросетей. У разных врачей зачастую разное мнение по поводу одного и того же исследования. Как-то мы отдали данные для разметки пяти врачам и получили пять разных мнений. Из-за этого в финальной разметке мы получаем кашу-малашу, новогоднюю ёлку из патологий.
Мне кажется, что именно отсутствие «ground truth» (истинного значения) на медицинских снимках не даёт сделать суперточный продукт. Поэтому мечта любого разработчика медицинского ИИ – это так называемый «золотой датасет», то есть эталонный набор данных.
Какие советы ты можешь дать тем, кто начинает или только планирует начать свой путь в Data Science?
Для начала, неплохо было бы убедиться в том, что вам действительно интересно машинного обучение (или же вас занесло туда на волне хайпа, так как очень хотелось зарабатывать по 300 тысяч рублей в наносекунду, а на самом деле вы вообще мечтаете быть художником). Для это как минимум надо изучить что такое машинное обучение, как оно работает, какие задачи решает.
Если вы готовы глубоко погружаться в машинное обучение и проходить курсы по Python, статистике, математическому анализу, машинному обучению и прочее, я бы вам посоветовала не забывать уделять большое внимание практике, делать Pet-проекты (личные проект для души). Они позволяют получить реальный опыт работы, пройти через весь жизненный цикла продукта. В Pet-проектах вы ничем не ограничены, вы можете придумать самую безумную идею и реализовать её.
В моей жизни тоже были Pet-проекты. Я изучала языковые модели, рекуррентные сети – и, конечно, я хотела попробовать их в действии. Я поставила себе цель: cгенерировать текст песни с помощью рекуррентной модели, обученной на всех песнях лейбла Black Star Mafia. Планы у меня были амбициозные – я даже договорилась с друзьями-музыкантами, что они сыграют эту песню на своем концерте. Но, как оказалось, у Black Star Mafia не так уж много песен, и данных для обучения модели не хватило. В итоге вышла полная околесица, но я получила важный опыт: научилась ставить себе задачи, делать анализ предметной области, планировать работу, тестировать модель.
Когда я проходила собеседование, у меня не было опыта работы в ML/DL – но именно Pet-проекты помогли мне успешно его пройти.