Смена подходов в компьютерном зрении: Как ИИ открывал клетку заново
05 февраля 2026
Смена подходов в компьютерном зрении: Как ИИ открывал клетку заново
- 11
- 0
- 0
Метафора пещеры Платона: исследователи анализируют не саму клетку, а ее проекцию на изображении. Развитие методов компьютерного зрения постепенно уточняет эту проекцию.
рисунок автора статьи, адаптированный нейросетью Gemini AI
-
Автор
-
Редакторы
Статья на конкурс «Био/Мол/Текст»: На заре обработки биологических снимков исследователь проводил долгие часы, вручную обводя контуры клеток или даже подсчитывая клетки микроскопического поля в камере Горяева. Развитие технологий обработки изображений позволило автоматизировать такие задачи, как подсчет клеток на снимке и их классификация. Это значительно продвинуло разработку лекарств (быстрый анализ выживаемости), диагностику заболеваний и многие другие направления исследований. В этой статье рассмотрим эволюцию подходов к определению клеток на микроскопических изображениях в задачах компьютерного зрения — как методы анализа клеточных снимков развивались от алгоритмов с жестко заданными правилами обработки пикселей к нейросетевым моделям, использующим обучение на данных, геометрические представления формы и самообучение. И разберемся, почему каждый новый подход возникал как ответ на ограничения предыдущего, и как со временем менялся сам способ формального описания клеточной структуры.
Конкурс «Био/Мол/Текст»-2025/2026
Эта работа опубликована в спецноминации «Искусственный интеллект в биологии» конкурса «Био/Мол/Текст»-2025/2026.
Генеральный партнер конкурса — международная инновационная биотехнологическая компания BIOCAD.
Партнер номинации — компания Центральный университет в лице совместной с институтом AIRI Лаборатории ИИ, анализа данных и моделирования.
«Книжный» спонсор конкурса — «Альпина нон-фикшн»
Подход 1. Правила над пикселями
Первые методы анализа биологических снимков появились благодаря чисто инженерному подходу: можно описать изображение набором математических правил. У пикселя есть свойства, характеристики, которые можно закодировать числом — яркость или цвет, например. Алгоритму не нужно «понимать» клетку, ему нужно лишь следовать инструкциям, работая с изображением как с массивом чисел.
Сегментация клеточных изображений — это процесс автоматического выделения и разделения отдельных клеток или их частей. Именно такая задача лежит в основе большинства рассмотренных алгоритмов компьютерного зрения. Рассмотрим три из них — сначала пороговая обработка отделяет объекты от фона, как грубая заготовка, затем морфологические операции шлифуют и уточняют контуры. Когда же клетки слипаются, метод водораздела выступает как искусный резчик, аккуратно разделяющий слипшиеся формы на отдельные «скульптуры». Последовательное применение этих методов превращает хаотичное изображение в образ клеток.
Пороговая обработка (thresholding): самый простой «цифровой скальпель»
Итак, у нас есть массив чисел. Каждое число — яркость какого-то пикселя, а порядок чисел в массиве соответствует положению пикселей. Например, мы ставим числа в массив, беря их с изображения слева направо и сверху вниз. Теперь поставим порог яркости. Тем пикселям, чья яркость (число) оказалась меньше порога, мы присвоим новое значение 1. Это достаточно темные пиксели: мы считаем, что, вероятно, это клетка. Остальным присвоим 0. Это достаточно светлые пиксели: мы считаем, что, вероятно, это фон. Теперь восстановим изображение обратно по новому массиву чисел, и получится, что на нем всего два цвета — белый для клеток и черный для фона (рис. 1). Объект, получаемый после работы алгоритма, носит название бинарной маски (рис. 3). Но есть проблема: клетка — это не однородное пятно. Ее ядро может быть ярким, а цитоплазма — темной (или наоборот). В результате пороговая обработка часто создавала «дырки» внутри клеток или, что хуже, полностью пропускала слабоконтрастные объекты [1].
Рисунок 1. Принцип работы алгоритма пороговой обработки. Достаточно темные клетки получают белую маску и считаются клеткой, а достаточно светлые клетки получают черную маску и считаются фоном.
иллюстрация автора статьи
Морфологические операции (эрозия и дилатация): «цифровая лепка»
После пороговой обработки сегментация редко оказывается идеальной. Изображения содержат шум, неравномерное освещение, артефакты окрашивания и оптики. В результате бинарная маска клетки может иметь разрывы, ложные отверстия или мелкие посторонние объекты. Для исправления этих дефектов используются инструменты постобработки — морфологические операции, позволяющие целенаправленно изменять форму объектов: удалять мелкий шум (эрозия), восстанавливать и соединять разорванные области (дилатация), а также сочетать оба эффекта для очистки или «залечивания» масок (открытие и закрытие).
Структурный элемент — это ключевое понятие. Проще всего представить его как маленькую фигуру (множество) определенной формы (квадрат, круг, линия), которая скользит по всему бинарному изображению (рис. 2). Его форма и размер определяются индивидуально для отдельных случаев.
Рисунок 2. Морфологические операции над бинарной маской клетки. Эрозия удаляет мелкие выступы и шум, дилатация расширяет объект и заполняет разрывы. Открытие (эрозия → дилатация) устраняет мелкие артефакты, не меняя форму крупного объекта, закрытие (дилатация → эрозия) сглаживает границы и заполняет внутренние пустоты. Структурный элемент задает масштаб изменений формы.
иллюстрация автора статьи, адаптация по [1]
Эрозия: Операция «упрощения» и разделения
Интуитивно эрозию можно представить как «съедание» объекта по краям. Тонкие выступы и мелкие шумовые фрагменты исчезают, границы объектов сжимаются, а близко расположенные структуры могут разъединяться. Именно поэтому эрозия часто используется для очистки бинарных масок от мелких артефактов и для разделения объектов, соединенных узкими перемычками.
Формально структурный элемент помещается над каждым пикселем изображения. Если пиксель принадлежит объекту (имеет значение 1) и структурный элемент целиком помещается внутри объекта (все пиксели под ним тоже равны 1), то центральный пиксель сохраняет свое значение. Если же структурный элемент даже частично выходит за пределы объекта (хотя бы один пиксель под ним равен 0, фону), то центральный пиксель обнуляется.
Из-за этого мелкие фрагменты, появившиеся на маске в результате шума или грубой пороговой обработки, не могут «удержать» структурный элемент целиком и исчезают. Таким образом устраняются точечные артефакты и тонкие перемычки, а все объекты равномерно сжимаются со всех сторон.
Дилатация: Операция «восстановления» и соединения
Если эрозия сжимает объект, то дилатация действует противоположным образом. Она расширяет границы объектов, заполняя небольшие разрывы и соединяя близко расположенные области.
Принцип работы здесь обратный по эффекту эрозии. Если центр структурного элемента находится на пикселе объекта (значение 1), то все пиксели под этим структурным элементом устанавливаются в 1 и добавляются к объекту. Таким образом, объекты, уменьшенные эрозией, восстанавливают свои размеры, закрываются выемки и небольшие разрывы.
Комбинации операций
По отдельности эрозия и дилатация дают достаточно грубые и сильные изменения формы, однако их последовательное применение позволяет аккуратнее очищать и корректировать бинарные маски.
Открытие (Opening): Эрозия → Дилатация. Эта операция удаляет мелкие объекты и тонкие соединения, но сохраняет исходный размер крупных структур. Она хорошо подходит для очистки изображения от шума без серьезного изменения формы основных клеток. Например, с ее помощью можно убрать случайные яркие пиксели вне клеток.
Закрытие (Closing): Дилатация → Эрозия. Закрытие заполняет мелкие дыры и разрывы внутри объектов и сглаживает контуры. Эта операция полезна для того, чтобы сделать маску клетки более целостной и заполнить внутренние дефекты, возникшие из-за неоднородного окрашивания. Например, она позволяет «закрасить» темные вакуоли внутри цитоплазмы, чтобы они не воспринимались как отверстия.
Таким образом, морфологические операции позволяют исследователю, меняя всего два параметра (форму и размер структурного элемента), целенаправленно управлять геометрией бинарных масок (рис. 3), подготавливая их для дальнейшего анализа или использования в более сложных методах, таких как Watershed. Именно этот контроль над пространственной структурой и сделал их неотъемлемой частью классического пайплайна анализа изображений. Однако они по-прежнему работают только с уже полученной маской и не решают вторую проблему — корректное разделение слипшихся клеток.
Рисунок 3. Влияние операций эрозии и дилатации на бинарную маску клеточного изображения. Эрозия уменьшает объекты и устраняет мелкие шумовые фрагменты, но может разрушать тонкие структуры и разрывать границы клеток. Дилатация, напротив, заполняет разрывы и восстанавливает форму объектов, но приводит к их утолщению и может сливать близко расположенные клетки.
Метод водораздела (watershed): топографическая метафора
Изображение представляется как трехмерный ландшафт, где яркость пикселя интерпретируется как высота [3]. Темные области (клетки) — это «долины», светлые (границы) — «хребты». Алгоритм как бы заливает этот ландшафт водой, начиная с самых низких точек (маркеров). Вода из разных долин встречается на хребтах, которые и становятся границами клеток (рис. 4).
Основная проблема метода состоит в катастрофической чувствительности к шуму. Любая мелкая текстура внутри клетки создает ложную «впадину», откуда начиналось новое «наводнение», это приводит к пересегментации, то есть одна клетка разбивалась на множество фрагментов.
Рисунок 4. Топографическая метафора метода Watershed.
иллюстрация автора статьи, адаптированная c помощью Gemini AI
Границы применимости подхода
Все рассмотренные методы распознавания клеток сталкиваются со сложностью живой природы, все их объединяет одна фатальная слабость: они не имеют ни малейшего понятия о том, что такое клетка. Параметры (порог, размер ядра для морфологии, маркеры) подбираются вручную для каждого нового типа изображений, это делает процесс медленным и непереносимым между экспериментами. Кроме того, эти методы работают исключительно с локальными свойствами изображения и не используют информацию о целостной структуре клетки. В результате алгоритмы не способны отличить значимые биологические вариации формы от шума или артефактов, если они выглядят похоже на уровне отдельных пикселей. По мере роста разнообразия изображений стало ясно, что дальнейшее развитие сегментации требует отказа от ручного подбора правил в пользу методов, способных учиться на примерах и учитывать контекст.
Подход 2. Обучение на данных и глобальный контекст
Анализировать пиксели по отдельности — все равно что пытаться понять смысл романа, изучая частоту отдельных букв. Вы узнаете, сколько букв «а» встречается, но никогда не поймете сюжета, характеров или главной идеи. Даже при аккуратной настройке порогов и морфологических операций такие алгоритмы легко путают внутреннюю текстуру клетки с ее границей или не справляются с тесно расположенными объектами. Существует более общая проблема: пиксели по отдельности не несут смысла. Значимым становится их взаимное расположение и контекст, в котором они находятся.
Следующий этап в развитии методов сегментации был связан с переходом от правил к обучаемым моделям, способным извлекать такие контекстные признаки непосредственно из данных. В этой логике изображение рассматривалось уже не как набор независимых пикселей, а как целостная структура, в которой локальные детали имеют значение только в связи с окружением.
СНС — сверточные нейронные сети
Переломным моментом стало появление сверточных нейронных сетей (СНС). Вместо того, чтобы следовать жестким правилам, СНС учатся на данных: им показывают тысячи пар «изображение–разметка», и они самостоятельно находят сложные закономерности, отличающие клетку от фона и одну клетку от другой [4–6]. Важно подчеркнуть, что такие сети не «знают», что именно изображено на картинке. Набор признаков, который они извлекают, полностью определяется обучающими данными. Если сеть обучить на фотографиях кошек и собак, она будет искать характерные для этих объектов детали — контуры морд, глаза, уши . При обучении на микроскопических изображениях клеток сеть, напротив, начинает выделять признаки, релевантные именно этой задаче: перепады яркости на мембранах, характерную текстуру цитоплазмы, формы ядер. Таким образом, одни и те же архитектурные принципы могут применяться к принципиально разным объектам, но смысл извлекаемых признаков всегда задается данными.
На этом конкурсе «Биомолекулы» уже вышла статья, где более подробно можно прочитать о СНС («Глаза прогресса: как глубокое обучение помогает видеть невидимое для человека» [7]), мы же сейчас обозначим только суть архитектуры.
СНС анализируют не отдельные пиксели, а иерархию признаков (рис. 5); это очень напоминает устройство зрительного анализатора человека (этим создатели, вероятно, и вдохновлялись). Первые слои сети учатся распознавать простые элементы — границы, углы, текстуры. Последующие слои комбинируют эти элементы во все более сложные структуры — мембраны, ядра, цитоплазму. В итоге сеть формирует целостное «понимание» того, как выглядит клетка.
Рисунок 5. Схема работы СНС, демонстрация иерархии признаков — от абстрактных понятий к органеллам.
иллюстрация автора статьи, адаптированная c помощью Gemini AI
Такой подход, в отличие от фиксированного алгоритма, продемонстрировал:
-
Устойчивость: СНС научились игнорировать шум, артефакты и неоднородное освещение, потому что в процессе обучения видели тысячи таких примеров и «поняли», что это несущественные детали.
-
Контекстное мышление: Сеть больше не путала темную границу между двумя клетками с темной текстурой внутри одной клетки. Она анализировала контекст.
-
Обобщаемость: Однажды натренированная на разнообразных, данных модель может с высокой точностью работать с изображениями из совершенно новых лабораторий, с разными микроскопами и типами окрашивания. Это был конец эпохи бесконечной ручной настройки.
Затем появилась архитектура U-Net в 2015 году [8], cпециально разработанная для биомедицинской сегментации и впервые применявшаяся для анализа изображений нейронов. U-Net принесла возможность совместить контекстное понимание изображения с точной локализацией границ объектов. Суть алгоритмов архитектуры отображена в названии — ее можно представить как букву U:
-
по одному склону (первой половине сети) сеть «сжимает» изображение, погружаясь в абстракции,
-
по другому (второй половине сети) — «разворачивает» эти абстракции обратно в пространственные формы (рис. 6).
Сворачивание изображения до более грубого представления нужно для того, чтобы сеть могла «увидеть» объект целиком, а не только его локальные фрагменты. На исходном разрешении каждая точка отражает лишь небольшой участок изображения, поэтому клетка может выглядеть как набор разрозненных деталей. При уменьшении разрешения соседние области объединяются, и сеть начинает учитывать форму и окружение клетки в целом, что особенно важно, когда клетки соприкасаются или перекрываются.
Однако такое обобщение неизбежно приводит к потере точной информации о положении границ. Если работать только с сжатым представлением, сеть будет знать, где примерно находится клетка, но не сможет провести ее контур с нужной точностью. Поэтому вторым шагом представление разворачивается обратно к исходному разрешению. На этом этапе сеть использует сохраненную информацию о мелких деталях, чтобы уточнить границы объектов.
Ключевую роль в этом процессе играют пропускающие соединения (skip connections) между этапами сжатия и восстановления, передающие детали высокого разрешения из первой половины сети в соответствующие слои второй. Это похоже на то, как художник делает общий набросок, но в любой момент может посмотреть на фотографию и уточнить линии, чтобы не потерять фактуру.
Рисунок 6. Реализация U-Net похожа на то, как художник делает общий набросок, но в любой момент может посмотреть на фотографию и уточнить линии, чтобы не потерять фактуру. Прогнозирование сегментации в желтой области требует в качестве входных данных изображения из синей области.
Границы применимости подхода
Несмотря на впечатляющий прогресс, сегментация на основе СНС имела и свои ограничения. Главным из них стала жадность к данным (зависимость от объема и качества размеченных данных). Чем сложнее становятся модели, тем больше примеров требуется для их обучения. Разметка тысяч изображений вручную сама стала формой интеллектуального конвейерного труда.
Кроме того, модель может хорошо работать только в рамках тех вариаций, которые были представлены в обучающем наборе. Необычные формы клеток или редкие условия съемки по-прежнему могут приводить к ошибкам. Эти ограничения стали отправной точкой для следующего этапа развития методов сегментации.
Подход 3. Геометрические представления формы
Когда мир биологических изображений стал слишком разнообразным для моделей, которые учатся только на данных, исследователи задумались о другом пути. Можно ли научить нейросеть не просто смотреть на готовые разметки, а видеть более глубокие принципы, которые определяют (исходя из геометрических и физических законов) форму клетки независимо от ее окраски, яркости или микроскопа?
Геометрические ограничения, которые накладываются на клетку в реальном мире
Хотя на микроскопических изображениях мы имеем дело лишь с двумерной проекцией клетки, сама форма этого изображения не является произвольной. Даже не зная биологии, можно утверждать, что клетка на изображении представляет собой связную область с непрерывной границей. Внутренние точки клетки не изолированы друг от друга, а граница отделяет объект от фона и соседних клеток.
Не вдаваясь в подробности аналитической геометрии, обозначим, что под связной областью в данном контексте понимается просто непрерывный объект на изображении. Если выбрать любую точку внутри клетки, до любой другой точки той же клетки можно добраться, двигаясь внутри объекта, не пересекая его границу и не «перепрыгивая» через фон. Визуально это означает, что клетка выглядит как цельное пятно, а не как набор разрозненных фрагментов. Связные области обладают некоторыми уникальными свойствами в геометрическом пространстве, и на этих свойствах основаны следующие ниже методы сегментации клеточных изображений — Cellpose и Omnipose.
Cellpose и поле направлений
Модель Cellpose реализует этот подход через представление клетки в виде поля направлений. Вместо того чтобы сразу предсказывать границу, сеть обучается сопоставлять каждому пикселю внутри клетки вектор — «стрелку», указывающую направление внутрь той же самой клетки [9].
Интуитивно это можно представить так: если поставить стрелку в любой точке внутри клетки, она будет показывать, куда двигаться, оставаясь внутри объекта. Для пикселей, принадлежащих одной клетке, такие стрелки согласованы между собой и в итоге сходятся в одну и ту же внутреннюю область. Для соседних клеток это уже невозможно: их внутренние направления различаются, и стрелки расходятся, не пересекая границу между объектами.
Формально за этим стоит геометрическое свойство связной области: из любой точки внутри объекта существует непрерывный путь, ведущий внутрь той же области и не пересекающий ее границу. Поле направлений как бы кодирует именно эту связность, локальные направления могут согласованно описывать форму целого объекта. Поле направлений накладывает жесткие ограничения на допустимую форму сегментации, подавляя шумовые пиксели и убирая случайные разрывы, которые не могут быть частью связной структуры.
Этот способ описания формы особенно хорошо работает для компактных клеток с относительно простой морфологией. Однако он опирается на предположение о наличии согласованного внутреннего направления, которое становится неприменимым для вытянутых, ветвящихся или кольцевых форм, и эти ограничения и послужили мотивацией для перехода к другим геометрическим представлениям формы.
Рисунок 7. Поле направлений в модели Cellpose. Синие линии обозначают контуры клеток. Стрелки показывают предсказанные векторы для пикселей внутри клеток, направленные внутрь соответствующей связной области. Для каждой клетки направления согласованы и сходятся к общей внутренней области, тогда как для соседних клеток поля направлений расходятся, формируя естественное разделение между объектами. Синие линии обозначают контуры клеток.
иллюстрация автора статьи
Omnipose и карта расстояний
Когда клетка вытягивается, ветвится или образует сложные контуры, образуется структура, у которой не существует единственного центра. Если попытаться направить пиксели в одну точку, как в модели Cellpose, клетка может разбиться на несуществующие фрагменты. В модели Omnipose форма клетки описывается через другое геометрическое представление — карту расстояний. Вместо направлений (векторных величин) здесь используется скалярная величина: каждому пикселю внутри клетки сопоставляется число, равное расстоянию до ближайшей точки ее границы [10].
Если представить эту карту в виде поверхности, то форма клетки превращается в плавный «холм». Вблизи границы значения расстояния стремятся к нулю, а по мере продвижения внутрь объекта поверхность поднимается, достигая максимальных значений в наиболее удаленных от края областях. Такая поверхность отражает локальную толщину и внутреннюю структуру клетки. Такое описание не требует предположений о наличии центра клетки или о ее симметрии и остается корректным для объектов произвольной формы. С геометрической точки зрения карта расстояний опирается на другое фундаментальное свойство связной области: каждая ее внутренняя точка находится на некотором минимальном расстоянии от границы. Это расстояние изменяется непрерывно, и потому карта расстояний образует гладкую поверхность, форма которой определяется исключительно геометрией объекта.
Модель Omnipose обучается восстанавливать такую карту расстояний по исходному изображению, и сегментация сводится к анализу формы полученной поверхности. Точки, принадлежащие одной клетке, связаны общей структурой расстояний и образуют отдельную область, а соседние клетки формируют самостоятельные «холмы», разделенные пониженными значениями карты. Пиксели можно сгруппировать, определив, к какому общему «хребту» на этом холме они принадлежат. Представьте, что по склону такого холма течет вода: все капли, попавшие на один и тот же склон, стекут к одному и тому же руслу в основании. В Omnipose используется похожий принцип. Алгоритм вычисляет для каждого пикселя невидимый «уклон» поверхности — направление, в котором расстояние до границы растет быстрее всего. Двигаясь вверх по этому уклону, пиксели не стремятся к одной вершине-точке (максимуму), а сливаются в общие линии, которые подобно хребтам проходят по серединам клеток. Именно принадлежность к одному такому «хребту», или центральной линии, определяет, какие пиксели объединяются в одну клетку (рис. 8).
В отличие от полей направлений, карты расстояний не опираются на наличие согласованного внутреннего направления. Такая модель подходит для вытянутых, ветвящихся и кольцевых форм, где понятие центра оказывается плохо определенным. При этом модель по-прежнему использует только геометрию изображения и не апеллирует к биологическим свойствам клетки.
Рисунок 8. Карта расстояний и «хребет» клетки сложной формы в модели Omnipose. Цветовая карта показывает расстояние от каждой точки внутри клетки до ближайшей границы: фиолетовые области расположены у края, желтые в наиболее удаленных внутренних точках. Зеленой линией показан центральный «хребет» клетки, а зеленые векторы указывают направления максимального роста (уклона) расстояния от границы. Принадлежность пикселей к одному и тому же хребту используется для объединения их в одну клетку; синий контур обозначает границу объекта.
иллюстрация автора статьи
Границы применимости подхода
Использование полей направлений и карт расстояний позволило существенно расширить класс форм, с которыми модели справляются корректно. Тем не менее, и здесь речь идет не о восстановлении самой клетки как биологического объекта, а лишь о более информативном описании ее изображения. Центровые поля хорошо работали, пока клетки оставались относительно компактными и не слишком причудливыми, а карты расстояний давали устойчивые решения до тех пор, пока внутренняя структура клетки напоминала холм с четкими склонами. Но природные формы не обязаны подчиняться нашим удобным описаниям. Даже самая универсальная модель все равно опирается на предположения о том, какой «должна быть» клетка по мнению человека. Чтобы выйти за пределы этих предположений, требовался новый взгляд, не основанный на заранее выбранной геометрии, а даже способный открывать закономерности самостоятельно прямо из данных.
Подход 4. Самообучение и согласованность структуры
Сейчас мы стоим на пороге следующего сдвига: что, если модель сможет научиться сегментировать клетки вообще без человеческой разметки? Можно ли научить модель видеть клетки так же, как ребенок начинает различать предметы вокруг себя, не получая готовых подписей и инструкций? В центре этой идеи лежит предположение о том, что изображения сами по себе уже содержат закономерности, которых достаточно, чтобы выделять объекты. Когда мы поворачиваем картинку, слегка размываем ее или меняем освещение, форма клетки все равно остается узнаваемой. Эти устойчивые признаки и есть то, что модель может изучать. Она не ищет правильный ответ, она ищет то, что не исчезает в разных версиях одного и того же изображения. Так появляется самообучение: не обучение от разметки, а обучение от согласованности.
Слабая разметка: как модель использует каракули человека
В подходах со слабой разметкой, таких как модель Scribble2Label, человек делает лишь несколько произвольных пометок, проводит линии внутри клеток и на фоне изображения (рис. 9). Эти линии не описывают форму клетки и не задают ее границу. Они лишь указывают: вот здесь точно есть клетка, а вот здесь точно ее нет. Пиксели, по которым проведены линии, считаются надежными примерами, и сеть учится отличать их по яркости, текстуре и локальному окружению. На этом шаге модель знает крайне мало и способна уверенно распознавать лишь те участки изображения, которые очень похожи на помеченные [11].
Далее, получив первое, очень грубое представление, модель начинает делать предположения о соседних пикселях: если участок изображения похож на уже помеченный как «клетка» и ведет себя с ним одинаково при изменениях изображения, то, вероятно, он тоже принадлежит клетке. Такие предположения сначала считаются ненадежными и используются с осторожностью.
Чтобы проверить эти гипотезы, изображение многократно, но разумно искажают — поворачивают, слегка размывают, меняют контраст. Если для какого-то пикселя модель снова и снова приходит к одному и тому же выводу, независимо от этих изменений, его принадлежность к клетке считается устойчивой. Напротив, если предсказание меняется, такой пиксель временно исключается из обучения.
Таким образом, каракули человека запускают процесс, и модель постепенно расширяет область уверенных предсказаний, опираясь на внутреннюю согласованность изображения, то есть с каждым шагом сеть пересматривает собственные решения, оставляя только те, которые сохраняются при изменении условий наблюдения. В результате из нескольких линий, не содержащих информации о границах, постепенно возникает полная сегментация.
Рисунок 9. Итеративное обучение сети Scribble2Label. Ученый лишь наносит несколько черновых штрихов (scribbles), отмечая примеры клеток и фона. Алгоритм начинает с грубого предположения (а), а затем циклически его уточняет. На каждом шаге он игнорирует пиксели, в которых не уверен, и использует только уверенные предсказания (клетки и фон) в качестве новых меток для следующего цикла обучения. Это позволяет модели самообучаться, и с каждой итерацией (а → б → в) ее предсказания становятся все ближе к идеальной ручной разметке эксперта (Ground Truth).
Самообучение без разметки
В некоторых подходах, таких как Object-Centric Embeddings, модель обучается сегментировать клетки вовсе без какой-либо разметки. Ей не показывают ни границ, ни примеров клеток. Вместо этого она учится находить устойчивую структуру изображения, опираясь на то, как разные его части соотносятся друг с другом (рис. 10) [12].
Рисунок 10. Процесс самостоятельного обучения нейросети распознавать объекты на изображении. На первом этапе из исходного изображения (Raw Image) случайным образом вырезаются небольшие фрагменты — патчи (обозначены зелеными рамками, a и b). Эти фрагменты преобразуются в координаты точек ra и rb на плоскости (Object-Centric Embeddings, плоскость объектно-ориентированных представлений) с помощью обучающей функции f(θ). Главная задача обучения — сохранить пространственные отношения между патчами. Если два фрагмента на исходном изображении находятся рядом (показано зелеными стрелками), то и соответствующие им точки на плоскости должны оказаться близко друг к другу.
В методах с объектно-центричными представлениями модель многократно рассматривает небольшие фрагменты изображения и учится сопоставлять им внутренние числовые описания (рис. 10). Задача обучения формулируется так, чтобы фрагменты, которые часто встречаются рядом и сохраняют свое относительное положение при изменениях изображения, получали похожие описания. Фрагменты, принадлежащие разным объектам, напротив, должны различаться. Таким образом, части одного и того же объекта (например, ядра клетки) естественным образом формируют на плоскости плотную группу, а разные объекты разделяются.
Другие исследования, такие как UNSEG (2023) [13] вообще не формулируют задачу выделения объектов напрямую. В таких подходах модель обучается восстанавливать изображение после искажения, например, после добавления шума или скрытия части данных. Чтобы успешно восстановить изображение, сети приходится учитывать, какие области связаны между собой и где обычно проходят границы. Иначе восстановление оказывается нестабильным.
Есть и подходы, в которых модель учится одновременно искажающим преобразованиям и их обратному восстановлению. Так возникают методы самообучения, где сеть обучается понимать изображение, пытаясь вернуть искаженную версию к исходному состоянию [14]. Если восстановление возможно только при условии правильного понимания структуры клетки, то именно это понимание сеть и осваивает.
Куда ведет нас прогресс самообучения?
Этот образ мысли ведет к созданию моделей, которые не просто сегментируют клетки, а формируют собственное «понимание» биологической морфологии непосредственно из сырых данных, открывая путь к настоящему автономному научному открытию. Важно, что такие методы не отменяют предыдущие подходы и не делают их устаревшими. Они расширяют область применимости автоматической сегментации, особенно там, где ручная разметка слишком дорога, субъективна или попросту невозможна. Вместо точного ответа на вопрос «где граница?» модель все чаще дает приближенное, но устойчивое описание самой структуры данных.
Заключение
За развитием методов сегментации клеток стоит как рост вычислительных возможностей, так и постепенная смена формального языка, на котором мы описываем клеточную структуру. Сначала клетка задавалась набором правил над пикселями: порогами, фильтрами. Позже в описание формы вошли геометрические представления — поля направлений и карты расстояний, которые позволили учитывать связность и внутреннюю структуру объекта. В самых современных подходах клетка перестает быть явно заданным объектом и проявляется как устойчивая структура в изображении, выявляемая через согласованность. Каждый из этих подходов возникал как ответ на ограничения предыдущего: чувствительность к шуму, зависимость от формы, и вместе они показывают, что прогресс в анализе изображений заключается не только в повышении точности, но и в изменении того, что именно считается корректным описанием клетки. И поскольку наше понимание биологии бесконечно усложняется, мы можем быть уверены в одном: сегодняшние передовые методы завтра станут примером ограниченного подхода, уступив место следующим разработкам, которые мы пока не можем даже вообразить, подобно людям в пещере Платона, которых вы могли наблюдать на заглавной иллюстрации. Эволюция ИИ-зрения продолжается.
Литература
- Pierre Soille Morphological Image Analysis — Springer Berlin Heidelberg, 2004;
- Haesleinhuepf et al. Binary mask refinement. BioImageAnalysisNotebooks;
- S. Beucher, F. Meyer. (2018). The Morphological Approach to Segmentation: The Watershed Transformation. Mathematical Morphology in Image Processing. 433-481;
- Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. (2017). ImageNet classification with deep convolutional neural networks. Commun. ACM. 60, 84-90;
- Erick Moen, Dylan Bannon, Takamasa Kudo, William Graf, Markus Covert, David Van Valen. (2019). Deep learning for cellular image analysis. Nat Methods. 16, 1233-1246;
- История развития искусственного интеллекта и его пришествия в биологию;
- Глаза прогресса: как глубокое обучение помогает видеть невидимое для человека;
- Ronneberger O., Fischer P., Brox T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI;
- Carsen Stringer, Tim Wang, Michalis Michaelos, Marius Pachitariu. (2021). Cellpose: a generalist algorithm for cellular segmentation. Nat Methods. 18, 100-106;
- Kevin J. Cutler, Carsen Stringer, Teresa W. Lo, Luca Rappez, Nicholas Stroustrup, et. al. (2022). Omnipose: a high-precision morphology-independent solution for bacterial cell segmentation. Nat Methods. 19, 1438-1448;
- Lee H., Jeong W.-K. (2020). Scribble2Label: Scribble-Supervised Cell Segmentation via Self-Generating Pseudo-Labels. MICCAI;10.48550/arXiv.2006.12890;
- Wolf S., Lalit M., Funke J., et al. (2023). Object-Centric Embeddings for Cell Instance Segmentation. arXiv;
- Bogdan Kochetov, Phoenix D. Bell, Paulo S. Garcia, Akram S. Shalaby, Rebecca Raphael, et. al. (2024). UNSEG: unsupervised segmentation of cells and their nuclei in complex tissue samples. Commun Biol. 7;
- Liang Chen, Paul Bentley, Kensaku Mori, Kazunari Misawa, Michitaka Fujiwara, Daniel Rueckert. (2019). Self-supervised learning for medical image analysis using image context restoration. Medical Image Analysis. 58, 101539;
- Nobuyuki Otsu. (1979). A Threshold Selection Method from Gray-Level Histograms. IEEE Trans. Syst., Man, Cybern. 9, 62-66.