Глаза прогресса: как глубокое обучение помогает видеть невидимое для человека

30 декабря 2025

Научно-популярный конкурс «Био/мол/текст»-2025/2026 Искусственный интеллект в биологии

Глаза прогресса: как глубокое обучение помогает видеть невидимое для человека

Добавить в избранное

Если вам всегда казалось, что компьютерное зрение выглядит так, вам точно стоит прочесть эту статью.

*Yahoo!Tech*

Авторы
- Павел Леонов
- Алексей Шевченко
Редакторы
- Антон Чугунов
- Динара Андреева

Темы

Статья на конкурс «Био/Мол/Текст»: Стремительное развитие технологий компьютерного зрения в последние годы, подпитываемое прогрессом в глубоком обучении и доступностью больших данных, существенно трансформирует многие ключевые процессы в науке, промышленности, медицине и повседневной жизни. Особенно революционна его роль в сферах, где человеческое восприятие является слабым местом, внося субъективность, когнитивные искажения и ошибки, вызванные усталостью. Современные системы на основе нейронных сетей и сложных архитектур не просто анализируют изображения, а понимают их контекст, превосходя человека в скорости, точности и постоянстве. Они обеспечивают автоматический, объективный и мгновенный анализ визуальных данных — от обнаружения и диагностики патологий по рентгеновским снимкам до навигации беспилотных автомобилей и управления «умным» городом. Так компьютерное зрение перестало быть лабораторным узкоспециализированным инструментом, а превратилось в незаменимую технологию для принятия точных и надежных решений в цифровую эпоху, где ценность объективных визуальных данных непрерывно растет.

Конкурс «Био/Мол/Текст»-2025/2026

Победитель конкурса «Био/Мол/Текст»-2025/2026 Эта работа опубликована в номинации «Искусственный интеллект в биологии» конкурса «Био/Мол/Текст»-2025/2026 и получила спецприз от Томского Государственного Университета.

Генеральный партнер конкурса — международная инновационная биотехнологическая компания BIOCAD.

Партнер номинации — компания Центральный университет в лице совместной с институтом AIRI Лаборатории ИИ, анализа данных и моделирования.

«Книжный» спонсор конкурса — «Альпина нон-фикшн»

В кросс-культурных исследованиях восприятия цвета показано, что один и тот же набор оттенков два разных человека могут описать совершенно разными словами. Наверное, все помнят забавный случай, когда в соцсети Tumblr была опубликована фотография платья неоднозначного цвета (рис. 1). Одна половина людей утверждала, что на фото изображено голубое платье с черными полосками, другая видела на том же фото белое платье с золотистыми полосками. В соцсетях началась настоящая битва за определение истинного цвета платья. Несмотря на всю комичность ситуации, случай привлек внимание ученых и даже получил название «Феномен синего или белого платья» [1].

**Рисунок 1. Феномен синего или белого платья.** Картинка, показывающая, как хроматическая адаптация человека образует иллюзии абсолютно разных цветов на примере двух платьев с разным освещением.

*The Brains Blog*

Такие расхождения в восприятии отдельных людей особенно значимы там, где требуется точная, воспроизводимая оценка: в медицинской диагностике, контроле качества продукции, анализе микроскопических препаратов, мониторинге биоразнообразия и множестве других задач. Там, где субъективное «кажется» должно быть заменено на количественное «измерено». Если же удается сделать практические параметры дискретными и формализованными — превратить расплывчатое словесное описание в числовые характеристики, а сомнительное «на глаз» в измерение по строгому алгоритму, — можно не только избежать множества споров, но и существенно повысить точность, воспроизводимость и сопоставимость данных. Именно здесь на первый план выходит компьютерное зрение.

Компьютерное (или техническое) зрение —: теория и технология создания машин, которые могут производить обнаружение, отслеживание и классификацию объектов. Как научная дисциплина, компьютерное зрение относится к теории и технологии создания искусственных систем, которые получают информацию из изображений. Видеоданные могут быть представлены множеством форм, таких как видеопоследовательность, изображения с различных камер или трехмерными данными.

Компьютерное зрение уже активно используется в исследованиях: по состоянию на 2024 год глобальный рынок этой технологии оценивается в 20,5 млрд долларов США, а в автономном вождении точность алгоритмов на основе сверточных нейронных сетей превышает 98% в задачах распознавания и классификации объектов.

Широко известно, что с помощью зрения человек получает наибольший объем информации об окружающих предметах, причем без непосредственного контакта с ними. Однако зрение дается нам настолько естественно, что мало кто задумывается о его нейронной сложности: примерно 30% коры головного мозга человека занято визуальной обработкой, а в сетчатке содержится 150 млн фоторецепторов, что превышает число волокон в слуховом нерве в 30 раз. Когда мы открываем глаза, мозг мгновенно анализирует сцену, выделяя основные признаки (ориентация линий, движение, цвет) в иерархии корковых и подкорковых областей, причем способность идентифицировать изображения, показанные всего 13 мс, указывает на фундаментальную роль обработки в зрительном восприятии.

Обычно полагают, будто глаз — это своего рода камера, которая строит изображение окружающего мира, и одного этого изображения уже достаточно для осуществления зрения. Но если глаз просто формирует картинку, кто же ее интерпретирует, выделяет объекты, замечает закономерности и принимает решения? Классическая работа Дэвида Марра «Vision» (1982) показала, что зрение — это не просто регистрация, а многоуровневая вычислительная теория [2]. Компьютерное зрение, по сути, берет на себя эту вычислительную задачу, формализуя и воспроизводя ключевые этапы человеческого зрительного восприятия, начиная с получения сырого сигнала и заканчивая высокоуровневым пониманием сцены. В этой статье будет рассмотрено, как устроены современные системы компьютерного зрения, какие алгоритмы и архитектуры лежат в их основе (от классических методов обработки изображений до применения нейронных сетей), каким образом изображения преобразуются в набор признаков и далее в решения, какие задачи уже удается автоматизировать (включая медицинскую диагностику, фенотипирование растений, контроль качества в производстве и анализ поведения животных), где человеческое восприятие пока остается незаменимым, а также какие ограничения и риски влечет за собой передача «права видеть» машине.

В конце концов, мы попробуем ответить на, казалось бы, простой, но на самом деле весьма провокационный вопрос: если машина научилась не только «смотреть», но и «понимать» то, что видит, то насколько далеко она сможет зайти в умении интерпретировать реальность?

Но сначала следует разобраться, откуда появилось компьютерное зрение и что под этим термином вообще подразумевается?

Словарик важных терминов, которые пригодятся дальше

Этот словарик удачно расширяет тот перечень понятий, что «Биомолекула» поясняла в статье «История развития искусственного интеллекта и его пришествия в биологию» [3], куда мы, конечно, первым делом направляем читателей.

Аугментация данных —: техника в машинном обучении, при которой из существующих данных искусственно генерируются новые варианты путем их модификации, чтобы увеличить объем и разнообразие обучающей выборки.
Батч (batch) —: подмножество данных, обрабатываемое за один шаг обучения для стабильности градиентов. Также данные часто делят на батчи из-за ограниченности ресурсов компьютеров (в первую очередь, GPU-памяти).
Генерализация данных —: процесс обобщения информации для уменьшения ее объема, упрощения и повышения читаемости. Генерализация считается непременным свойством хорошо обученных ИИ-систем, поскольку позволяет выполнять задачи не только на исходных данных (что, мягко говоря, не интересно), но на более широком диапазоне данных из реального мира.
Глубокое обучение (DL, deep learning) —: раздел машинного обучения, где многослойные искусственные нейронные сети автоматически учатся находить сложные закономерности в больших объемах данных, отчасти имитируя работу мозга. Особенность DL именно в очень большом количестве настраиваемых параметров (весов), которые позволяют работать с очень сложными и неформализованными зависимостями в самых широких массивах данных.
Дропаут (dropout) —: регуляризация, случайным образом отключающая нейроны во время обучения для повышения устойчивости модели и исключения эффекта переобучения.
Компьютерное зрение (CV, computer vision) —: динамично развивающаяся область искусственного интеллекта, целью которой является создание алгоритмов и систем, способных автоматически извлекать семантически значимую информацию из визуальных данных — изображений, видеопотоков или трехмерных сцен — для последующего анализа, классификации и принятия решений.
Кросс-валидация —: разбиение данных на отдельные подмножества (folds) для последовательного обучения и тестирования модели, чтобы получить надежную оценку качества.
Нейрон —: базовая вычислительная единица искусственной нейронной сети, которая принимает несколько входных сигналов, взвешивает их (умножает на параметры, называемые весами) и далее суммирует взвешенные входы с добавлением смещения.
Нейронная сеть (neural network) —: компьютерная модель, вдохновленная структурой мозга, состоящая из слоев искусственных нейронов, которые обрабатывают данные и учатся на примерах для распознавания паттернов. Процесс обучения заключается в определении оптимальных весов модели, позволяющих выполнять поставленную задачу с минимальной ошибкой.
Переобучение (overfitting) —: чрезмерная адаптация модели к шуму обучающих данных, приводящая к плохой работе на новых данных (отсутствию генерализации).
Сверточная нейронная сеть (CNN, convolutional neural network) —: специальная архитектура искусственных нейронных сетей, предложенная Яном Лекуном в 1988 году и нацеленная на эффективное распознавание образов. Использует некоторые особенности зрительной коры, в которой были открыты так называемые простые клетки, реагирующие на прямые линии под разными углами, и сложные клетки, реакция которых связана с активацией определенного набора простых клеток.
Функции активации: добавляют нелинейность к выходу нейронов для моделирования сложных зависимостей — без них любая нейросеть сводилась бы к линейной комбинации, которой явно недостаточно для работы со сложными процессами. Одна из самых распространенных функций активации — ReLU (см. ниже).
Ядра (kernels) —: маленькие матрицы весов в сверточных нейросетях, скользящие по изображению для извлечения признаков.
Mixture of Experts (MoE) —: архитектура нейронных сетей, где вычисления распределяются между несколькими специализированными подсетями («экспертами»), а маршрутизатор (gating network) выбирает и активирует только подмножество экспертов для каждого входа, комбинируя их выходы с весами.
ReLU (Rectified Linear Unit) —: функция активации f(x) = max(0, x), пропускающая положительные значения и обнуляющая отрицательные.
SNR (signal‑to‑noise ratio) —: насколько сильно полезный сигнал (например, свет от флуоресцентных меток) превосходит шум; чем этот параметр ниже, тем картинка «зернистее» и меньшего качества.

Что мы понимаем под компьютерным зрением

Компьютерное зрение (Computer Vision, CV) — динамично развивающаяся область искусственного интеллекта, целью которой является создание алгоритмов и систем, способных автоматически извлекать семантически значимую информацию из визуальных данных — изображений, видеопотоков или трехмерных сцен для последующего анализа, классификации и принятия решений.

В отличие от человеческого зрения, ограниченного видимым спектром, компьютерное зрение обрабатывает информацию из гораздо более широкого диапазона. Это включает инфракрасное и рентгеновское излучение, а также радиоволны и даже многоканальные гиперспектральные снимки для анализа состава материалов. Каждый пиксель для компьютера — это не просто соотношение цветов, а многомерный вектор данных, что позволяет преобразовать любое физическое измерение в анализируемое изображение [4].

Эта гибкость в данных позволяет компьютерному зрению решать задачи, недоступные человеку. Современные алгоритмы, в особенности глубокое обучение (Deep Learning, DL), не просто «видят» объекты, а проводят их попиксельный анализ. В результате системы способны с высокой точностью подсчитывать тысячи клеток в микроскопе в реальном времени находить микроскопические дефекты на производственной линии или автоматически строить 3D-модели по серии снимков, превосходя человека в скорости и точности.

Границы применения технологий компьютерного зрения практически не ограничены и находятся в постоянном расширении, подстраиваясь под самые разнообразные и специфические потребности современного общества. Уже сегодня модели на базе глубокого обучения успешно применяются для автоматизированного подсчета овец в сельском хозяйстве и в масштабных системах видеомониторинга городского транспорта и пешеходного потока [5], [6]. Кроме того, в агропромышленности компьютерное зрение используется для анализа и контроля спелости фруктов в теплицах и садах, что позволяет не только автоматизировать процесс сбора урожая, но и повысить качество продукции (рис. 2).

**Рисунок 2. Пример работы модели компьютерного зрения для видеомониторинга спелости плодов земляники:** чем сильнее плоды окрашены красным цветом, тем более спелыми их считает модель.

The Decoder

Появление компьютерного зрения

**Рисунок 3. Ларри Робертс — американский ученый в области информатики и основоположник компьютерного зрения**, автор диссертации «Машинное восприятие трехмерных тел».

[8]

В конце 1960-х в научных лабораториях, которые были первопроходцами в области искусственного интеллекта, зародилась идея сделать имитацию человеческой зрительной системы. Это стало первым шагом на пути к компьютерному зрению. Одним из первопроходцев был Ларри Робертс, который описал процесс извлечения трехмерной информации из двухмерных фотографий [7] (рис. 3).

Параллельно, в 1966 году в MIT под руководством Марвина Минского и Сеймура Паперта был запущен амбициозный летний проект — Summer Vision Project, целью которого было создание системы, способной распознавать объекты на изображениях [9]. На сегодняшний день, такая система может показаться очень примитивной: связка компьютера и камеры. Хотя этот проект и не достиг всех поставленных целей, он зажег искру, которая на десятилетия вперед подпитывала исследовательский интерес в этой области. Со временем эта схема переросла в куда более сложные модели нейронных сетей, позволяющие получать структурные трехмерные данные из изображений.

**Рисунок 4. Тренчард Мор, Джон Маккарти, Марвин Мински, Оливер Селфридж и Рэй Соломонофф** (*слева направо*) были среди тех, кто присутствовал на Дартмутской конференции по искусственному интеллекту в 1956 году.

Фото Джо Мелинга (CC BY) [10]

Исследования 1970-х годов заложили основы многих существующих алгоритмов компьютерного зрения. Одним из ключевых достижений стала разработка преобразования Хафа учеными Ричардом Удой и Питером Хартом — метода, позволяющего обнаруживать простые геометрические фигуры в изображениях. Это нововведение стало важным инструментом для распознавания объектов. Значительным прорывом стала разработка метода Лукаса–Канаде в 1981 году, обеспечившего первый практически реализуемый алгоритм оценки изображения [7].

В следующие десятилетия понимание компьютерного зрения претерпело значительные преобразования: оно стало опираться на строгий математический анализ и принципы вычислительной теории. Ключевую роль сыграл Дэвид Марр — британский нейробиолог и когнитивный ученый, который интегрировал результаты исследований в области психологии, искусственного интеллекта и нейрофизиологии в новую вычислительную парадигму изучения зрения. Марр предположил, что работа визуальной системы требует понимания вычислительных задач, которые она решает, и того, как эти задачи представляются на разных уровнях: вычислительном, алгоритмическом и уровне аппаратной реализации.

Рисунок 5. Пример обработки изображения и нахождения оптического потока из ранних работ, посвященных компьютерному зрению. Представьте два кадра: на первом такси в центре, на втором сдвинуто на 5 пикселей вправо. Предложенный алгоритм находит векторы для каждого пикселя объекта на изображении и фона, тем самым отделяя фон от изображения.

[11]

В этот период были введены фундаментальные концепции масштабного пространства, позволяющие анализировать объекты на разных разрешениях и масштабах. Появились также методы определения формы по различным признакам, использующие детекторы границ: от простых фильтров Roberts Cross (1966) и Sobel (1968) до более сложного детектора Кэнни (1986) (рис. 5).

Одним из значимых достижений стало введение контурных моделей, известных как «змейки» (active contours). Эта концепция была предложена Майклом Кассом, Эндрю Виткиным и Деметри Терзопулосом в 1987 году [7]. Такие модели представляют собой деформируемые сплайны или линии, управляемые функцией энергии, которые могут адаптироваться к форме объекта, вытягиваясь и изгибаясь, чтобы точно соответствовать его границам. Такие модели особенно полезны для выделения сложных или размытых контуров в задачах сегментации изображений, отслеживания объектов и распознавания форм (рис. 6).

**Рисунок 6. Пример работы модели «змеи» — активная деформируемая модель:** желтая линия, называемая сплайном, изменяется, подстраиваясь под объект на изображении по формуле минимизации энергии (зеленым обозначены трекинговые точки).

[12]

К началу 2000-х компьютерное зрение уже обладало мощным теоретическим фундаментом и набором алгоритмов для низкоуровневого анализа изображений. Следующим шагом стала попытка «научить» компьютер не только выделять границы, но и понимать содержание. Изначально этот вызов взяли на себя классические методы машинного обучения. Но настоящая революция произошла там, где отказались от ручного извлечения признаков в пользу автоматического, что изменило саму парадигму. В сентябре 2012 года произошло событие, изменившее AI навсегда. На конкурсе ILSVRC-2012 (ежегодный конкурс по компьютерному зрению, где команды соревновались в распознавании объектов на 1,2 млн высококачественных фото из базы ImageNet) команда Крижевского, Суцкевера и Хинтона из университета Торонто представила AlexNet — глубокую сверточную нейросеть [13]. Точность этой нейросети составила 83,6%, в то время как лучшая из предыдущих моделей могла похвастать только 74%. До этого эксперты считали глубокое обучение невозможным из-за переобучения и медленного обучения, но команда Крижевского, Суцкевера и Хинтона сломала эти барьеры.

Раньше компьютеры пытались понимать картинки, используя заранее придуманные фильтры для поиска краев и текстур вручную — это было медленно и неточно. AlexNet изменила подход: она представляла собой большую нейросеть с 8 слоями, которая сама училась выделять самые важные детали на изображениях: от простых линий до сложных объектов. Вместо устаревших функций активации (см. словарик), которые тормозили обучение, в ней использовали более быструю и эффективную функцию ReLU, а для ускорения процесс проходил на видеокартах NVIDIA, что позволило обучить сеть за несколько дней, а не месяцев. Чтобы не запутаться в деталях и не ошибаться, создатели AlexNet применили dropout — метод, когда часть нейронов «выключается» во время обучения, а также задействовали аугментацию — искусственное увеличение набора данных поворотами и сдвигами фотографий (рис. 7).

**Рисунок 7. Пример аугментации изображения для увеличения набора данных:** *слева* — оригинал (рукописная цифра 6), а справа — созданные изображения с измененными параметрами (повернутые, увеличенные, обрезанные и т. д.).

адаптировано из *Questu*

Успех AlexNet был результатом идеального совпадения: ImageNet предоставил огромные объемы данных, CUDA позволил использовать GPU для параллельных вычислений, а мощность GPU достигла уровня, позволяющего обучать 60 миллионов параметров.

CUDA —: программно-аппаратная архитектура параллельных вычислений, которая позволяет существенно увеличить вычислительную производительность благодаря использованию графических процессоров фирмы Nvidia [14]. Аббревиатура образована от англ. Compute Unified Device Architecture.

Триумф AlexNet вызвал взрывную волну интереса к глубокому обучению, вдохновив разработку еще более сложных архитектур: GoogLeNet (2014), ResNet (2015), DenseNet (2017). Прогресс был настолько большим, что после 2012 года все методы без использования сверточных нейронных сетей просто исчезли из соревнований.

Медицинская диагностика стала еще одной быстро растущей областью, где системы AI помогают врачам обнаруживать патологии на ранних стадиях . В 2015 году Google выпустил TensorFlow, демократизировав доступ к инструментам глубокого обучения. Помимо этого, через год был выпущен PyTorch, который революционизировал подход к созданию моделей компьютерного зрения. PyTorch стал удобной и гибкой библиотекой для создания и обучения нейросетей на языке Python, которая позволяет писать код как обычную программу с мгновенным выполнением.

На «Биомолекуле» уже выходила статья про применение моделей компьютерного зрения в медицине и то, как они помогают решать некоторые клинические проблемы: «Народные сказки об искусственном интеллекте в распознавании медицинских изображений» [15]. И нельзя не упомянуть статью, посвященную применениям ИИ в биологии: «История развития искусственного интеллекта и его пришествия в биологию» [3].

Но как же работают сверточные нейронные сети и почему их архитектура оказалась столь прорывной для компьютерного зрения?

Как работают нейронные сети и как с ними связано компьютерное зрение

В основе любой сверточной нейросети (СНС), включая AlexNet, лежит устоявшаяся структура, которую можно представить как конвейер из двух основных частей. СНС — это особый тип искусственного интеллекта, созданный для анализа изображений. Его главное преимущество в том, что он сам учится распознавать зрительные образы. Вместо того чтобы программист вручную объяснял ему, что такое «кошка», сеть сама изучает тысячи картинок и находит общие черты, по которым можно отличить кошку от собаки или машины [16].

СНС применяются для решения ряда задач компьютерного зрения:

классификации изображений;
обнаружения объектов;
сегментации (выделения отдельных частей изображения);
распознавания лиц и жестов;
восстановления изображений высокой четкости.

Несмотря на множество моделей СНС, все они следуют общей, устоявшейся структуре. Это похоже на то, как у всех автомобилей есть колеса, двигатель, руль и кузов, хотя модели могут быть совершенно разными. Эту структуру можно представить как последовательность этапов обработки данных, где каждый этап является отдельным слоем сети.

Прежде чем разберем детально каждый из них, важно понять базовый принцип: любая нейросеть — это всего лишь набор математических функций, связанных друг с другом в определенном порядке. И каждый отдельный нейрон (см. словарик) внутри нее — это тоже просто функция, которая получает набор чисел и выдает новое число. Все обрабатываемые сетью данные представляют собой обычные массивы чисел в памяти компьютера. Например, изображение представляет собой числовую таблицу (матрицу), где каждое число кодирует яркость или цвет пикселя.

Первым в работе сети стоит входной слой. Это своеобразные «ворота» нейросети, в которые поступают данные. Входной слой можно сравнить с глазом, который просто воспринимает свет, без его обработки. Затем полученные данные проходят через чередующиеся сверточные слои и слои подвыборки. Это сердце СНС и основной компонент, отвечающий за извлечение признаков из изображения. Что же представляют собой эти слои?

Сверточные слои состоят из набора фильтров, которые в нейросетях называют ядрами (см. словарик). Здесь опять же важно помнить, что для компьютера и изображение, и само ядро — это не визуальные образы, а числовые матрицы. Изображение — это большая сетка цифр яркостей пикселей, а ядро — маленькая матрица (например, 3×3 или 5×5 чисел).

Ядра работают как трафареты. Маленькая матрица ядра накладывается на соответствующий по размеру участок матрицы изображения. Затем каждое число из кусочка изображения перемножается с наложенным на него числом из ядра, и все эти произведения складываются (рис. 8). В результате получается одно-единственное число, которое записывается в новую матрицу — карту признаков (см. словарик), отражающую, где на исходном изображении встречаются признаки, на которые настроено ядро фильтра. После этого ядро сдвигается на несколько пикселей, и операция повторяется. Этот процесс скольжения фильтра по матрице изображения называется операцией свертки (см. словарик), отсюда и название слоя.

**Рисунок 8. Схематичное представление операции свертки.** Значение −4 на синем фоне в карте признаков рассчитывается следующим образом: −4 = (−1) × 1 + 0 × 0 + 1 × 7 + (−1) × 8 + 0 × 2 + 1 × 4 + (−1) × 6 + 0 × 5 + 1 × 0.

адаптировано из [16]

Представьте, что вы ищете на изображении вертикальные линии [16]. Сначала вы берете маленький трафарет вертикальной линии и проводите им по всему изображению. Там, где изображение совпадает с формой линии, вы получаете сильный сигнал. Аналогично числа ядра подобраны так, что при наложении на вертикальную границу в изображении (резкий перепад чисел в матрице) результат умножения и сложения будет максимальным.

Процесс похож на то, как мы читаем текст, перемещая взгляд с одного слова к другому, собирая их в предложения, передающие смысл текста. Свертка же «сканирует» каждую часть изображения, выделяя определенные локальные признаки, из которых затем собираются более крупные паттерны. По сути, сверточный слой трансформирует изображение, выделяя важные детали и упрощая их распознавание на следующих этапах анализа.

В одном сверточном слое могут быть сотни таких числовых матриц-ядер, и каждое из них вычисляет свою карту признаков. Первые слои находят простые признаки, такие как края и форма. По мере прохождения через все большее число слоев выделяются все более сложные и многокомпонентные признаки, например, глаза и уши.

После сверточных слоев идут слои подвыборки, которые постепенно уменьшают пространственную размерность карты признаков (ширину и высоту) (рис. 9). Это необходимо для снижения вычислительной нагрузки, и самое главное для предотвращения переобучения, делая модель более устойчивой к небольшим сдвигам и искажениям изображения.

**Рисунок 9. Архитектура сверточной нейронной сети**, нацеленной на классификацию объектов на изображении. Полученное значение (*Результат*) будет означать, например, есть ли на изображении кошка.

адаптировано из [16]

Переобучение — это одна из основных проблем машинного обучения (см. словарик). Если модель избыточно сложна и имеет слишком много параметров, то она просто запоминает данные, а не генерализует их, и становится неспособна найти аналогичные закономерности на других данных. Это как студент, который просто зазубрил применение формул для решения одной задачи, но не смог применить те же самые формулы в аналогичной задаче. Для этого и нужны слои подвыборки, которые уменьшают число параметров, оставляя только самую важную информацию. Чередование этих слоев создает иерархию: первый сверточный слой находит простые признаки, подвыборка их сокращает, следующий сверточный слой из этих простых признаков собирает более сложные, и так далее [16].

После чередующихся сверточных и слоев подвыборки (число комбинаций которых может достигать сотен и даже тысяч) данные достигают полносвязных слоев, которые находятся в конце. Это «мозг» нейросети, задача которого взять все высокоуровневые признаки, извлеченные первой половиной, проанализировать их и принять окончательное решение. Последний слой нейросети называется выходным слоем. Он выдает финальный результат анализа в зависимости от поставленной задачи:

Если задачей было предсказание числового значения (такая задача в ML называется регрессией), выходной слой выводит предсказанное значение. Это может быть возраст человека на изображении, например.
Если задачей была классификация, выходной слой выводит вероятность отнесения объекта к тому или иному классу. Классами являются конкретные категории, на которые нейросеть обучена разделять изображения или объекты на них. Например, для распознавания животных классами могут быть «собака», «кошка», «птица». Однако в этом случае важно понять фундаментальное ограничение. Классификатор может надежно определить только те объекты, которые представлены в его обучающих данных, т.е. входят в множество изученных классов. Если на изображении появляется объект, которого нейросеть никогда не видела, и который не был учтен при обучении, то классификатор не сможет корректно его идентифицировать и объяснить, что это. Он все равно попытается отнести объект к одному из известных классов, что может привести к ошибке. Если мы обучали нейросеть на изображениях кошек и собак, а потом показываем ей мышь, она все равно скажет, что это кошка или собака (рис. 10).

Рисунок 10. Ошибка классификации. Пример работы нейронной сети , отличающей на изображениях кошек и собак, при котором модели в качестве тестового изображения предоставляется изображение полевой мыши: было предоставлено по 14 изображений кошек и собак в качестве обучающих, после чего работа модели была визуализирована на двух дополнительных тестовых изображениях.

рисунок авторов

Параметры используемой модели: Temperature Scaled Super CNN — сверточная нейронная сеть для бинарной классификации изображений «кошка/собака» с механизмом внимания и обучаемой температурой для калибровки уверенности предсказаний. Архитектура: 4 блока Conv2d(3→32→64→128→256 каналов) + BatchNorm + ReLU + MaxPool(2), attention Conv2d(256→8) + Sigmoid, классификатор (256×49 + 8×49 →512→256→2) + Dropout(0.6/0.5). Обучение: AdamW(lr=3e-4, wd=1e-3), взвешенная CrossEntropy(label_smoothing=0.1), ReduceLROnPlateau, 25 эпох с аугментациями (RandomCrop/Flip/Rotation/ColorJitter).

Кроме всех перечисленных слоев, нейросеть применяет и другие элементы, служащие для стабилизации распределения входных данных, ускорения обучения и препятствования переобучению. Конфигурируя каждый из этих компонентов по-разному (сколько сверточных слоев поставить, какие фильтры использовать, как чередовать со слоями подвыборки), исследователи и инженеры создают новые архитектуры, которые и приводят к прорывам в компьютерном зрении.

Мы обсудили задачи регрессии и классификации, однако гораздо более важной задачей в биологии и медицине является сегментация, когда нужно не просто назвать объект, а точно очертить его границы, то есть определить, какие пиксели относятся конкретно к этому объекту. Для задач сегментации такая линейная структура не оптимальна. При последовательном сжатии изображения теряется важная пространственная информация о точном расположении деталей. Модель узнает что на картинке, но забывает где это находится.

Чтобы обойти эту проблему, была предложена модификация этой архитектуры [17]. После серии сверточных и слоев подвыборки и идентификации того, что изображено на картинке, мы начинаем идти в обратную сторону с помощью серии операций обратной свертки. Обратная свертка пошагово умножает элементы входной карты признаков на ядро и затем суммирует полученные значения и процесс повторяется (рис. 11). Так мы увеличиваем размер изображения и восстанавливаем детальную пространственную структуру изображения. Получаются две симметричные ветви — нисходящая и восходящая. Такая архитектура напоминает букву U, поэтому и была названа U-net (рис. 12).

**Рисунок 11. Принцип работы обратной свертки.** В данном случае происходит переход от входного сигнала размером 2×2 к выходному размером 3×3.

[18]

Однако некоторые мелкие детали все равно нельзя полностью восстановить таким способом, поэтому для повышения точности в новую архитектуру добавляются скип-соединения (skip connections) [19], которые копируют детальную информацию напрямую из слоев нисходящей ветви в соответствующие слои восходящей ветви. Нейросеть как бы подглядывает на оригинальную картинку, чтобы правильно расположить все детали. Каждый слой правой ветви получает одновременно высокоуровневый контекст из дна (что это за объект) и точные границы из левой ветви.

Как результат, на выходе U-Net выдает изображение того же размера, что и входное, где каждый пиксель помечен своим классом — фон, клетка, ядро. Если классическая СНС вроде AlexNet отвечает на вопрос «Что?», то U-Net дает ответ на вопрос «Где именно?» с точностью до пикселя, что делает ее незаменимой в задачах семантической сегментации медицины, микроскопии и биологии.

**Рисунок 12. Архитектура U-net.** Левая часть — нисходящая ветвь, последовательно сжимающая изображение с помощью сверточных слоев; правая часть — восходящая ветвь, последовательно повышающая разрешение через этапы обратной свертки.

адаптировано из [20]

Применение моделей компьютерного зрения

Простейшие модели компьютерного зрения, доступные даже на обычном компьютере, способны автоматически корректировать контрастность, выделять регионы интереса и классифицировать базовые морфологические признаки. Такие модели выступают вспомогательным инструментом, снижая субъективность ручного анализа и ускоряя первичную обработку данных.

Обработка данных микроскопии

Компьютерное зрение начинает свой путь в биологии с самой актуальной для этого инструмента области — обработки микроскопических изображений [21]. В клеточной биологии методы микроскопии являются одними из основных способов изучения клеточных процессов, но часто полученные снимки сложно интерпретировать и анализировать из-за большого количества шумов. И хотя микроскопия и достигла высокого уровня развития и позволяет рассмотреть на снимках практически все структуры клеток в мельчайших подробностях, проблема графических шумов остается актуальной . Но почему же так сложно получить четкое изображение? Эта особенность метода является фундаментальной проблемой, так как источниками шума могут являться сами компоненты микроскопа (камеры, оптика, детекторы). Исследователям, изучающим процессы развития организмов, зачастую крайне сложно получить четкие изображения.

Так, у каждого изображения выделяют значение SNR (signal‑to‑noise ratio) — насколько сильно полезный сигнал (например, свет от флуоресцентных меток) превосходит шум. Чем он ниже, тем картинка «зернистее» и меньшего качества [22].

**Рисунок 13. Снижение шума на микрофотографиях клеток.** Эталонное изображение в *верхнем левом углу*. Изображения без шума, полученные с помощью моделей *Noise2Noise* и *Noise2Void*, показаны *внизу* вместе с их средними пиковыми значениями отношения сигнал/шум (*PSNR*; более высокие значения соответствуют более резким, менее шумным изображениям).

адаптировано из [22]

Помимо этого, одной из важных проблем при съемке живых организмов является неизбежный компромисс между уровнем шума, скоростью съемки и разрешением. Чтобы запечатлеть быстрые биологические процессы, приходится жертвовать временем экспозиции, что приводит к зашумленным снимкам с низким SNR. Одновременно добиться высокого разрешения, низкого уровня шумов и высокой скорости съемки физически невозможно, что значительно затрудняет дальнейший анализ.

Для решения этой проблемы исследователи обратились к компьютерному зрению, создав модели, которые могут реставрировать изображения. Специальные алгоритмы преобразуют зашумленное входное изображение с низким SNR в очищенное и четкое выходное с высоким SNR (рис. 13–15). Если раньше для борьбы с шумом использовались сложные математические модели, основанные на физике микроскопов, то теперь подходы глубокого обучения часто показывают более качественные и быстрые результаты, позволяя извлечь информацию из, казалось бы, безнадежных данных.

Рисунок 14. Сравнение изображений, полученных при помощи конфокальной микроскопии, клеток, содержащих флуоресцентный краситель: до (1) и после (2) улучшения.

[23]

**Рисунок 15. Предварительная обработка изображения.** (1): исходное изображение (содержит нерелевантные внутренние структуры); (2): отфильтрованное изображение позволяет сосредоточиться на морфологии мышц стенки тела.

[24]

Но, что делать, если снимки в хорошем качестве, но проблема уже в самом наблюдателе, который не может различить несколько изображений?

Они видят то, что мы не в силах

Яркий пример превосходства ИИ — анализ динамических структур цитоскелета. Актиновые филаменты, обеспечивающие форму клетки и миграцию, в раковых клетках демонстрируют патологические морфологические паттерны, неразличимые человеческим глазом. Одним из факторов классификации клеток является строение цитоскелета [25]. Матрикс цитоскелета — это динамически изменяющаяся структура, состоящая из актиновых микрофиламентов, промежуточных филаментов и микротрубочек. Считается, что изменения в актиновых филаментах тесно связаны с развитием рака [26]. Они состоят из идентичных актиновых белков, организованных в длинные спиральные цепи, и играют важную роль в поддержании формы клетки и ее движения. Раковые клетки имеют механические свойства, отличные от нормальных и доброкачественных клеток. Такое явление обусловливает способность клеток мигрировать в близлежащие ткани через кровеносные или лимфатические сосуды и формировать вторичные опухоли в отдаленных местах. Таким образом, классификация клеток по особенностям цитоскелета становится клинически значимой проблемой диагностики раковых заболеваний. Более актуальной эту проблему делает еще невозможность идентификации подобных изменений человеческим глазом [23].

Решить эту задачи взялись ученые из университета Цинхуа: была разработана модель, которая классифицирует клетки на снимках, сделанных с помощью конфокальной иммунофлуоресцентной микроскопии [23]. Исследователи использовали несколько раковых клеточных линий, а также здоровую для обучения модели на снимках и выявления паттерна в строении цитоскелета (всего было обработано 1500 изображений отдельных клеток). Актиновые филаменты были равномерно распределены по всему телу клетки. Напротив, две линии раковых клеток показали менее выраженные структуры актиновых филаментов. Раковые линии демонстрировали диффузное распределение филаментов вместо организованных стрессовых волокон, что коррелировало с повышенной инвазивностью клеток.

По итогу обучения и оптимизации модели, удалось получить точность определения измененного цитоскелета 97,6% против точности человеческого глаза в 78,6%. Победа за компьютерным зрением.

Детекция и сегментация отдельных объектов на изображении

Переход к сложным задачам требует не только классификации, но и пространственной локализации объектов. Чаще всего ученым нужно отделить интересующие объекты (например, клетки или органеллы) от фона. Для этого существует два подхода. Первый — детекция объектов: нахождение их на рисунке и формирование вокруг ограничивающей рамки для ответа на вопрос: «Где объект?». Второй — сегментация. В отличие от детекции, которая лишь приблизительно локализует объект прямоугольной рамкой, сегментация отвечает на вопрос: «Из каких частей состоит объект?».

Одной из сложных задач является сегментация ядер клеток на микрофотографиях. Ядра часто плотно упакованы, перекрываются и имеют разную яркость из-за неоднородного окрашивания вследствие различной компактизации хроматина [27]. Такую задачу исследователи уже пытались решить, и некоторым удалось успешно это сделать при фенотипировании клеток (рис. 16).

**Рисунок 16. Визуализация работы модели компьютерного зрения,** которая используется для идентификации ядер разных типов клеток: на изображении (фрагменты мезотелиомы, плоскоклеточного рака головы и шеи (*HNSCC)* и аденокарциномы желудка, окрашенные по Г‑Э) приведены достоверно идентифицированные вручную ядра и ядра, предсказанные моделью, которые показаны на средней и крайней правой панелях соответственно (каждый цвет соответствует экземпляру ядра). Сегментированные изображения отдельных клеток можно посмотреть на рис. 17 в крутилке.

адаптировано из [28]

**Рисунок 17. Сегментированные изображения отдельных клеток.** Каналы показаны сверху вниз: светлое поле, *Hoechst* (синий флуоресцентный краситель), *SiR-Actin* (красный флуоресцентный краситель) и *Calcein* (зеленый флуоресцентный краситель).

[23]

Возможность фенотипирования клеток имеет принципиально важное значение в биологических исследованиях и медицине. Обычно для этого используется проточная цитометрия, а в последнее время еще добавилось и машинное обучение. Но такой метод имеет ряд технических ограничений, и до конца не ясно, насколько надежно он позволяет фенотипировать клетки, неразличимые человеческим глазом. Исследователи из университета Британской Колумбии в 2019 году обучили сверточную нейронную сеть, используя автоматически сегментированные изображения клеток из восьми стандартных линий раковых клеток. Они сначала научили модель различать клетки, а потом дали ей возможность дополнительно обучиться самой. Клетки удалось идентифицировать со средней точностью классификации 94,6%, протестированной с использованием отдельно полученных изображений. Авторы разработали алгоритм извлечения изображений отдельных клеток из широкопольных микроскопических изображений. Алгоритм сначала определял местоположение отдельных клеток, идентифицируя их ядра с помощью флуоресценции маркера DAPI, затем ядра вырезали и подвергали серии тестов для отбраковки проблемных изображений (рис. 17).

Второй, возможно, даже более трудной задачей является сегментация клеточных мембран. В отличие от более-менее округлых ядер формы клеток невероятно разнообразны. Кроме того, размеры их контуров могут сильно варьироваться, что в совокупности с отсутствием стандартизированного набора данных для обучения моделей делает объективную оценку и сравнение алгоритмов сложной проблемой. Удачным решением здесь стала модель Cellpose. Эта модель предсказывает векторные поля, указывающие направление от границы к центру клетки, что позволяет сегментировать нейроны, астроциты, эндотелий любой морфологии с точностью 92–96% на 2D/3D данных [27]. Такой механизм дает возможность алгоритму, следуя по направлению векторов, находить центр и границы клеток любой, даже самой причудливой, формы: будь то вытянутые нейроны, звездчатые астроциты или плоские эндотелиальные клетки (рис. 18).

Модель обучена на огромном и разнообразном наборе данных с клетками самой разной морфологии и может работать как с 2D, так и с 3D данными, что делает ее весьма универсальной. Более того, в этой модели реализована система дообучения на данных пользователей, что делает модель наиболее успешной для данной задачи. Однако Cellpose не единственная модель, достигшая таких выдающихся результатов в обработке изображений: ряд других алгоритмов смог приблизится к подобной точности сегментации клеточных мембран, как, например, YOLOv8 (рис. 19).

Визуализация работы модели Cellpose — **Рисунок 18. Визуализация работы модели *Cellpose*:** на *верхнем левом* изображении оригинальный снимок окрашенных флуоресцентным красителем клеток, полученный при помощи конфокального микроскопа; на *верхнем правом* изображении модель предсказала границы идентифицированных клеток; на *нижнем левом* изображении модель окрасила цитоскелет каждой клетки разными цветами; на *нижнем правом* изображении градиентно окрасила клетки с обозначением клеточных ядер. В сравнении с ранее используемыми модели, *Cellpose* значительно продвинулась в идентификации клеточных мембран, ядер и органоидов.

адаптировано из [27]

Визуализация работы модели компьютерного зрения YOLOv8 — Рисунок 19. Визуализация работы модели компьютерного зрения *YOLOv8* для сегментации клеток (г), что позволяет получать более четкие и точные контуры на микроскопических изображениях, по сравнению с другими способами: пример снимка под микроскопом (а), ручная обводка клеточных мембран (б), автоматическая разметка при помощи алгоритма *Grain U-Net* (в).

[29]

Однако после того, как объекты найдены и точно сегментированы, нужно провести их количественный анализ. Здесь глубокое обучение (DL) используется для автоматизации таких задач как подсчет, категоризация, детальный анализ морфологии и отслеживание изменений объектов во времени. Это позволяет извлекать из изображений точные и воспроизводимые данные, лишенные субъективности человеческого восприятия [30].

Благодаря этому нейросети обладают высоким потенциалом в области диагностики. Глубокое обучение решает ключевые задачи анализа биологических изображений, начиная с классификации и категоризации объектов, где традиционные методы демонстрируют недостаточную скорость и объективность интерпретации данных даже между разными экспертами. Например, в случае оценки качества эмбрионов для ЭКО результаты модели Inception-V1, обученной на консенсусных оценках нескольких эмбриологов, в 95,7% случаев совпадала с консенсусной оценкой нескольких экспертов, обеспечивая воспроизводимую альтернативу субъективному человеческому мнению.

Выделение патогенов: спасение в превосходстве над человеческим глазом

Следующим уровнем сложности стала автоматическая детекция паразитов и бактерий. В одном исследовании были получены очень интересные результаты. Ученые использовали сверточные нейронные сети для создания системы компьютерного зрения, способной обнаруживать малярию и туберкулез по снимкам с микроскопа. Было показано, что СНС радикально превосходят традиционные методы компьютерного зрения, основанные на ручном подборе признаков, и показывают очень высокую точность, сравнимую с экспертом-человеком.

Обученные нейросети протестировали на огромных наборах данных (модель была протестирована на 261 345 микрофотографий, на 11,3% из которых были признаки заражения малярией) [30]. Особенно впечатляющим стал анализ ложноположительных срабатываний: в 67% случаев сеть корректно идентифицировала точки хроматина плазмодиев, которые эксперты классифицировали как «здоровые эритроциты». Аналогичные результаты получены для туберкулезных микобактерий: из 12 спорных изображений 10 действительно содержали туберкулезные палочки, пропущенные лаборантами (рис. 20). То есть при разборе ложноположительных срабатываний (когда модель находит болезнь там, где ее не отметил человек эксперт) выяснилось, что во многих случаях сеть была права, а эксперт — нет!

**Рисунок 20. Сопоставление экспертных и автоматизированных обнаружений патогенов.** Обнаруженные объекты на тестовых изображениях: плазмодий (*слева*) и туберкулезная палочка (*справа*). Белые рамки — аннотации экспертов о местоположении патогенов. Красные рамки — результат обнаружения системой.

[30]

Нейросеть смогла не только качественно выполнить поставленную задачу, но и исправить ошибки человеческого анализа. В контексте клинической медицины такая разница имеет вес человеческих жизней.

Фенотипирование и агрономия: компьютерное зрение на страже урожая

Еще один интересный пример применения компьютерного зрения — фенотипирование растений (High Throughput Phenotyping, HTP). Это автоматизированная оценка морфологических и физиологических характеристик растений в больших масштабах. Несоответствие генотипа фенотипу является одной из наиболее важных проблем современной селекции растений. И хотя исследования в области геномики позволили получить много информации о генетической структуре различных видов растений, методы секвенирования намного превосходят наши нынешние возможности в области фенотипирования растений.

Традиционные инструменты фенотипирования растений, которые основаны на ручном измерении отдельных признаков на небольшой выборке растений, очень кропотливые и не позволяют проводить всесторонний анализ признаков в пределах одного растения и различных сортов. Это узкое место фенотипирования, ограничивающее нашу способность понимать, как выраженные фенотипы коррелируют с лежащими в их основе генетическими факторами и условиями окружающей среды, и замедляет прогресс в решении важных проблем селекции, таких как устойчивость к засухе. Компьютерное зрение значительно преобразило эту область, позволяя быстро анализировать тысячи или даже сотни тысяч растений в реальном времени, что невозможно вручную.

**Рисунок 21.** Пример фильтров в первом сверточном слое сети, применяемых к входному изображению в виде пошаговых сверток.

адаптировано из [31]

В недавнем исследовании применяли глубокие СНС для обнаружения 10 различных болезней риса и различия их от здоровых растений на наборе из 500 изображений. Модель показала точность 95,48% при десятикратной кросс-валидации, что значительно превосходило традиционные методы машинного обучения [31]. Модель показала хорошую устойчивость к изменениям освещения благодаря аугментации данных во время обучения, что делает ее пригодной для применения как в контролируемых тепличных условиях, так и в полевых условиях с переменной освещенностью.

Апофеозом же практической значимости стали сельскохозяйственные роботы, которые выжигают сорняки лазером с точностью хирурга. Разработанные роботы Carbon Robotics LaserWeeder и европейский WeLASER CEOL представляют собой инженерный триумф, где нейросети мгновенно отличают культурные растения от сорняков, а лазерные диоды уничтожают последние за миллисекунды (рис. 22).

Разработанный компанией LaserWeeder сельскохозяйственный робот Carbon Robotics — Рисунок 22. Разработанный компанией *LaserWeeder* сельскохозяйственный робот *Carbon Robotics*, сканирующий поле для поиска сорняков при помощи специальной установки, использующей компьютерное зрение.

*Carbon Robotics*

Нейросети обучены на миллионах аннотированных изображений, различая морфологию листьев, текстуру, угол роста. Модель YOLOv8 предсказывает 3D-положение меристемы даже при перекрытии листьями. Лазер фокусируется на точке роста с точностью до 2 мм и выжигает ее, оставляя стебель нетронутым — сорняк погибает без возможности регенерации. Меристема уничтожается импульсом протяженностью в 50 мс при температуре 1000 °C (рис. 23). Устойчивость невозможна.

**Рисунок 23. Пример разделения сорняков и культурных растений с помощью компьютерного зрения:** сорняки отмечены кружками с красными точками внутри, культурные растения — кружками с зелеными точками, а ложно определенные растения — закрашенными красными кружками.

*Carbon Robotics*

Если растения относительно статичны, то следующий, возможно, самый сложный вызов для компьютерного зрения — анализ динамических, сложных и вариабельных поведенческих паттернов у животных. И здесь «искусственные глаза» совершили настоящую революцию, превратив описания в точные количественные данные.

Поведенческая биология: кульминация совершенствования компьютерного зрения в качестве инструмента

Количественная оценка поведения имеет решающее значение для многих областей нейробиологии, от изучения моторных функций до анализа социального взаимодействия и нейродегенеративных заболеваний. Видеосъемка позволяет легко наблюдать и записывать поведение животных в различных условиях — от лабораторных клеток до естественной среды, — создавая богатые временные ряды данных. Однако выделение отдельных аспектов поведения (длительность движений, траектории, паттерны взаимодействия) для дальнейшего анализа традиционно требует ручной разметки кадров экспертами, что занимает часы или даже дни работы и подвержено субъективным искажениям.

В исследованиях двигательных функций людей или животных часто используют светоотражающие маркеры на ключевых точках тела, чтобы упростить компьютерное отслеживание. Этот подход, известный как marker-based motion capture, эффективен для крупных объектов, но имеет фундаментальные ограничения: маркеры физически мешают естественному поведению, их количество и расположение необходимо определять заранее на основе экспертных предположений о кинематике, а калибровка требует специализированного оборудования. Более того, маркеры неприменимы для мелких организмов (дрозофил, нематод) или случаев, когда поведение должно оставаться полностью неинвазивным.

Анализ поведения животных стал вершиной пирамиды задач компьютерного зрения. Одним из прорывных инструментов стала программа DeepLabCut (2018), разработанная командой из Тюбингенского университета и Гарварда. Система использует архитектуру DeeperCut, основанную на ResNet-101, и обучается всего на 200 вручную размеченных кадрах для новой задачи, автоматически генерируя треки для миллионов последующих кадров. DeepLabCut точно отслеживает движения мышиных лапок при захвате объектов, полеты дрозофил и даже процесс откладывания яиц — задачи, ранее требовавшие часов ручной работы (рис. 24А–В).

Отслеживание механики движений крысы при помощи трекинговых точек — **Рисунок 24А. Примеры работы нейронной сети компьютерного зрения *DeepLabCut* по отслеживанию движений животных:** отслеживание механики движений крысы при помощи трекинговых точек, обозначенных разными цветами.

*DeepLabCut*

Отслеживание механики движений частей туловища плодовой мушки при помощи трекинговых точек — **Рисунок 24Б. Примеры работы нейронной сети компьютерного зрения *DeepLabCut* по отслеживанию движений животных:** отслеживание механики движений частей туловища плодовой мушки при помощи трекинговых точек, обозначенных разными цветами.

[32]

Отслеживание механики движений частей туловища и отдельных конечностей гепарда при помощи трекинговых точек и линий — **Рисунок 24В. Примеры работы нейронной сети компьютерного зрения *DeepLabCut* по отслеживанию движений животных:** отслеживание механики движений частей туловища и отдельных конечностей гепарда при помощи трекинговых точек и линий, обозначенных разными цветами.

*DeepLabCut*

В одном исследовании DeepLabCut визуализировала 3D-траектории лапок мыши в задаче reaching (захват пищи), раскрыв тонкие паттерны моторного обучения, недоступные для традиционных методов. Точность позиционирования достигала 99% даже при перекрытиях частей тела [32].

Испытать же на практике теоретические знания довелось и исследователям из Яндекса. Объектом их интереса стали снежные барсы или же ирбисы — скрытные, малоизученные животные, обитающие в труднодоступных высокогорьях. Сложности добавляет и то, что этот хищник ведет сумеречный, одиночный образ жизни с плотностью всего 0,1–0,5 особей на 100 км². В России проживает не более 90 ирбисов, из которых 24 зафиксированы в Сайлюгемском национальном парке (Республика Алтай). Традиционный мониторинг с помощью фотоловушек генерирует тысячи «пустых» снимков (ветер, снег, мелкая фауна), где редкие кадры с барсами теряются в потоке данных. Ручная обработка данных занимает дни или даже недели, делая оценку численности, миграций и репродуктивного статуса практически невозможной.

В 2023 году Школа анализа данных Яндекса (ШАД) совместно с Yandex Cloud и Сайлюгемским национальным парком запустили проект, решивший эту проблему с помощью компьютерного зрения. Студенты ШАД обучили нейросеть на 40 000 размеченных изображениях и видео из фотоловушек. Была использована модель YOLOv8 с измененными алгоритмами распознавания, что позволило достичь определения 10 видов животных (ирбис, волк, марал, кабарга и др.) с точностью 92–96%.

**Рисунок 25.** Фотография снежного барса в высокогорьях Алтая.

[33]

Самым интересным этапом проекта стало выделение индивидуальных особей и дальнейший мониторинг их перемещений. У каждого ирбиса свой уникальный рисунок на шерсти (расположение розеток), подобный отпечаткам пальцев человека. По этим рисункам их и идентифицировали. Удалось достичь 89% точности определения особи даже на размытых снимках. Так появились снежные барсы М42 с характерной «маской» на морде и самка K19 с асимметричным пятном на левом плече.

Все идентифицированные снежные барсы стали фундаментом для спасения вида, находящегося на грани исчезновения. Из пикселей фотоловушек родилась надежда для самого одинокого хищника планеты.

Трудности при обучении и использовании глубоких СНС

Несмотря на очевидные преимущества и высокий потенциал, сверточные нейросети обладают рядом серьезных недостатков и нерешенных проблем.

Во-первых, на данный момент не до конца ясно, почему нейросеть работает так, как она работает. Она может отлично работать на практике и практически всегда выдавать правильный ответ, но мы не можем математически обосновать, почему она работает хорошо. То есть мы знаем рецепт вкусного пирога, но не понимаем, какие процессы в духовке делают его вкусным. Получается, что модели зачастую разрабатывают «методом тыка», а подбор оптимальных настроек становится искусством, требующим глубоких знаний и недюжинной интуиции, что серьезно препятствует разработке новых более эффективных моделей. Кроме того, по этой причине мы не можем полностью доверять ИИ в критически важных областях, таких как медицина [16].

Во-вторых, для как можно более качественного обучения моделей необходим титанический объем данных. При этом нужны качественные данные с минимальным числом ошибок, и чем сложнее задача, тем больше примеров и шаблонов нам нужно. Соответственно нужны и большие вычислительные мощности, дорогие видеокарты и много времени. Обычная СНС может весить сотни мегабайт и требовать миллиардов операций. Такие модели невозможно применять на портативных устройствах, таких как смартфоны. Поэтому одной из основных задач сейчас является сжатие моделей без потери точности.

Какие перспективы есть у компьютерного зрения

Будущие направления развития сверточных нейросетей включают несколько конкретных путей решения существующих проблем. Вместо того, чтобы полагаться на одну сложную сеть, все чаще применяется ансамблевое обучение, где объединение нескольких разнородных сетей повышает устойчивость и обобщающую способность — подобно коллективному решению группы экспертов, вместо решения только одного (этот подход назвали Mixture of Experts, MoE (см. словарик)). Параллельно с этим идет разработка универсальных архитектур, способных эффективно работать на разнородных задачах без серьезной доработки, в отличие от узкоспециализированных моделей. Важную роль играют и механизмы внимания. Нейросети пытаются обучить концентрироваться на отдельных значимых областях изображения, подобно тому как человек при взгляде на лицо бессознательно фокусируется на глазах и рте. Это не только повышает точность, но и увеличивает интерпретируемость работы алгоритмов [16].

Для поддержки растущей сложности моделей (которая растет быстрее, чем мощность «железа») требуется развитие специализированного аппаратного обеспечения (такого как TPU от Google), оптимизированных исключительно для задач нейросетей. Одним из самых перспективных направлений является автоматизированный дизайн сетей (NAS, Neural Architecture Search), где алгоритмы самостоятельно находят архитектуры, оптимальные для конкретного набора задач, СНС смещается от ручного проектирования к решению системных проблем: создания более интеллектуальных, эффективных и прозрачных моделей, сочетающих блочную организацию вместо простых слоев (по типу Residual Blocks в ResNet) с улучшенной интерпретируемостью и теоретической обоснованностью.

Когда же в исследованиях компьютерное зрение полностью заменит человеческое?

Несмотря на логичность перспективы полной автоматизации визуального анализа, современные исследователи сталкиваются с существенным пластом технических ограничений, не позволяющих безоговорочно полагаться на алгоритмы компьютерного зрения. В биологических приложениях эти методы уже эффективно преодолевают субъективность человеческого восприятия, последовательно преобразовывая расплывчатые качественные оценки («кажется») в строгие количественные метрики — будь то повышение отношения сигнал/шум в микроскопии или сегментация перекрывающихся клеточных структур.

Однако на текущем этапе развития многие модели компьютерного зрения так и остаются прототипами, не переходящими в рутинную практику. К основным ограничениям относятся зависимость от объема экспертно размеченных данных (критическая проблема биологических датасетов), отсутствие интерпретируемости («черный ящик» нейросетей), естественная вариабельность биологических образцов и высокие вычислительные затраты. Эти факторы существенно ограничивают обобщаемость алгоритмов между лабораториями и модельными организмами — от клеток млекопитающих к растительным или микроорганизмам.

Вместе с тем нельзя умолчать о значительных перспективах дальнейшего развития. Компьютерное зрение в биологии эволюционирует от вспомогательного инструмента к фундаментальной парадигме количественной науки, где воспроизводимость объективных данных неизбежно вытеснит субъективную интерпретацию, открывая путь к новым стандартам исследований.

Литература

Википедия: Феномен синего или белого платья. (2025).;
David Marr Vision — The MIT Press, 2010;
История развития искусственного интеллекта и его пришествия в биологию;
Потапов А.С. Системы компьютерного зрения: учебное пособие. СПб.: ИТМО, 2016. — 162 с.;
Yuanyang Cao, Jian Chen, Zichao Zhang. (2023). A sheep dynamic counting scheme based on the fusion between an improved-sparrow-search YOLOv5x-ECA model and few-shot deepsort algorithm. Computers and Electronics in Agriculture. 206, 107696;
Non-Invasive Sheep Biometrics Obtained by Computer Vision and Machine Learning Are Reliable Predictors of Liveweight. (2020). Sensors. 20, 6184;
Шапиро Л., Стокман Дж. Компьютерное зрение = Computer Vision. М.: Бином. Лаборатория знаний, 2006. — 752 с. — ISBN 5-94774-384-1;
Deep learning based computer vision approaches for intelligent transportation systems. (2022). Artificial Intelligence in Transportation Systems;
Papert S.A. Summer Vision Project. Cambridge, MA: MIT Artificial Intelligence Laboratory, 1966. AI Memo Series; AIM-100. 1–20 с.;
Peter S. (2024). AI was born at a US summer camp 68 years ago. Here's why that event still matters today. The Conversation;
Luis Alvarez, Joachim Weickert, Javier Sánchez. (2000). Reliable Estimation of Dense Optical Flow Fields with Large Displacements. International Journal of Computer Vision. 39, 41-56;
Dake. (2006). Spider picture. Wikimedia Commons;
Krizhevsky A., Sutskever I., & Hinton G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems (NIPS 2012) 25, 1097–1105;
Официальное руководство по программированию на CUDA, вер. 1.1. (2008). Chapter 1. Introduction to CUDA → 1.2 CUDA: A New Architecture for Computing on the GPU. CUDA Programming Guide, архивная копия от 6 октября 2008 на Wayback Machine;
Народные сказки об искусственном интеллекте в распознавании медицинских изображений;
Xia Zhao, Limin Wang, Yufei Zhang, Xuming Han, Muhammet Deveci, Milan Parmar. (2024). A review of convolutional neural networks in computer vision. Artif Intell Rev. 57;
Olaf Ronneberger, Philipp Fischer, Thomas Brox. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. Lecture Notes in Computer Science. 234-241;
Dobilas S. (2022). Transposed Convolutional Neural Networks — How to Increase the Resolution of Your Image. Towards Data Science;
Xiao-Xia Yin, Le Sun, Yuhan Fu, Ruiliang Lu, Yanchun Zhang. (2022). U-Net-Based Medical Image Segmentation. Journal of Healthcare Engineering. 2022, 1-16;
Модель U-net и ее варианты. (2025). Deep Machine Learning;
12 методов в картинках: микроскопия;
Adrien Hallou, Hannah G. Yevick, Bianca Dumitrascu, Virginie Uhlmann. (2021). Deep learning for bioimage analysis in developmental biology. Development. 148;
Ronald Wihal Oei, Guanqun Hou, Fuhai Liu, Jin Zhong, Jiewen Zhang, et. al. (2019). Convolutional neural network for cell classification using microscope images of intracellular actin networks. PLoS ONE. 14, e0213626;
Nikita Orlov, Josiah Johnston, Tomasz Macura, Lior Shamir, Ilya Goldberg. (2007). Computer Vision for Microscopy Applications. Vision Systems: Segmentation and Pattern Recognition;
«Зоопарк» ингибиторов тубулина;
Magdalena Izdebska, Wioletta Zielińska, Marta Hałas-Wiśniewska, Alina Grzanka. (2020). Involvement of Actin and Actin-Binding Proteins in Carcinogenesis. Cells. 9, 2245;
Carsen Stringer, Tim Wang, Michalis Michaelos, Marius Pachitariu. (2021). Cellpose: a generalist algorithm for cellular segmentation. Nat Methods. 18, 100-106;
John Abel, Suyog Jain, Deepta Rajan, Harshith Padigela, Kenneth Leidal, et. al. (2024). AI powered quantification of nuclear morphology in cancers enables prediction of genome instability and prognosis. npj Precis. Onc. 8;
Matthew J. Patrick, Christopher R. Field, Lauren H. L. Grae, Jeffrey M. Rickman, Kevin G. Field, Katayun Barmak. (2025). A comparative analysis of YOLOv8 and U-Net image segmentation approaches for transmission electron micrographs of polycrystalline thin films. APL Machine Learning. 3;
Quinn J.A., Nakasi R., Mugagga P.K.B., Byanyima P., Lubega W. & Andama A. (2016). Deep Convolutional Neural Networks for Microscopy-Based Point of Care Diagnostics. Proceedings of the 1st Machine Learning for Healthcare Conference. 56, 271–281;
Jordan R. Ubbens, Ian Stavness. (2017). Deep Plant Phenomics: A Deep Learning Platform for Complex Plant Phenotyping Tasks. Front. Plant Sci. 8;
Alexander Mathis, Pranav Mamidanna, Kevin M. Cury, Taiga Abe, Venkatesh N. Murthy, et. al. (2018). DeepLabCut: markerless pose estimation of user-defined body parts with deep learning. Nat Neurosci. 21, 1281-1289;
Рыбалко Д., Маликов Д. (2023). «Спасая один вид, мы спасаем экосистему»: зачем изучать снежных барсов с помощью нейросетей. Yandex Cloud;
V. Vanitha, S. Srivatsan. (2023). Automated Detection of Malaria Parasite from Giemsa-Stained Thin Blood Smear Images. Lecture Notes in Networks and Systems. 195-210.

Поддержите нас в деле просвещения

Больше Биомолекула рассказывает о биологии и медицине — сейчас у нас на сайте несколько тысяч статей. Если вам нравится наш сайт и вы хотите, чтобы он дальше работал, поддержите нас, пожалуйста, посильной суммой — разово или ежемесячно. Ежемесячные платежи предпочтительнее 😀

Ссылка скопирована в буфер обмена

Глаза прогресса: как глубокое обучение помогает видеть невидимое для человека

Глаза прогресса: как глубокое обучение помогает видеть невидимое для человека

Авторы

Редакторы

Темы

Конкурс «Био/Мол/Текст»-2025/2026

Словарик важных терминов, которые пригодятся дальше

Что мы понимаем под компьютерным зрением

Появление компьютерного зрения

Как работают нейронные сети и как с ними связано компьютерное зрение

Применение моделей компьютерного зрения

Обработка данных микроскопии

Они видят то, что мы не в силах

Детекция и сегментация отдельных объектов на изображении

Выделение патогенов: спасение в превосходстве над человеческим глазом

Фенотипирование и агрономия: компьютерное зрение на страже урожая

Поведенческая биология: кульминация совершенствования компьютерного зрения в качестве инструмента

Трудности при обучении и использовании глубоких СНС

Какие перспективы есть у компьютерного зрения

Когда же в исследованиях компьютерное зрение полностью заменит человеческое?

Литература

Комментарии

Поддержите нас в деле просвещения

Публикация отправлена в дорогую редакцию

Что-то пошло не так. Проверьте ваше интернет-соединение