Анализ изображений: человек или компьютер? (стр. 1 из 2)

Эрих Гаузер, инженер-программист (математические методы обработки данных, программирование), Азер Илиев, специалист-исследователь (микроскопия и анализ изображения)

В статье рассказывается о вариантах анализа изображений, о плюсах и минусах интерактивного (человеческого) и автоматического (компьютерного) анализа. Авторы статьи создали свою, уникальную методику анализа, приводимые иллюстрации показывают результат работы данной методики.

Хорошо известно, что более 90% информации человек получает с помощью зрения. Так было, так есть, и, очевидно, так будет. И поэтому не удивительно, что технический прогресс затрагивает в первую очередь средства сбора и обработки визуальной информации.

При всей сложности и чувствительности человеческого глаза, его возможности ограничены, и человек издавна стремился их расширить. Прежде всего, к таким "средствам расширения" относятся уже давно изобретенные микроскоп и телескоп. Долгое время предоставленные ими возможности визуального наблюдения вполне удовлетворяли исследователей, позволяя делать выдающиеся открытия как в области микромира (особенно биологии), так и в макромире, а именно, астрономии.

Но прогресс не стоит на месте. Появление компьютеров неизбежно вызвало желание подключить такой компьютер к микроскопу и телескопу, освободив человека от нудного и чреватого ошибками процесса анализа и подсчета различных объектов, попавших в поле зрения.

Однако, возникла неожиданная проблема: компьютер - не человек, он не видит и не понимает введенное в него изображение, для него это просто набор данных, никак не связанных между собой. В то же время человек, глядя на любое изображение, практически всегда может выделить на нем какие-то характерные особенности, причем происходит это почти мгновенно.

Взаимодействие человека и компьютера в зрительной области стало очень тесным, но разделилось на два направления: интерактивный режим работы и автоматический.

В интерактивном режиме компьютерные программы преобразуют изображение в соответствии с желанием человека, что позволяет ему лучше увидеть какие-то части или особенности изображения, выделить нужные элементы и подсчитать их количество или геометрические параметры. При всех плюсах этого варианта очевидны и его минусы: в процессе работы необходимо участие человека, который в целом имеет быстродействие, гораздо меньшее чем у компьютера, который ошибается, и который, наконец, просто устает. И, между прочим, нуждается в оплате своего труда.

Автоматический режим подразумевает автономную работу компьютера, как по сбору информации (что не является проблемой уже давно), так и по ее анализу. И вот тут как раз проблема в том, что на сегодняшний день не существует способов полностью автоматизировать процесс анализа. При всем быстродействии компьютеров и их огромной памяти, никак не удается заставить их делать то, что человек (особенно специалист в конкретной области) может сделать буквально одним взглядом.

Оба эти пути развиваются параллельно, хотя стремление к полной автоматизации является приоритетным.

В области интерактивного анализа основными помощниками человека становятся различные графические пакеты, самыми известными из которых можно считать PhotoFinish (ZSoft), PhotoShop (Adobe), Corel Draw и некоторые другие, менее известных фирм, но зачастую очень удобные и полезные. Среди них много и бесплатных систем, например, очень удачный продукт "ImageJ" ("http://rsb.info.nih.gov/ij/").

Эти программы позволяют проводить с изображением поистине чудесные преобразования, от имитации письма маслом в стиле определенной художественной школы, до анимационных эффектов, превращающих одну картину в другую через ряд промежуточных. О выводе всевозможных статистических характеристик изображения и говорить нечего, это само собой разумеется. Кроме того, заложенные в эти программы алгоритмы позволяют менять яркость, контрастность, резкость, насыщенность и многие другие параметры, а также выделять области и проводить различные математические операции с изображениями.

Человек, комбинируя различные преобразования, добивается эффекта визуального выделения на изображении необходимой ему информации. Потребность в подобных преобразованиях связана с тем, что изображения, получаемые с помощью различных видеокамер и других детекторов, далеко не всегда являются качественными и подчас содержат шума не меньше, чем полезного сигнала. Кроме того, получаемые изображения часто несут информацию из очень непривычных человеку мест и условий, в результате он просто не может корректно анализировать такое изображение. Тут можно упомянуть не только электронно-микроскопические изображения горных пород или внутренностей клетки, но и переданные из космоса изображения далеких планет. Для человека эти картины по сути чужды и непривычны, поэтому ему крайне трудно правильно их интерпретировать.

Получается, что проводить качественный и количественный анализ изображений даже с помощью столь замечательных программ может только специалист очень высокой квалификации, имеющий большие знания в данной конкретной области, а также большой практический опыт. Но таких специалистов мало, стоят они очень дорого, и не всегда они есть там, где нужны.

В этой ситуации очень заманчиво построить такую систему автоматического анализа, которая бы не зависила от характера самого изображения, а желательно, и не была бы очень чувствительной к его качеству. И при этом могла бы сама "видеть" на изображении то и так, что и как видит этот специалист-человек.

Автоматический анализ изображений необходим и тогда, когда требуется в реальном времени обработать тысячи кадров видеосъемки, пытаясь найти там изображение, например, конкретного человека. Это особенно актуально сейчас, когда в мире растет глобальная преступность и терроризм, а мир обрастает паутиной видеокамер, круглосуточно следящих за многими тысячами финансовых и правительственных объектов.

Использование человека тут невозможно хотя бы по причине огромного количества таких камер.

Попытки создания систем автоматического анализа предпринимаются во всем мире уже давно, собственно, с тех пор, как люди научились вводить изображения в компьютер. Из математических способов обработки изображений широкое распространение получил метод быстрых преобразований Фурье (БПФ). Его применение позволяет получить спектр изображения (спектр этот не предназначен для человеческого восприятия), применить к нему различные фильтры, а потом обратным преобразованием получить снова изображение, но уже откорректированное, по которому уже человек и проводит визуальный анализ. И вся задача исследователей сводится практически к выбору нужного фильтра, а часто и созданию своего собственного в соответствии с конкретной задачей.

Эта методика демонстрирует свою успешность во многих практических применениях, однако она требует огромных вычислительных ресурсов, даже сейчас доступных не везде и не всем, а самое главное, на 100% исходит из самого факта применения компьютеров. Иными словами, эта методика явно не имеет ничего общего с тем, как мозг самого человека проводит анализ этого же изображения.

Имеет ли это значение? Бесспорно, имеет. Прежде всего, разработка фильтров для БПФ сама по себе является крайне трудной задачей, ибо мозг человека вынужден выполнять чуждую ему работу и фактически моделировать в себе компьютерное восприятие. Напрашивается вопрос, а не правильней ли было бы наоборот, на компьютере моделировать работу и восприятие мозга?

Ведь как уже говорилось выше, человек способен проводить анализ почти мгновенно, при этом в зависимости от конкретной задачи выделять на изображении те или иные характерные особенности. Разумеется, такая рутинная работа, как подсчет числа элементов или определение их формы (например, в ходе анализа крови), у компьютера всегда будет получаться лучше, чем у человека. И быстрее, и надежнее. Но анализ изображения, его осмысление - тут пока ни один компьютер не может сравниться с человеком.

Исследования мозговой деятельности проводятся во всем мире уже много лет. В области этой достигнуты значительные успехи, хотя в сущности человек еще очень далек от понимания принципов работы его собственного мозга. Попытки моделирования человеческого восприятия визуальных образов предпринимаются в различных научных центрах мира, но пока что нигде и никем не было объявлено, что такое понимание достигнуто. Очевидно, что восприятие это основано на комбинации многих факторов и критериев, понимание хотя бы некоторых из них может существенно продвинуть человечество вперед.

Когда в 97 году наша исследовательская группа занялась созданием программы анализа изображений, были испробованы различные подходы. Разумеется, прежде всего мы попытались обратиться к общеизвестным методикам, анализируя гистограмму изображения и применяя к ней различные математические операции. Наряду с этим для всего изображения также применялись стандартные алгоритмы выделения областей, наращивания и удаления точек и т.д.

Все эти способы давали некоторый результат, но ни о какой автоматизации и речи быть не могло, не говоря уже о том, что такой подход выглядел явно искусственным.

Сама задача состояла в анализе изображений горных пород, полученных в сканирующем электронном микроскопе (SEM), в результате такого анализа нужно было получить различные петрофизические характеристики исследуемого образца (пористость, проницаемость и т.д.).

В принципе, на сегодняшний день такие задачи решаются в мире многими, но все они исследуют не грубую поверхность (скол породы), а гладкий и тонкий специально приготовленный шлиф (срез). Ясно, что при изготовлении такого шлифа не только нарушается целостность породы на микроуровне, но и искажается само восприятие анализируемого объекта с потерей трехмерности информации. Но самое главное, что все существующие методики и программы рассчитаны на интерактивный режим работы со всеми его указанными выше недостатками.