Картинки и образы помогут найти смысл в Интернете

В Сети ежегодно появляются около 100 миллиардов изображений. Цифра внушительная, и, чтобы хоть как-то с ней справиться, необходимо совершенствовать критерии поиска. Работа в этом направлении в последнее время активизировалась, и кое-какие интересные результаты могут изменить наше отношение не только к визуальным, но и к обычным текстовым запросам.

Стандартный подход к "графической" проблеме выглядит достаточно просто. В том смысле, что ведущие поисковики, как, например, Google с его системой PageRank, полагаются в первую очередь на хорошо известную методику оценки релевантности контекста.

В основном анализируют содержание интернет-страницы, где расположен тот или иной объект. То есть если вы на своём сайте поместили сочинение на тему "Как я провёл отпуск на Багамах" с фотографиями собственной персоны, на запрос "Багамы" машина выдаст именно ваши весёлые улыбки. Разумеется, в случае популярности ресурса.

В самом простом своём варианте визуальный анализ подразумевает анализ совпадения цветов и яркостей участков двух изображений. В более продвинутом – сопоставление соответствующих точек. На данном примере видно, как все вариации на тему "Джоконды" программа сравнивает с оригиналом и друг с другом (иллюстрация Yushi Jing, Shumeet Baluja).

Принимаются во внимание и названия графических файлов (например "Я_на_Багамах.jpg"), и ряд других параметров. Однако "картинка" в подавляющем большинстве случаев никак не учитывается – слишком сложная задача.

Даже в рамках заданных понятийных категорий (то есть программа знает, что надо искать самолёты, к примеру) существующие технологии поиска "похожих" изображений неидеальны.

Наибольший прогресс в этом направлении достигнут в области распознавания лиц и фотографий – в настройках расширенного поиска "Гугла" или "Яндекса" такие опции уже предусмотрены. Есть и специализированные ресурсы, работающие с визуальными запросами, как, например, Riya, TinEye или Picollator.

Все они так или иначе используют технологию поиска изображений по содержанию – CBIR (Content Based Image Retrieval). Методика эта позволяет оценивать сходство рисунков или фотографий на основании их цвета, текстуры, формы и, реже, других параметров.

Загрузив фото Арнольда на Picollator, мы получили такой вот набор лиц. Нет, всё, конечно, можно понять, но за дам обидно. Видимо, сервис пока ещё сыроват.

В основном это реализовано на достаточно скромном уровне. То есть сервисы анализируют совпадения цветов и яркостей соответствующих друг другу участков сравниваемых изображений или, например, взаимное расположение каждой пары точек объекта.

Как видите, даже в лимитированной базе фотографий сервисы работают не очень успешно. Хотя теоретически для фото можно было бы разработать систему, аналогичную по своей точности анализу отпечатков пальцев.

Однако для поисковика с неограниченным количеством индексируемых изображений это будет слишком дорого. А самое главное – долго: результатов выдачи в течение нескольких (в лучшем случае) минут не многие пользователи готовы дожидаться.

Ещё одним и даже более фундаментальным ограничением является сложность механизма зрительного восприятия человека. Основная проблема здесь – разрыв восприятия или так называемый семантический разрыв.

Сервис TeenEye предлагает найти похожие фото и изображения относительно указанного образца. На деле в ходе серии загрузок портретов известных людей мы получали одни и те же фото, отличающиеся лишь по размерности, яркости и чёткости, – порой на 20 страницах.

Если перевести на обычный язык, это означает, что не всегда возможно сознательно сформулировать "правильный" текстовый запрос – по крайней мере, если речь идёт о поиске. Один пользователь, вводя слово "солнце", ожидает увидеть звезду в окружении планет, а другой – лужайку, голубое небо и много-много света.

Но в этой сложности и кроется значительный потенциал. Только представьте: вы только подумали о чём-то, родился в голове какой-то образ, мелькнула неясная мысль – и вы ищите соответствующую картинку. А уж дальше получаете необходимую информацию.

Впрочем, просто найти "желаемое" изображение, даже не абстрактное, а вполне конкретное, – тоже совсем неплохо.

В последнее время работу в этом направлении активно ведут и гиганты вроде Google, и независимые разработчики. Так, например, группа учёных из университета Пенсильвании (Pennsylvania State University) объявила о регистрации патента на "семантическую" систему визуального поиска ALIPR (Automatic Linguistic Indexing of Pictures in Real-Time).

Движок ALIPR разбивает картинки на пространственные точки и сравнивает их друг с другом (иллюстрация Jia Li, James Z. Wang).

Суть нового сервиса, который в своём первоначальном урезанном виде появился ещё в конце 2006 года, в объединении "пиксельного" и смыслового анализа изображений.

В базе ALIPR находится более миллиона изображений, к каждому из которых проставлены теги – группа смысловых "ключей". Основная идея в том, что восприятие тех или иных объектов у пользователей Интернета всё же подчиняется законам нормального распределения, и, следовательно, наиболее популярные связки "понятие – объект" должны совпасть с ожиданиями.

В настоящий момент система оперирует 332 понятиями, но это не означает, что найти можно картинки лишь по столь ограниченному набору слов. Посредством хитрого алгоритма, в основе которого лежит в том числе вероятностный лингвистический анализ, значительная часть англоязычных терминов, введённых в строку поиска, находит "своё" изображение. Но "шкала значений", конечно, имеет ограничения: на такое слово, как "хромосома" (chromosome), ALIPR вообще никак не реагирует.

Может быть, потому что сервис на данный момент находится в стадии "самообучения". Авторы проекта активно предлагают всем желающим загружать картинки – либо с жёсткого диска, либо скопировав URL. Проанализировав изображение (на это уходит на доли секунды больше в сравнении с обычным текстовым запросом), система присваивает каждому файлу 15 тегов и просит при этом оценить их релевантность. Или свой, новый "ключ" проставить.

Пример выдачи по запросу "Эйнштейн". Если вы действительно искали фото великого физика, разумнее обратиться к обычным поисковикам. Более подробно с техническими деталями визуального анализа можно ознакомиться на личной странице Цзя Ли (Jia Li) – ведущего разработчика проекта.

Результаты пока не особо впечатляют. Впрочем, по уверениям разработчиков, в 90% случаев хотя бы одно понятие совпадает с "мейнстримовым" восприятием у добровольцев, участвовавших в предварительных тестах.

"Даже по одному смысловому критерию результаты никогда не будут полными", — признаёт Цзя Ли. Однако, исходя из архитектуры ALIPR, даже такие скромные возможности имеют какой-то смысл: выдача генерирует ряд картинок, за каждой из которых "скрываются" похожие по смыслу образы. На взгляд машины и тех пользователей, которые ранее присвоили им обобщающие понятия, разумеется.

Кстати, единственное условие авторов при загрузке изображения – "хороший вкус". Корректировать смысловые теги, по-видимому, столь же бессмысленно, сколь глупо ожидать одинакового восприятия пейзажа за окном или нового iPhone.

Но можно, оказывается, пойти и другим путём. Например, вообще обойтись без участия субъективных семантических категорий. Точнее говоря, инженеры из компании Google считают, что они, категории эти, ничем по большому счёту не отличаются от тех смыслов, которые пользователи вкладывали в изображение, помещая его в своём блоге или на сайте. И которые находятся посредством обычного поиска.

Прототип системы VisualRank индексирует в первую очередь не только самые релевантные, но и лучшие по качеству и размеру изображения (иллюстрация Yushi Jing, Shumeet Baluja).

Ещё в апреле 2008 года крупнейший в мире поисковик разместил на своём блоге информацию о первых результатах в области разработки прототипа системы VisualRank. Учитывая возможности и свободы, которые, по слухам, предоставляет Google своим сотрудникам, не совсем понятно, насколько эта разработка является стратегическим приоритетом, но блог вроде бы официальный.

Cотрудник компании Шумит Балуя (Shumeet Baluja) и Юси Цзинь (Yushi Jing) из технологического института Джорджии предложили следующее решение: можно улучшить результаты выдачи, используя уже существующую систему оценки популярности страниц.

Речь идёт о несколько ином принципе совмещения визуального и контекстуального анализа в сравнении с "семантическим". В целом идея такова: для того чтобы получить наиболее релевантные ссылки, нужно графически сравнить индексируемые картинки с самыми популярными изображениями по теме, по возможности сгруппировав их в какие-то более общие категории.

Вверху – оригинальный поиск разработчиков VisualRank, внизу – наш поиск по аналогичному запросу macdonalds. Не исключено, что именно на основе схемы, предложенной в VisualRank, Google добавил дополнительные смысловые категории (подчёркнуто синим). Да и в целом результаты за каких-то полгода стали более предсказуемыми.

Авторы работы приводят в качестве примера запрос по слову McDonalds. Если вы попробуете провести аналогичное упражнение, то вам наряду со старым добрым М-образным логотипом поиск выдаст довольно странные результаты.

Рисунки необходимо ранжировать по какому-то критерию. Но дело в том, что критерий этот заранее неизвестен. Даже если последовательно "сравнить пиксели" двух изображений на предмет наличия стилизованной буквы "М", не факт, что значительная часть пользователей не будет искать при этом Рональда Макдоналда.

Эту проблему исследователи решили, совместив визуальные совпадения со смысловым индексированием. Получилось нечто вроде "прогнозируемого поведения пользователей": поиск наиболее репрезентативных текстовых маркеров сопровождался отбором графических "обобщений" – по уже известной нам технологии CBIR.

Запрос "рисунки Моне", обработанный по новому алгоритму, группирует, с одной стороны, наиболее популярные и лучшие по качеству репродукции самого Моне, а с другой –известные портреты Моне работы Ренуара (иллюстрация Yushi Jing, Shumeet Baluja).

"Полевые испытания" на 150 сотрудниках Google показали, что выдачи VisualRank отображали на 83% меньше нерелевантных картинок. Правда, не по всем запросам такая закономерность соблюдалась – 70 из 272 были более удачными для обычного Google image search.

Кстати, по состоянию на начало мая этого года технология, по заявлению разработчиков, ещё не была "живой". Но, вполне возможно, гигант поиска уже использовал ряд решений на практике.

Помимо уже упомянутых дополнительных категорий, как в случае с "Макдоналдсом", это возможность сортировки выдачи по фотографиям – опция по-тихому появилась лишь в начале октября и, судя по всему, стоит ожидать дальнейших апгрейдов популярного поисковика.

В общем, интернет-поиск – это та область, где прогресс в буквальном смысле не стоит на месте.

Вполне возможно, что в ближайшем будущем можно будет совершенно спокойно отрефлексировать свой архетип, найдя единомышленников по картинкам из сновидений, или научиться наконец без проблем находить "то-не-знаю-что".