Генеральный директор ABBYY Россия о будущем OCR и облачных сервисах
АрхивИнтерактивГригорий Липич рассказал о том, можно ли сделать в онлайне полный аналог FineReader, что ждёт распознавание текста в будущем и сделает ли ABBYY поисковик нового типа.
Погода на рынке программного обеспечения - как корпоративного, так и пользовательского - в последние несколько лет стала "облачной": появился спрос на решения, работающие на сервере, дающие коллаборативные возможности и избавляющие пользователей от многочисленных недостатков традиционных приложений. Также к "облакам" напрямую относятся программные интерфейсы, которые разработчики таких проектов предоставляют друг другу.
Компания ABBYY - один из крупнейших российских производителей ПО, продукты которого к тому же пользуются спросом за рубежом. У ABBYY есть уже несколько сервисов, которые можно назвать "облачными". И если онлайновые словари ABBYY Lingvo скорее относятся к привычным веб-сервисам, то FineReader Online имеет к cloud computing непосредственное отношение.
Этот сервис позволяет распознавать отсканированные тексты, загружая их через веб-сервис и получая в ответ готовый текст. При этом программу покупать не нужно и достаточно лишь платить за распознанные страницы. Генеральный директор ABBYY Россия Григорий Липич рассказал "Компьютерре" о подробностях работы этого сервиса, а также о том, что ждёт технологии OCR в будущем.
- Расскажите, когда открылся FineReader Online.
- FineReader Online существует чуть больше двух лет, но в промышленной эксплуатации больше года. До этого момента был только тестовый доступ, но сейчас это полноценный сервис с системой оплаты и понятным ценовым предложением.
- Я попробовал зарегистрироваться, послал туда документ, он распознался, и я ничего не платил за это. Там есть какой-то лимит на бесплатное использование?
- Всё очень просто. Новый пользователь регистрируется или сразу авторизуется с помощью существующего у него аккаунта в социальной сети, например Facebook. После завершения этой процедуры ему предоставляются три бесплатных страницы для обработки. В дальнейшем он может покупать страницы пакетами - от 20 до 100 в каждом. Мы считаем, что такой сценарий достаточно интересен тем людям, у которых потребность распознавать документы возникает эпизодически.
- А таким пользователям не проще в таком случае будет просто создать новый аккаунт и распознать бесплатно?
- Думаю, что сбалансированная цена сервиса будет способствовать тому, чтобы люди не тратили силы, плодя лишние аккаунты, а заплатили небольшие деньги за услугу, которая существенно экономит их время.
- Сколько человек сейчас используют FineReader Online?
- В марте было зафиксировано 290 тысяч пользователей, а в июле уже 390 тысяч.
- Есть ли среди пользователей какие-нибудь крупные компании?
- Если говорить об облачных сервисах, то для компаний у нас есть другое предложение. Например, для крупных производителей железа - МФУ и сканеров. Раньше они прилагали к каждому устройству лишь ПО для компьютеров, а сейчас начали смотреть в сторону построения своих облачных решений, которые будут интегрированы с нашей облачной инфраструктурой для распознавания документов.
- Как это выглядит? Существуют МФУ, куда можно положить документ, отсканировать и сразу получить распознанный текст?
- Мне известно о том, что была тестовая версия, но я не знаю, дошло ли уже всё это до конечных потребителей. Занимались этим, к примеру, Fujitsu и Ricoh, создавали такие решения для своих документ-сканеров и МФУ.
- То есть это не российская инициатива?
- Нет, американская. Для таких компаний у нас есть инфраструктура, в которую входят средства разработки, позволяющие реализовать распознавание текста в "облачном" режиме. При этом наши технологии могут быть установлены в корпоративном облаке заказчика, но также производитель может обращаться и к нашему облачному сервису распознавания. Кроме того, есть вариант, когда большие корпоративные заказчики могут захотеть решение по распознаванию на своём частном облаке.
- Так выгодней?
- Если существуют постоянные объёмы обработки документов, то да, выгоднее установить локально. К тому же у организаций нередко возникают вопросы о том, куда передаются их данные и кто их может увидеть.
- Но для индивидуальных пользователей это, наверное, не такая проблема. Зато они хотели бы получить не API, а продукт, более похожий на то, что вы продаёте в виде программы. Не было ли мысли перенести в веб полную версию FineReader?
- Один в один мы не будем переносить продукт. Да и не получится в вебе полностью повторить интерфейс FineReader. Но дополнительные возможности в FineReader Online будут появляться. Мы торопимся, но не спеша: добавляем те возможности, которые закрывают главные потребности, и дальше расширяем их. Если говорить об облачных сервисах для разработчиков, то в конце прошлого года мы начали бета-тестирование, а в июне объявили о запуске ABBYY Cloud OCR SDK - сервиса, предоставляющего разработчикам доступ к нашим технологиям оптического распознавания текста, меток и штрих-кодов посредством Web API. Он появился для решения проблемы, когда компания или независимый разработчик хотят встроить наш движок распознавания в свой продукт, но при этом покупка традиционного SDK является для них нецелесообразной с точки зрения решаемых задач или слишком дорогой. Облачный сервис решает этот вопрос, потому что любой разработчик может начать пользоваться первоклассным SDK для распознавания и встроить его в своё приложение без преодоления высокого входного ценового барьера, который есть в случае приобретения и лицензирования традиционного OCR SDK. Ценовая политика сервиса достаточно демократичная, существуют различные варианты пакетов страниц для распознавания: от бесплатного ознакомительного, включающего возможность распознать 50 страниц, до пакета стоимостью около 200 долларов США за 5000 страниц, а также есть варианты с договорной ценой, когда объёмы распознавания превышают 5000 страниц. С увеличением объёма цена за обрабатываемую страницу падает. Это открывает возможности для существенно более широкого круга разработчиков, которые раньше должны были довольствоваться лишь бесплатными OCR-движками, не всегда пригодными для решения реальных задач.
- Софт как сервис - это для вас, должно быть, сплошные преимущества. Пиратство, в частности, невозможно. В ABBYY одно время с ним жестоко боролись.
- Мы с ним и сейчас продолжаем бороться, но без фанатизма, с приложением усилий, адекватных получаемым результатам, потому что побороть пиратов полностью невозможно. Например, мы делаем так, чтобы юридические лица не использовали наше программное обеспечение нелегально. По физлицам какие-то способы защиты применяем в продукте, но, как говорили в фильме "Формула любви", "что одним человеком сделано, другим завсегда может быть сломано". Это лишь вопрос времени и усилий.
- А облачный сервис как раз не взломать никак. К тому же обновлять программу можно моментально для всех пользователей.
- Да, есть, конечно, ряд преимуществ. Но возникает другой вопрос. Как в телефонной связи создают клоны SIM-карт и воруют трафик, так будет и с облачными сервисами.
- Будут красть аккаунты?
- Да. Я думаю, такие вещи будут актуальны, и поставщикам сервисов придётся думать, как лучше от этого защититься.
- Какие ещё могут быть недостатки?
- Ещё к недостаткам, конечно, относится то, что интернет всё-таки не повсеместен. Даже недалеко от Москвы бывает сложно получить хороший канал связи, особенно если ты перемещаешься. То, что интернет доступен не везде, делает облачные сервисы не заменяющими традиционные приложения, а дополняющими их.
- Но постепенно они станут полной заменой?
- Ну да. Когда-нибудь мы придём к ситуации, когда основная масса индивидуальных сервисов будет потребляться из "облака", и люди привыкнут за это рассчитываться как за газ, свет, воду и интернет. Достаточно будет отметить галочками, какие услуги или программы продолжаешь использовать, и оплата за них будет включена в ежемесячный платёж.
- Хорошо, давайте поговорим о технологии распознавания текста как таковой. Произошли ли какие-то фундаментальные сдвиги в этой области за последние пять-десять лет? В других областях распознавания появляются, например, такие интересные сервисы, как Google Goggles или Siri.
- Мне кажется, технологии распознавания текста - это достаточно важная вещь, которая влияет и будет влиять на механизмы взаимодействия человека с окружающей средой при помощи мобильных и стационарных компьютеров, а также мобильных телефонов.
Конечно, за десять лет произошли изменения в качестве самих технологий. Есть два направления развития: первое - улучшение обработки изображений, второе - переход на более высокий уровень абстракции в анализе обрабатываемого документа. Первое направление помогает охватить более широкий спектр источников изображений - например, сделать снимки, получаемые при помощи камер мобильного телефона, более пригодными для распознавания. Второе направление развития направлено на то, чтобы сократить время, затрачиваемое на форматирование текста документа после его распознавания.
Если раньше учёные бились над качеством распознавания одного символа или слова, то сейчас, если качество изображения достаточное, то речь идёт о том, что, пора подниматься на такой уровень абстракции, как весь документ, а не отдельная страница - стараться понять взаимосвязи элементов в документе и настроиться на ту задачу, которую решает потребитель. Если он сканирует и распознает документ, чтобы дальше с ним продолжить работу в текстовом или другом редакторе, это один сценарий. Другой сценарий - когда документ нужно проиндексировать для поисковой системы, третий - сохранить в виде изображения, которое бы передало изначальный внешний вид, а под ним текстовый слой, по которому можно производить поиск. Под каждый из этих сценариев улучшаются компоненты, взаимодействующие с базовой технологией распознавания.
Мобильное использование накладывает дополнительные требования по технологиям обработки изображения. Хоть камеры в телефонах и улучшаются, но по сравнению с обычным сканированием добавляется множество факторов: некачественное освещение, искривления и так далее. Мы, например, последние пять лет активно занимаемся тем, что расширяем количество возможных источников для получения изображений для ABBYY FineReader. В результате появляются приложения и для мобильных телефонов. Например, наш ABBYY TextGrabber я активно использую, когда читаю журналы: если хочу поделиться заметкой с друзьями или коллегами, то фотографирую, распознаю и сразу отправляю в Facebook или по почте. Также вместо МФУ начал активно использовать приложение ABBYY FineScanner для съёмки документов. Ещё несколько лет назад сделать это было сложно, потому что и камеры были хуже, и технологии ещё предстояло доработать.
- Какие ещё тенденции на рынке OCR вы можете выделить? Скажем, изменения спроса на разные языки или сегменты.
- Особых изменений нет. Определённые виды языков были недостаточно качественно реализованы до текущего момента времени. Например, мы начали относительно недавно заниматься китайским - он присутствует в ABBYY FineReader с десятой версии. Мы постоянно улучшаем распознавание всех языков, отдельно я бы выделил только группы языков китайский-корейский-японский.
- Для российского рынка?
- Нет, речь обо всём мире - для экспорта это куда более актуально, чем для нашего рынка. У нас же спрос не изменился: это смешанные документы, преимущественно на русском языке, с появлением слов на иностранных языках. Структура потребления в смысле обрабатываемых материалов тоже не изменилась. А чтобы завоевать передовые позиции в мире, мы работаем не только над повышение качества, но и над поддержкой новых языков. Например, над арабским - он уже появился у нас в одиннадцатой версии, и мы намерены сделать его распознавание лучшим в мире. Сегодня FineReader распознает документы на 189 языках, и это самый высокий показатель в мире.
- Какое соотношение потребления вашей продукции в России и за рубежом?
- Россия и СНГ дают от 20 до 25 процентов.
- Могут ли какие-то тенденции отрицательно повлиять на необходимость в технологиях распознавания? Например, процессорные мощности станут доступнее, и сократится надобность в технологиях распознавания?
- Исходя из того, что человек воспринимает информацию при помощи звука и зрения, в принципе, необходимость анализа текстовой информации вряд ли отпадёт. Вопрос в том, в каком виде эта информация будет поступать на вход. Например, сейчас такие вещи, как извлечение информации из окружающей нас действительности, решаются достаточно слабо. Есть компании, которые лицензируют технологии распознавания вывесок и знаков, чтобы программировать реагирование на них. Но пока это используется в ограниченном объёме. Я думаю, что повышение мощностей устройств, на которых происходит предобработка изображений, лучшее соединение их с интернетом и, наконец, бесконечные мощности, которые есть в "облаке", будут вести к повышению качества обработки любой картинки, которая попадёт на вход, будь это статичное фото или видеопоток. Если что-то и может повлиять негативно, то тот факт, что люди будут больше обмениваться электронной информацией.
- По сути, уже сейчас все документы набираются на компьютере.
- В последние несколько лет в США несколько уменьшаются объёмы производимой бумаги, но не объёмы генерации этой бумаги, если мы говорим о бизнес-транзакциях. Почему-то люди предпочитают физические носители. Если говорить о России, то я думаю, что у нас в ближайшее десятилетие будет только подъём бумажных носителей - как в повседневной жизни, так и в бизнесе. Тем более что необработанных архивов ещё великое множество. Но в итоге, конечно, электронный обмен данными приведёт к тому, что некоторые сценарии, скорее всего, отомрут и определённые данные будут храниться только в электронном виде. Но технология распознавания и там может оказаться полезной - к примеру, если вам из файла PDF нужно извлечь структурированную информацию. Можно попробовать извлечь текст, но по опыту могу сказать, что PDF настолько по-разному генерируются разными программами, что проще будет этот документ превратить в картинку и распознать.
- Как вы расцениваете угрозу появления бесплатных OCR? Google, к примеру, такой уже предоставляет.
- Мы зарабатываем достаточно много денег на применении этой технологии в бизнесе. И когда речь идёт о бизнесе, то продукт высокого качества бесплатно никто не раздаёт. И требования здесь довольно высоки: если, например, в документе приходится перепечатывать хотя бы несколько символов на каждой странице, то технология уже считается непригодной для использования в реальных условиях. Мы познакомились с тем, как работает распознавание на Google Docs. Идея хорошая, но сервису есть куда расти по качеству. Зато бесплатные решения могут популяризовать технологию в целом. Многим пользователям ещё нужно объяснять, чем отсканированный документ отличается от текста. Индивидуального пользователя может и устроить бесплатное решение, но он поймёт принцип. И если бесплатный продукт будет предоставлять недостаточное качество, то он воспользуется платным.
- То есть это ещё может оказаться плюсом?
- В принципе, да, нам кажется, что это скорее плюс, чем минус. Конечно, если Google будет вкладываться в улучшение этой технологии, не получая за это денег, то это усложнит нашу жизнь. Но у нас есть очень большой сегмент бизнес-применения технологии, а там помимо простого распознавания текста нужно извлекать разные наборы данных, сопоставлять их между собой. Если это многостраничный документ, то иногда нужно проверять самые разные вещи: сходится ли контрольная сумма, соответствуют ли значения на пятой странице значениям на первой и так далее. Это дополнительная бизнес-логика, которая накладывается сверху на процесс распознавания и задаётся специальным языком описания документов. За это организации (государственные или частные) готовы платить большие деньги, потому что иначе у них альтернатива только одна - дать эту работу человеку. А это куда менее эффективно.
- Но проверять-то всё равно надо, если такие важные документы.
- Да. Но дело в том, что технологии распознавания живут достаточно просто: неуверенно распознанные символы или те куски информации, которые между собой не согласуются, подсвечиваются, и их видит человек-оператор - ему не нужно даже смотреть документ целиком. Это экономит много времени. Учитывая, что количество и темпы роста информации с каждым годом принимают всё более угрожающие формы, мы думаем, что бизнес-применение у этой технологии как минимум достаточно светлое - на десяток-второй лет так точно. А дальше посмотрим.
- Как вы оцениваете другие рынки распознавания: распознавание речи, лиц, предметов на изображениях и так далее? Сейчас со всей этой шумихой вокруг дополненной реальности, возможно, был бы востребован такой сервис.
- Это интересные области, но мы в них усилия не вкладываем. Хоть вроде бы все они носят общее название, но подходы в них применяются совсем разные. Вот, например, систему распознавания текстов может написать и студент университета, руководствуясь теоретическими знаниями. Вопрос в том, кто создаст наиболее высокое качество этого решения: все бьются за последние проценты и даже доли процентов. У нас же есть другие интересные направления, связанные с анализом информации. Есть технология ABBYY Compreno, которая в том числе позволяет проводить семантический анализ текстов. Эти технологии в том числе позволят и более качественно решать задачи, например, распознавания речи. Хоть мы сами распознаванием речи не занимаемся, но предполагаем, что те компании, которые занимаются, будут активно обращаться к нам. Для распознавания речи очень важен контекст, он значительно облегчает задачу.
- То есть система, сделанная для перевода, поможет облегчить и распознавание?
- Да. Перевод был изначальной целью создания ABBYY Compreno, но чем дальше мы заходили, тем лучше видели, что можно получить эффекты и в других, смежных областях. Идея того, что текст на любом языке трансформировался в объекты на универсальном дереве смысловых понятий, привела нас к тому, что и поиск можно делать по смысловым понятиям, и сравнение документов, и, например, автоматическую расстановку тегов в документах. Когда у людей много электронных документов, сохраняемых на сервере, заставить каждого пользователя расставлять теги невозможно. Зато можно все документы пропускать через некоторый фильтр, который будет говорить, что этот документ на эту тему с такими-то ключевыми понятиями, автоматически расставляя теги.
- И от этого мы переходим к следующей и ещё более интересной вещи - поиску. Можно, выходит, сделать поисковик, который понимает, что написано на странице?
- Да, это одна из интересных задач. Сейчас что-то найти в интернете становится всё сложнее. Во-первых, приходится задавать вопрос не на человеческом языке, а упрощать его. Несколько месяцев назад у меня вышел из строя аккумулятор от мотоцикла. И я подумал: надо бы посмотреть, как его правильно заряжать в зимнее время. Начал искать, но находились только страницы о том, как купить новый аккумулятор, но не как заряжать его. Поисковые системы нового поколения будут искать, основываясь на семантическом индексе. С одной стороны, они из-за этого будут требовать больше ресурсов для своей работы: наша практика показывает, что семантический индекс в несколько раз превышает объёмы начального документа, ведь чтобы построить все взаимосвязи между понятиями, нужно много и вычислительных ресурсов, и места, чтобы хранить такой сложный индекс. С другой стороны, эти поисковики будут выдавать, во-первых, более релевантные результаты, а во-вторых, можно будет решать и более сложные задачи. К примеру, когда запрос сформулирован на одном языке, система всё равно поймёт, что за понятия в этом запросе, и сможет найти их в документах и на других языках, поддерживаемых системой. Если всё это будет сочетаться с переводом, то на запрос, построенный на одном языке, может быть получен релевантный ответ в виде документов на разных языках, автоматически переведённых на нужный.
- То есть можно сказать, что ABBYY - это потенциально следующий Google?
- Вряд ли мы будем как Google, мы не пишем свою поисковую систему. Мы, скорее всего, будем работать с кем-то, кто уже имеет поисковую инфраструктуру.
- Мне кажется, что я даже знаю, кто это может быть!
- Ну да, есть компании. Кроме того, хотел бы отметить, что кроме задач поиска информации частными пользователями есть ещё задачи корпоративного поиска. У организаций есть внутренние базы, в которых нужно осуществлять поиск и которые они, понятное дело, никакой внешней поисковой системе не выдадут. Однако часто бывает, что в интернете найти что-то быстрее, чем у себя на компьютере, - я не раз слышал такие жалобы. Я думаю, такие клиенты тоже будут заинтересованы в нашей технологии, в том, чтобы встраивать технологии интеллектуального и многоязычного поиска, извлечения фактов и связей между фактами в решения, обеспечивающие поиск корпоративной информации. Я бы даже сказал, что в большей степени мы ориентируемся не на массовый, а на корпоративный рынок.
- Можно ещё под конец из любопытства спросить: часто ли API FineReader используют для того, чтобы взламывать captcha?
- Некоторые разработчики пытались распознавать captcha, но мы не настраиваемся на эту задачу.
- А можно поподробнее?
- Скажем так, есть компании, которые используют API ABBYY FineReader для того, чтобы проверять, насколько хороша их captcha: было несколько случаев, когда API лицензировали внутренние службы безопасности. Злоумышленникам же это сделать не так просто: не каждый встречный имеет возможность лицензировать наши технологии. С другой стороны, желающие могут воспользоваться сервисом для разработчиков ABBYY Cloud OCR SDK. Но при этом я сомневаюсь, что будет выгоднее платить за каждую разгаданную captcha как за страницу, чем использовать людской труд. Хотя кто их, этих спамеров, знает. Может быть, нам и придётся анализировать, что за контент приходит на наши сервера распознавания, и ограничивать его в случае подозрений на неправомерную деятельность.