О компании
Прародителем облачного сервиса «Литера5» выступает компания «Орфограмматика», созданная в 2013 году для концентрации усилий в области компьютерной лингвистики и искусственного интеллекта. Команда «Орфограмматики» занимается разработкой программного обеспечения более десяти лет и является резидентом бизнес-инкубатора Технопарка новосибирского Академгородка. Творческий коллектив состоит из трех профессиональных программистов, двух лингвистов и одного математика. Все сотрудники компании — выпускники и студенты НГУ, живут и работают в новосибирском Академгородке. «Орфограмматика» является разработчиком двух сервисов по проверке правописания для русского языка: социальный сервис для частных лиц «Орфограммка» и «Литера5» — корпоративный продукт для юридических лиц. В 2014–2015 годах компания сотрудничала с фондом «Тотальный диктант» и обеспечивала проверку диктантов, написанных онлайн (в Интернете). Для этих целей разработали специальный модуль проверки, включая инструменты для лингвистического анализа и работы с апелляциями. А в 2016 году «Орфограмматика» участвовала в конкурсе алгоритмов для автоматического исправления опечаток SpellRuEval и заняла второе место, опередив таких монстров, как ABBYY и Яндекс, уступив лишь организаторам конкурса — команде ГИКРЯ.
Как дошли до идеи использования облака
Для работы алгоритмического ядра по проверке правописания и обработки текста требуются значительные вычислительные мощности. Изначально в компании ориентировались на большую аудиторию, поэтому и выбрали облачную модель решения. Отметим, что текст обрабатывают выделенные серверы на удаленной площадке, а для пользователя реализован веб-интерфейс, обеспечивающий редактирование текста и работу над ошибками.
«Мы изначально проектировали «Литеру» как облачное решение. Но в процессе роста нам пришлось столкнуться с задачами распределения высоких нагрузок и обеспечения стабильности, надежности работы системы. Сегодня и frontend, и backend «Литеры» используют схемы многократного резервирования и автоматического перезапуска «проблемных» компонент сервиса». Кирилл Губарь, коммерческий директор ООО «Орфограмматика»
Особенность работы сервиса
Ядро системы «Литера5» для проверки правописания использует порядка 5 тысяч правил, а словарь содержит ~ 4,5 миллиона словоформ.
Рисунок 1. Пользовательский интерфейс «Литера5»
Кроме того, «Литера5» использует вероятностную модель синтаксического и семантического анализа текста. Процессом управляет искусственный интеллект системы, который способен обучаться и настраивать критерии анализа с учетом накопленных статистических данных. Для работы с сервисом клиенту необходим любой современный веб-браузер, поддерживающий библиотеку jQuery 2.x. Установка дополнительного клиентского ПО не требуется.
В задачи «Литеры» входит комплексная проверка орфографии, грамматики и пунктуации, стилистических, логических и речевых ошибок, смысловых ошибок и опечаток, орфоэпии и употребления буквы «е», в том числе в именах собственных, оценка удобочитаемости и понятности текста.
«Облачный» веб-сервис «Литера5» имеет внешний интерфейс (API), за счет которого инструменты решения легко встраиваются практически в любую корпоративную программную среду.
Рисунок 2. Пример корпоративной интеграции с «облачным» сервисом Литера5
Помимо облачной реализации, «Литера5» может быть развернута в локальной корпоративной сети и intranet. Компоненты системы устанавливаются на физическом сервере или виртуальном вычислительном кластере организации, работа сервиса осуществляется без доступа извне.
Планы компании
Как отмечают в «Орфограмматике», планов у компании — громадьё. Предполагается совершенствование алгоритмического ядра и повышение качества проверки текста.
«Сейчас мы работаем над версией «Литеры» с улучшенными алгоритмами выявления случаев тавтологии (явная смысловая избыточность) и плеоназмов (неявная избыточность, например «свободная вакансия» или «кивнуть головой»). Основные трудности, которые пришлось преодолеть, это корректное разрешение паронимии и омонимии». Кирилл Губарь, коммерческий директор ООО «Орфограмматика»
В компании уделяют внимание и разработке свежей версии дерева синтаксического разбора текста. Штатные лингвисты уже приступили к работе над задачами. Выпуск версии ожидается осенью. Кроме того, решается интересная задача по сохранению чистоты русского языка, защите русской культуры. Речь идет о бездумном заимствовании иностранных слов. В компании планируют выпустить стилистический алгоритм, который будет советовать людям использовать корректные русскоязычные аналоги.
Заключение
Сегодня облачные технологии находят применение в разных сферах деятельности. Стирая грань между проблемой и ее решением, облачные сервисы в модели IaaS, SaaS успешно справляются с задачами распределения высоких нагрузок, помогают снизить расходы, а в случае с облачным сервисом «Литера5» — повысить уровень грамотности. И хоть решение не сможет полностью заменить редактора или корректора, оно сможет помочь всем, кто ежедневно работает с большими объемами текста на русском языке.