Кейс, «Литера5» и их сервис Орфограмматика в облаке «ИТ-ГРАД»

Истории успеха
Екатерина Юдина
15.06.2016
Количество просмотров
3613
Как часто вы допускаете ошибки, когда пишете текст? Вопрос грамотной подачи информации важен не только для журналиста, писателя или редактора, но и для отдельно взятой организации. Ошибка, опечатка или неграмотно составленное предложение в тексте сайта, блога, новостного интернет-портала может негативно сказаться на имидже компании в целом. На помощь в борьбе с безграмотностью приходит облачное решение «Литера5», о котором мы расскажем в этой статье.

О компании

Прародителем облачного сервиса «Литера5» выступает компания «Орфограмматика», созданная в 2013 году для концентрации усилий в области компьютерной лингвистики и искусственного интеллекта. Команда «Орфограмматики» занимается разработкой программного обеспечения более десяти лет и является резидентом бизнес-инкубатора Технопарка новосибирского Академгородка. Творческий коллектив состоит из трех профессиональных программистов, двух лингвистов и одного математика. Все сотрудники компании — выпускники и студенты НГУ, живут и работают в новосибирском Академгородке. «Орфограмматика» является разработчиком двух сервисов по проверке правописания для русского языка: социальный сервис для частных лиц «Орфограммка» и «Литера5» — корпоративный продукт для юридических лиц. В 2014–2015 годах компания сотрудничала с фондом «Тотальный диктант» и обеспечивала проверку диктантов, написанных онлайн (в Интернете). Для этих целей разработали специальный модуль проверки, включая инструменты для лингвистического анализа и работы с апелляциями. А в 2016 году «Орфограмматика» участвовала в конкурсе алгоритмов для автоматического исправления опечаток SpellRuEval и заняла второе место, опередив таких монстров, как ABBYY и Яндекс, уступив лишь организаторам конкурса — команде ГИКРЯ.

Как дошли до идеи использования облака

Для работы алгоритмического ядра по проверке правописания и обработки текста требуются значительные вычислительные мощности. Изначально в компании ориентировались на большую аудиторию, поэтому и выбрали облачную модель решения. Отметим, что текст обрабатывают выделенные серверы на удаленной площадке, а для пользователя реализован веб-интерфейс, обеспечивающий редактирование текста и работу над ошибками.

«Мы изначально проектировали «Литеру» как облачное решение. Но в процессе роста нам пришлось столкнуться с задачами распределения высоких нагрузок и обеспечения стабильности, надежности работы системы. Сегодня и frontend, и backend «Литеры» используют схемы многократного резервирования и автоматического перезапуска «проблемных» компонент сервиса». Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

Особенность работы сервиса

Ядро системы «Литера5» для проверки правописания использует порядка 5 тысяч правил, а словарь содержит ~ 4,5 миллиона словоформ.

Пользовательский интерфейс «Литера5»

Рисунок 1. Пользовательский интерфейс «Литера5»

Кроме того, «Литера5» использует вероятностную модель синтаксического и семантического анализа текста. Процессом управляет искусственный интеллект системы, который способен обучаться и настраивать критерии анализа с учетом накопленных статистических данных. Для работы с сервисом клиенту необходим любой современный веб-браузер, поддерживающий библиотеку jQuery 2.x. Установка дополнительного клиентского ПО не требуется.

В задачи «Литеры» входит комплексная проверка орфографии, грамматики и пунктуации, стилистических, логических и речевых ошибок, смысловых ошибок и опечаток, орфоэпии и употребления буквы «е», в том числе в именах собственных, оценка удобочитаемости и понятности текста.

«Облачный» веб-сервис «Литера5» имеет внешний интерфейс (API), за счет которого инструменты решения легко встраиваются практически в любую корпоративную программную среду.Пример корпоративной интеграции с «облачным» сервисом Литера5

Рисунок 2. Пример корпоративной интеграции с «облачным» сервисом Литера5

Помимо облачной реализации, «Литера5» может быть развернута в локальной корпоративной сети и intranet. Компоненты системы устанавливаются на физическом сервере или виртуальном вычислительном кластере организации, работа сервиса осуществляется без доступа извне.

Планы компании

Планы компании

Как отмечают в «Орфограмматике», планов у компании — громадьё. Предполагается совершенствование алгоритмического ядра и повышение качества проверки текста.

«Сейчас мы работаем над версией «Литеры» с улучшенными алгоритмами выявления случаев тавтологии (явная смысловая избыточность) и плеоназмов (неявная избыточность, например «свободная вакансия» или «кивнуть головой»). Основные трудности, которые пришлось преодолеть, это корректное разрешение паронимии и омонимии». Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

В компании уделяют внимание и разработке свежей версии дерева синтаксического разбора текста. Штатные лингвисты уже приступили к работе над задачами. Выпуск версии ожидается осенью. Кроме того, решается интересная задача по сохранению чистоты русского языка, защите русской культуры. Речь идет о бездумном заимствовании иностранных слов. В компании планируют выпустить стилистический алгоритм, который будет советовать людям использовать корректные русскоязычные аналоги.

Заключение

Сегодня облачные технологии находят применение в разных сферах деятельности. Стирая грань между проблемой и ее решением, облачные сервисы в модели IaaS, SaaS успешно справляются с задачами распределения высоких нагрузок, помогают снизить расходы, а в случае с облачным сервисом «Литера5» — повысить уровень грамотности. И хоть решение не сможет полностью заменить редактора или корректора, оно сможет помочь всем, кто ежедневно работает с большими объемами текста на русском языке.

Средняя оценка: 0, всего оценок: 0
Поделиться

Только полезные материалы в нашей рассылке

Ошибка подписки

Похожие статьи

Первые шаги
Процесс потребления ресурсов ВМ в виртуальной среде
30.03.2017
Количество просмотров
4352

Процесс потребления ресурсов ВМ в виртуальной среде

Сегодня для большинства конечных пользователей виртуальные машины – это такой же привычный инструмент, как мобильный телефон или персональный компьютер. Но если последние два вы можете где-то потерять или забыть, с ВМ такого точно не произойдет.
Технологии
Все, что нужно знать о vCloud Networks: типы сетей в vCloud Director
21.04.2017
Количество просмотров
4812

Все, что нужно знать о vCloud Networks: типы сетей в vCloud Director

Технологии
VAAI & VVOL — кто теперь отвечает за работу с хранилищами
29.05.2015
Количество просмотров
4630

VAAI & VVOL — кто теперь отвечает за работу с хранилищами

Если вы уже познакомились с возможностями шестой версии vSphere, то наверняка тоже заинтересовались новой логикой работы с хранилищами — VVOLs. Продолжая изучение идеи «VMDK как основной строительный элемент хранилища», я предлагаю перевод статьи коллег из punchingclouds.com с детальным изучением того, как происходило и происходит делегирование разных задач ESXi-хранилищу.

Ваше обращение приняли

Скоро наш менеджер свяжется с вами.
А пока вы можете изучить интересные материалы в нашем блоге.

Подписка оформлена

Скоро отправим вам уведомление о новых материалах.