Кейс, «Литера5» и их сервис Орфограмматика в облаке «ИТ-ГРАД»

Истории успеха
Екатерина Юдина
15.06.2016
Количество просмотров
3360
Как часто вы допускаете ошибки, когда пишете текст? Вопрос грамотной подачи информации важен не только для журналиста, писателя или редактора, но и для отдельно взятой организации. Ошибка, опечатка или неграмотно составленное предложение в тексте сайта, блога, новостного интернет-портала может негативно сказаться на имидже компании в целом. На помощь в борьбе с безграмотностью приходит облачное решение «Литера5», о котором мы расскажем в этой статье.

О компании

Прародителем облачного сервиса «Литера5» выступает компания «Орфограмматика», созданная в 2013 году для концентрации усилий в области компьютерной лингвистики и искусственного интеллекта. Команда «Орфограмматики» занимается разработкой программного обеспечения более десяти лет и является резидентом бизнес-инкубатора Технопарка новосибирского Академгородка. Творческий коллектив состоит из трех профессиональных программистов, двух лингвистов и одного математика. Все сотрудники компании — выпускники и студенты НГУ, живут и работают в новосибирском Академгородке. «Орфограмматика» является разработчиком двух сервисов по проверке правописания для русского языка: социальный сервис для частных лиц «Орфограммка» и «Литера5» — корпоративный продукт для юридических лиц. В 2014–2015 годах компания сотрудничала с фондом «Тотальный диктант» и обеспечивала проверку диктантов, написанных онлайн (в Интернете). Для этих целей разработали специальный модуль проверки, включая инструменты для лингвистического анализа и работы с апелляциями. А в 2016 году «Орфограмматика» участвовала в конкурсе алгоритмов для автоматического исправления опечаток SpellRuEval и заняла второе место, опередив таких монстров, как ABBYY и Яндекс, уступив лишь организаторам конкурса — команде ГИКРЯ.

Как дошли до идеи использования облака

Для работы алгоритмического ядра по проверке правописания и обработки текста требуются значительные вычислительные мощности. Изначально в компании ориентировались на большую аудиторию, поэтому и выбрали облачную модель решения. Отметим, что текст обрабатывают выделенные серверы на удаленной площадке, а для пользователя реализован веб-интерфейс, обеспечивающий редактирование текста и работу над ошибками.

«Мы изначально проектировали «Литеру» как облачное решение. Но в процессе роста нам пришлось столкнуться с задачами распределения высоких нагрузок и обеспечения стабильности, надежности работы системы. Сегодня и frontend, и backend «Литеры» используют схемы многократного резервирования и автоматического перезапуска «проблемных» компонент сервиса». Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

Особенность работы сервиса

Ядро системы «Литера5» для проверки правописания использует порядка 5 тысяч правил, а словарь содержит ~ 4,5 миллиона словоформ.

Пользовательский интерфейс «Литера5»

Рисунок 1. Пользовательский интерфейс «Литера5»

Кроме того, «Литера5» использует вероятностную модель синтаксического и семантического анализа текста. Процессом управляет искусственный интеллект системы, который способен обучаться и настраивать критерии анализа с учетом накопленных статистических данных. Для работы с сервисом клиенту необходим любой современный веб-браузер, поддерживающий библиотеку jQuery 2.x. Установка дополнительного клиентского ПО не требуется.

В задачи «Литеры» входит комплексная проверка орфографии, грамматики и пунктуации, стилистических, логических и речевых ошибок, смысловых ошибок и опечаток, орфоэпии и употребления буквы «е», в том числе в именах собственных, оценка удобочитаемости и понятности текста.

«Облачный» веб-сервис «Литера5» имеет внешний интерфейс (API), за счет которого инструменты решения легко встраиваются практически в любую корпоративную программную среду.Пример корпоративной интеграции с «облачным» сервисом Литера5

Рисунок 2. Пример корпоративной интеграции с «облачным» сервисом Литера5

Помимо облачной реализации, «Литера5» может быть развернута в локальной корпоративной сети и intranet. Компоненты системы устанавливаются на физическом сервере или виртуальном вычислительном кластере организации, работа сервиса осуществляется без доступа извне.

Планы компании

Планы компании

Как отмечают в «Орфограмматике», планов у компании — громадьё. Предполагается совершенствование алгоритмического ядра и повышение качества проверки текста.

«Сейчас мы работаем над версией «Литеры» с улучшенными алгоритмами выявления случаев тавтологии (явная смысловая избыточность) и плеоназмов (неявная избыточность, например «свободная вакансия» или «кивнуть головой»). Основные трудности, которые пришлось преодолеть, это корректное разрешение паронимии и омонимии». Кирилл Губарь, коммерческий директор ООО «Орфограмматика»

В компании уделяют внимание и разработке свежей версии дерева синтаксического разбора текста. Штатные лингвисты уже приступили к работе над задачами. Выпуск версии ожидается осенью. Кроме того, решается интересная задача по сохранению чистоты русского языка, защите русской культуры. Речь идет о бездумном заимствовании иностранных слов. В компании планируют выпустить стилистический алгоритм, который будет советовать людям использовать корректные русскоязычные аналоги.

Заключение

Сегодня облачные технологии находят применение в разных сферах деятельности. Стирая грань между проблемой и ее решением, облачные сервисы в модели IaaS, SaaS успешно справляются с задачами распределения высоких нагрузок, помогают снизить расходы, а в случае с облачным сервисом «Литера5» — повысить уровень грамотности. И хоть решение не сможет полностью заменить редактора или корректора, оно сможет помочь всем, кто ежедневно работает с большими объемами текста на русском языке.

Средняя оценка: 0, всего оценок: 0
Поделиться

Только полезные материалы в нашей рассылке

Ошибка подписки

Похожие статьи

Безопасность
ТОП-12 угроз облачной безопасности по версии Cloud Security Alliance
10.05.2016
Количество просмотров
8488

ТОП-12 угроз облачной безопасности по версии Cloud Security Alliance

Сегодня поговорим об угрозах облачной безопасности, рассмотрев ТОП-12, с которыми сталкиваются те или иные организации, использующие облачные сервисы. Как известно, количество облачных миграций с каждым годом растет, а вопрос безопасности по-прежнему остается серьезной темой.
Безопасность
VMware NSX: новый подход к обеспечению безопасности в области здравоохранения
28.12.2016
Количество просмотров
3596

VMware NSX: новый подход к обеспечению безопасности в области здравоохранения

Системы электронного здравоохранения и медицинского страхования содержат миллионы ценных записей, что делает их привлекательной мишенью для злоумышленников, стремящихся заполучить важную информацию. По оценкам ФБР, каждая запись о здоровье пациента стоит от 50 до 200 долларов.
Новости рынка
VMworld Europe 2018 – главные анонсы прошедшей конференции
21.12.2018
Количество просмотров
3975

VMworld Europe 2018 – главные анонсы прошедшей конференции

Конференция VMworld Europe 2018, проходившая в Барселоне, давно завершилась. Новинки представлены, накал страстей поутих – настало время подведения итогов. Несмотря на то что европейская версия мероприятия была не слишком богатой на анонсы, интересные заявления все же были. Что же нового узнали рекордные 13 тысяч посетителей? О самом главном и наиболее интересном расскажем в сегодняшнем материале.

Ваше обращение приняли

Скоро наш менеджер свяжется с вами.
А пока вы можете изучить интересные материалы в нашем блоге.

Подписка оформлена

Скоро отправим вам уведомление о новых материалах.