Как определяется тональность публикаций?
В СКАНе определение тональности объектов основано на выделении упоминаний событий определенных типов и на определении тональности этих событий. Упоминанием события считается предложение, в котором упомянут объект и описано произошедшее с ним событие. Команда лингвистов СКАН разрабатывает правила, которые выделяют типы событий и их тональность в автоматическом режиме, используя для этого семантический, синтаксический и морфологический анализ, а также знания о профиле компании, с которой происходит событие.
Пример дерева событий можно увидеть в СКАН в конструкторе запроса.
Например, пусть есть предложение "В офисе компании Вектор прошли обыски". Робот определяет отдельно, что в тексте речь идет о типе события "обыски и допросы". И отдельно определяет, что событие произошло с компанией Вектор и имеет негативную тональность.
В другом предложении "В офисе компании Вектор рассказали, как вести себя при обысках" тоже может выделиться событие "обыски и допросы", но негативной тональности и связи с компанией уже не будет, компания по негативной тональности искаться в таком контексте не будет.
Определение тональности иногда может отличаться от того, как ее определил бы человек, так как полнота и точность автоматической системы ограничена, качество не может быть 100%-м. Как правило, чем более сложный контекст (сложная структура текста, использование местоимений и сокращений вместо названий организаций, нетипичные слова, излишние уточнения), тем выше вероятность ошибки.
Мы продолжаем совершенствовать нашу систему: прописываем новые правила для определения типа события и тональности, совершенствуем инструменты семантического анализа и идентификации организаций.