Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
https://elib.utmn.ru/jspui/handle/ru-tsu/14547
Название: | Алгоритм с элементами формальной грамматики для контент-анализа мнений |
Другие названия: | Algorithm with formal grammar elements for sentiment analysis |
Авторы: | Brunova, E. G. Bidulya, Yu. V. Брунова, Е. Г. Бидуля, Ю. В. |
Ключевые слова: | natural language processing user-generated content Naive Bayes Classifier formal grammar sentiment analysis algorithm контентанализ мнений алгоритм обработка естественного языка пользовательский контент наивный Байесовский классификатор формальная грамматика |
Дата публикации: | 2014 |
Издатель: | Издательство Тюменского государственного университета |
Библиографическое описание: | Брунова, Е. Г. Алгоритм с элементами формальной грамматики для контент-анализа мнений / Е. Г. Брунова, Ю. В. Бидуля // Вестник Тюменского государственного университета. Серия: Физико-математические науки. Информатика / главный редактор Г. Ф. Шафранов-Куцев. – Тюмень : Издательство Тюменского государственного университета, 2014. – № 7. – С. 242-250. |
Аннотация (реферат): | This study carried out within computational linguistics presents the analysis of the subjective information from user-generated content. The sentiment lexicon (583 items) which is domain-specific (banking) and language-specific (Russian) is built. The sentiment lexicon includes the following classes: positive vocabulary, negative vocabulary, polarity modifiers, anti-modifiers, and increments. The REGEX algorithm with formal grammar elements is proposed. 11 formal grammar rules and the corresponding syntactic models are introduced; they are similar to regular expressions which detect certain text elements, simplify each sentence, and present the text as a formal model. The SENTIMENTO system for evaluating bank service quality is implemented as an Internet application with an interface for the model testing and its adjustment. The efficiency of the proposed algorithm is evaluated in comparison with the efficiency of the Nave Bayes Classifier, F1 measure is used as the criterion. The system is tested on the reviews published in the clients’ bank rating (www.banki.ru) and the advantage of the proposed algorithm is demonstrated. For the same set of reviews, the F1 value is 0.920 when the proposed method is applied, while it is 0.872 for the Nave Bayes Classifier. Исследование, выполненное в области математической лингвистики, посвящено анализу субъективной информации, содержащейся в пользовательском контенте. Cоставлен оценочный лексикон (583 единицы), специализированный по предметной области (банковское дело) и языку (русский). В оценочный лексикон включены следующие классы слов: положительная лексика, отрицательная лексика, модификаторы, антимодификаторы и инкременты полярности. Представлен алгоритм REGEX с элементами формальной грамматики для контентанализа мнений. Введены 11 правил формальной грамматики и соответствующие синтаксические модели, которые являются своего рода регулярными выражениями, позволяющими обнаружить определенные элементы текста, упростить каждое предложение и представить текст в целом как формальную модель. На основе предлагаемого алгоритма разработана система SENTIMENTO для оценки качества банковского обслуживания, реализованная в виде интернет-приложения c интерфейсом для апробации модели и ее корректировки. Эффективность предлагаемого алгоритма сопоставлена с эффективностью наивного Байесовского классификатора, в качестве критерия применена мера Ван Ризбергена. Апробация системы на материалах отзывов, опубликованных в народном рейтинге банков на сайте www.banki.ru, показала преимущество разработанного алгоритма. Для одного и того же набора отзывов при использовании предложенного в работе метода величина показателя F1 составила 0.920, в то время как для наивного Байесовского классификатора величина F1 оказалась равна 0.872. |
URI (Унифицированный идентификатор ресурса): | https://elib.utmn.ru/jspui/handle/ru-tsu/14547 |
ISSN: | 1562-2983 1994-8484 |
Источник: | Вестник Тюменского государственного университета. Серия: Физико-математические науки. Информатика. – 2014. – № 7 |
Располагается в коллекциях: | Вестник ТюмГУ: Физико-математическое моделирование. Нефть, газ, энергетика
|
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.