Please use this identifier to cite or link to this item: https://elib.utmn.ru/jspui/handle/ru-tsu/14547
Title: Алгоритм с элементами формальной грамматики для контент-анализа мнений
Other Titles: Algorithm with formal grammar elements for sentiment analysis
Authors: Brunova, E. G.
Bidulya, Yu. V.
Брунова, Е. Г.
Бидуля, Ю. В.
Keywords: natural language processing
user-generated content
Naive Bayes Classifier
formal grammar
sentiment analysis
algorithm
контентанализ мнений
алгоритм
обработка естественного языка
пользовательский контент
наивный Байесовский классификатор
формальная грамматика
Issue Date: 2014
Publisher: Издательство Тюменского государственного университета
Citation: Брунова, Е. Г. Алгоритм с элементами формальной грамматики для контент-анализа мнений / Е. Г. Брунова, Ю. В. Бидуля // Вестник Тюменского государственного университета. Серия: Физико-математические науки. Информатика / главный редактор Г. Ф. Шафранов-Куцев. – Тюмень : Издательство Тюменского государственного университета, 2014. – № 7. – С. 242-250.
Abstract: This study carried out within computational linguistics presents the analysis of the subjective information from user-generated content. The sentiment lexicon (583 items) which is domain-specific (banking) and language-specific (Russian) is built. The sentiment lexicon includes the following classes: positive vocabulary, negative vocabulary, polarity modifiers, anti-modifiers, and increments. The REGEX algorithm with formal grammar elements is proposed. 11 formal grammar rules and the corresponding syntactic models are introduced; they are similar to regular expressions which detect certain text elements, simplify each sentence, and present the text as a formal model. The SENTIMENTO system for evaluating bank service quality is implemented as an Internet application with an interface for the model testing and its adjustment. The efficiency of the proposed algorithm is evaluated in comparison with the efficiency of the Nave Bayes Classifier, F1 measure is used as the criterion. The system is tested on the reviews published in the clients’ bank rating (www.banki.ru) and the advantage of the proposed algorithm is demonstrated. For the same set of reviews, the F1 value is 0.920 when the proposed method is applied, while it is 0.872 for the Nave Bayes Classifier.
Исследование, выполненное в области математической лингвистики, посвящено анализу субъективной информации, содержащейся в пользовательском контенте. Cоставлен оценочный лексикон (583 единицы), специализированный по предметной области (банковское дело) и языку (русский). В оценочный лексикон включены следующие классы слов: положительная лексика, отрицательная лексика, модификаторы, антимодификаторы и инкременты полярности. Представлен алгоритм REGEX с элементами формальной грамматики для контентанализа мнений. Введены 11 правил формальной грамматики и соответствующие синтаксические модели, которые являются своего рода регулярными выражениями, позволяющими обнаружить определенные элементы текста, упростить каждое предложение и представить текст в целом как формальную модель. На основе предлагаемого алгоритма разработана система SENTIMENTO для оценки качества банковского обслуживания, реализованная в виде интернет-приложения c интерфейсом для апробации модели и ее корректировки. Эффективность предлагаемого алгоритма сопоставлена с эффективностью наивного Байесовского классификатора, в качестве критерия применена мера Ван Ризбергена. Апробация системы на материалах отзывов, опубликованных в народном рейтинге банков на сайте www.banki.ru, показала преимущество разработанного алгоритма. Для одного и того же набора отзывов при использовании предложенного в работе метода величина показателя F1 составила 0.920, в то время как для наивного Байесовского классификатора величина F1 оказалась равна 0.872.
URI: https://elib.utmn.ru/jspui/handle/ru-tsu/14547
https://elib.utmn.ru/jspui/handle/ru-tsu/14547
ISSN: 1562-2983
1994-8484
Source: Вестник Тюменского государственного университета. Серия: Физико-математические науки. Информатика. – 2014. – № 7
Appears in Collections:Вестник ТюмГУ: Физико-математическое моделирование. Нефть, газ, энергетика

Files in This Item:
File Description SizeFormat 
14_Е.Г. Брунова, Ю.В. Бидуля.pdf585.51 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.