Please use this identifier to cite or link to this item: https://elib.utmn.ru/jspui/handle/ru-tsu/14547
Title: Алгоритм с элементами формальной грамматики для контент-анализа мнений
Other Titles: Algorithm with formal grammar elements for sentiment analysis
Authors: Yuliya, V. Bidulya
Брунова, Елена Георгиевна
Бидуля, Юлия Владимировна
Elena, G. Brunova
Keywords: user-generated content;контентанализ мнений;алгоритм;Обработка естественного языка;Naive Bayes Classifier;formal grammar;sentiment analysis;algorithm;Natural language processing;пользовательский контент;наивный Байесовский классификатор;формальная грамматика
Issue Date: 2014
Citation: Брунова, Е. Г. Алгоритм с элементами формальной грамматики для контент-анализа мнений / Е. Г. Брунова, Ю. В. Бидуля // Вестник Тюменского государственного университета. - 2014. - № 7. - С. 242-250.
metadata.dc.relation.ispartof: Вестник ТюмГУ: Физико-математическое моделирование. Нефть, газ, энергетика. Физико-математические науки. Информатика (№7, 2014)
Abstract: Исследование, выполненное в области математической лингвистики, посвящено анализу субъективной информации, содержащейся в пользовательском контенте. Cоставлен оценочный лексикон (583 единицы), специализированный по предметной области (банковское дело) и языку (русский). В оценочный лексикон включены следующие классы слов: положительная лексика, отрицательная лексика, модификаторы, антимодификаторы и инкременты полярности. Представлен алгоритм REGEX с элементами формальной грамматики для контентанализа мнений. Введены 11 правил формальной грамматики и соответствующие синтаксические модели, которые являются своего рода регулярными выражениями, позволяющими обнаружить определенные элементы текста, упростить каждое предложение и представить текст в целом как формальную модель. На основе предлагаемого алгоритма разработана система SENTIMENTO для оценки качества банковского обслуживания, реализованная в виде интернет-приложения c интерфейсом для апробации модели и ее корректировки. Эффективность предлагаемого алгоритма сопоставлена с эффективностью наивного Байесовского классификатора, в качестве критерия применена мера Ван Ризбергена. Апробация системы на материалах отзывов, опубликованных в народном рейтинге банков на сайте www.banki.ru, показала преимущество разработанного алгоритма. Для одного и того же набора отзывов при использовании предложенного в работе метода величина показателя F1 составила 0.920, в то время как для наивного Байесовского классификатора величина F1 оказалась равна . This study carried out within computational linguistics presents the analysis of the subjective information from user-generated content. The sentiment lexicon (583 items) which is domain-specific (banking) and language-specific (Russian) is built. The sentiment lexicon includes the following classes: positive vocabulary, negative vocabulary, polarity modifiers, anti-modifiers, and increments. The REGEX algorithm with formal grammar elements is proposed. 11 formal grammar rules and the corresponding syntactic models are introduced; they are similar to regular expressions which detect certain text elements, simplify each sentence, and present the text as a formal model. The SENTIMENTO system for evaluating bank service quality is implemented as an Internet application with an interface for the model testing and its adjustment. The efficiency of the proposed algorithm is evaluated in comparison with the efficiency of the Naïve Bayes Classifier, F1 measure is used as the criterion. The system is tested on the reviews published in the clients’ bank rating (www.banki.ru) and the advantage of the proposed algorithm is demonstrated. For the same set of reviews, the F1 value is 0.920 when the proposed method is applied, while it is 0.872 for the Naïve Bayes Classifier.
URI: https://elib.utmn.ru/jspui/handle/ru-tsu/14547
Appears in Collections:Вестник ТюмГУ: Физико-математическое моделирование. Нефть, газ, энергетика

Files in This Item:
File SizeFormat 
14_Е.Г. Брунова, Ю.В. Бидуля.pdf585,51 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.