Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://elib.utmn.ru/jspui/handle/ru-tsu/14547
Название: Алгоритм с элементами формальной грамматики для контент-анализа мнений
Другие названия: Algorithm with formal grammar elements for sentiment analysis
Авторы: Brunova, E. G.
Bidulya, Yu. V.
Брунова, Е. Г.
Бидуля, Ю. В.
Ключевые слова: natural language processing
user-generated content
Naive Bayes Classifier
formal grammar
sentiment analysis
algorithm
контентанализ мнений
алгоритм
обработка естественного языка
пользовательский контент
наивный Байесовский классификатор
формальная грамматика
Дата публикации: 2014
Издатель: Издательство Тюменского государственного университета
Библиографическое описание: Брунова, Е. Г. Алгоритм с элементами формальной грамматики для контент-анализа мнений / Е. Г. Брунова, Ю. В. Бидуля // Вестник Тюменского государственного университета. Серия: Физико-математические науки. Информатика / главный редактор Г. Ф. Шафранов-Куцев. – Тюмень : Издательство Тюменского государственного университета, 2014. – № 7. – С. 242-250.
Аннотация (реферат): This study carried out within computational linguistics presents the analysis of the subjective information from user-generated content. The sentiment lexicon (583 items) which is domain-specific (banking) and language-specific (Russian) is built. The sentiment lexicon includes the following classes: positive vocabulary, negative vocabulary, polarity modifiers, anti-modifiers, and increments. The REGEX algorithm with formal grammar elements is proposed. 11 formal grammar rules and the corresponding syntactic models are introduced; they are similar to regular expressions which detect certain text elements, simplify each sentence, and present the text as a formal model. The SENTIMENTO system for evaluating bank service quality is implemented as an Internet application with an interface for the model testing and its adjustment. The efficiency of the proposed algorithm is evaluated in comparison with the efficiency of the Nave Bayes Classifier, F1 measure is used as the criterion. The system is tested on the reviews published in the clients’ bank rating (www.banki.ru) and the advantage of the proposed algorithm is demonstrated. For the same set of reviews, the F1 value is 0.920 when the proposed method is applied, while it is 0.872 for the Nave Bayes Classifier.
Исследование, выполненное в области математической лингвистики, посвящено анализу субъективной информации, содержащейся в пользовательском контенте. Cоставлен оценочный лексикон (583 единицы), специализированный по предметной области (банковское дело) и языку (русский). В оценочный лексикон включены следующие классы слов: положительная лексика, отрицательная лексика, модификаторы, антимодификаторы и инкременты полярности. Представлен алгоритм REGEX с элементами формальной грамматики для контентанализа мнений. Введены 11 правил формальной грамматики и соответствующие синтаксические модели, которые являются своего рода регулярными выражениями, позволяющими обнаружить определенные элементы текста, упростить каждое предложение и представить текст в целом как формальную модель. На основе предлагаемого алгоритма разработана система SENTIMENTO для оценки качества банковского обслуживания, реализованная в виде интернет-приложения c интерфейсом для апробации модели и ее корректировки. Эффективность предлагаемого алгоритма сопоставлена с эффективностью наивного Байесовского классификатора, в качестве критерия применена мера Ван Ризбергена. Апробация системы на материалах отзывов, опубликованных в народном рейтинге банков на сайте www.banki.ru, показала преимущество разработанного алгоритма. Для одного и того же набора отзывов при использовании предложенного в работе метода величина показателя F1 составила 0.920, в то время как для наивного Байесовского классификатора величина F1 оказалась равна 0.872.
URI (Унифицированный идентификатор ресурса): https://elib.utmn.ru/jspui/handle/ru-tsu/14547
https://elib.utmn.ru/jspui/handle/ru-tsu/14547
ISSN: 1562-2983
1994-8484
Источник: Вестник Тюменского государственного университета. Серия: Физико-математические науки. Информатика. – 2014. – № 7
Располагается в коллекциях:Вестник ТюмГУ: Физико-математическое моделирование. Нефть, газ, энергетика

Файлы этого ресурса:
Файл Описание РазмерФормат 
14_Е.Г. Брунова, Ю.В. Бидуля.pdf585.51 kBAdobe PDFПросмотреть/Открыть


Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.