Анализ неоднозначности концептуальной разметки русскоязычного текста

Zinoveva, A. Yu.; Sheremetyeva, S. O.; Nerucheva, E. D.; Зиновьева, А. Ю.; Шереметьева, С. О.; Неручева, Е. Д.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://elib.utmn.ru/jspui/handle/ru-tsu/7408

Название:	Анализ неоднозначности концептуальной разметки русскоязычного текста
Другие названия:	The analysis of ambiguity in conceptual annotation of Russian texts
Авторы:	Zinoveva, A. Yu. Sheremetyeva, S. O. Nerucheva, E. D. Зиновьева, А. Ю. Шереметьева, С. О. Неручева, Е. Д.
Ключевые слова:	conceptual annotation conceptual tagging Russian corpus conceptual ambiguity case study ontological analysis multilingual domain ontology terrorism концептуальная разметка русскоязычный корпус концептуальная неоднозначность метод кейс-стади онтологический анализ многоязычная предметная онтология терроризм
Дата публикации:	2020
Издатель:	Издательство Тюменского государственного университета
Библиографическое описание:	Зиновьева, А. Ю. Анализ неоднозначности концептуальной разметки русскоязычного текста / А. Ю. Зиновьева, С. О. Шереметьева, Е. Д. Неручева. – Текст : электронный // Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates / главный редактор Н. Н. Белозёрова. – Тюмень : Издательство Тюменского государственного университета, 2020. – Т. 6, № 3(23). – С. 38-60.
Аннотация (реферат):	Properly annotated text corpora are an essential condition in constructing effective and efficient tools for natural language processing (NLP), which provide an operational solution to both theoretical and applied linguistic and informational problems. One of the main and the most complex problems of corpus annotation is resolving tag ambiguities on a specific level of annotation (morphological, syntactic, semantic, etc.). This paper addresses the issue of ambiguity that emerges on the conceptual level, which is the most relevant text annotation level for solving informational tasks. Conceptual annotation is a special type of semantic annotation usually applied to domain corpora to address specific informational problems such as automatic classification, content and trend analyses, machine learning, machine translation, etc. In conceptual annotation, text corpora are annotated with tags reflecting the content of a certain domain, which leads to a type of ambiguity that is different from general semantic ambiguity. It has both universal and language- and domain-specific peculiarities. This paper investigates conceptual ambiguity in a case study of a Russian-language corpus on terror attacks. The research methodology combines automated and manual steps, comprising a) statistical and qualitative corpus analysis, b) the use of pre-developed annotation resources (a terrorism domain ontology, a Russian ontolexicon and a computer platform for conceptual annotation), c) ontological-analysis-based conceptual annotation of the corpus chosen for the case study, d) corpus-based detection and investigation of conceptual ambiguity causes, e) development and experimental study of possible disambiguation methods for some types of conceptual ambiguity. The findings obtained in this study are specific for Russian-language terrorism domain texts, but the conceptual annotation technique and approaches to conceptual disambiguation developed are applicable to other domains and languages. Наличие корректно размеченных (аннотированных) корпусов текстов является критически важным условием создания эффективных средств автоматизированной обработки естественного языка, обеспечивающих оперативное решение как теоретических, так и прикладных лингво-информационных задач. Одной из основных и наиболее сложных проблем корпусной разметки является разрешение неоднозначности меток на конкретном уровне реализации аннотирования (морфологическом, синтаксическом, семантическом и т. д.). Настоящая статья посвящена проблеме неоднозначности, возникающей на концептуальном, наиболее релевантном для решения информационных задач уровне разметки текстов. Под концептуальной разметкой (аннотированием) понимается специальный тип семантической разметки, как правило, применяемый к корпусам предметных областей для решения конкретных информационных задач (автоматической классификации, контент- и тренд-анализов, машинного обучения, машинного перевода и др.). При концептуальной разметке корпусы текстов размечаются метками, отражающими контент конкретной предметной области, что ведет к отличному от общесемантического типу неоднозначности, который имеет как универсальные, так и зависящие от конкретного языка и предметной области характеристики. В статье проблема концептуальной неоднозначности исследуется методом кейс-стади на материале русскоязычных текстов предметной области «Терроризм». Методология исследования сочетает автоматизированные и вручную выполненные этапы работ, включающие а) статистико-качественный анализ корпусного материала; б) использование предварительно разработанных аннотационных ресурсов (онтологии предметной области «Терроризм», русского онтолексикона и компьютерной платформы концептуального аннотирования); в) основанную на онтологическом анализе концептуальную разметку отобранного для кейс-стади корпуса; г) основанное на корпусном подходе выявление и анализ причин возникновения концептуальной неоднозначности; д) исследование статистических параметров концептуальных меток и соотнесенных с ними лексем в аннотированном корпусе; е) разработка и экспериментальная проверка возможных методов разрешения отдельных типов концептуальной неоднозначности. В настоящем исследовании получены конкретные результаты для русскоязычных текстов, но разработанная методика концептуальной разметки и подходы к разрешению концептуальной неоднозначности применимы к текстам других предметных областей на различных языках.
URI (Унифицированный идентификатор ресурса):	https://elib.utmn.ru/jspui/handle/ru-tsu/7408
ISSN:	2500-0896 2411-197Х
Источник:	Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates. – 2020. – Т. 6, № 3(23)
Располагается в коллекциях:	Вестник ТюмГУ: Гуманитарные исследования. Humanitates

Файлы этого ресурса:

Файл	Описание	Размер	Формат
humanitates_2020_3_38_60.pdf		576,46 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.