Please use this identifier to cite or link to this item: https://elib.utmn.ru/jspui/handle/ru-tsu/7408
Full metadata record
DC FieldValueLanguage
dc.contributor.authorZinoveva, A. Yu.en
dc.contributor.authorSheremetyeva, S. O.en
dc.contributor.authorNerucheva, E. D.en
dc.contributor.authorЗиновьева, А. Ю.ru
dc.contributor.authorШереметьева, С. О.ru
dc.contributor.authorНеручева, Е. Д.ru
dc.date.accessioned2022-05-23T11:29:19Z-
dc.date.available2022-05-23T11:29:19Z-
dc.date.issued2020
dc.identifier.citationЗиновьева, А. Ю. Анализ неоднозначности концептуальной разметки русскоязычного текста / А. Ю. Зиновьева, С. О. Шереметьева, Е. Д. Неручева. – Текст : электронный // Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates / главный редактор Н. Н. Белозёрова. – Тюмень : Издательство Тюменского государственного университета, 2020. – Т. 6, № 3(23). – С. 38-60.ru
dc.identifier.issn2411-197Х
dc.identifier.issn2500-0896
dc.identifier.urihttps://elib.utmn.ru/jspui/handle/ru-tsu/7408-
dc.description.abstractProperly annotated text corpora are an essential condition in constructing effective and efficient tools for natural language processing (NLP), which provide an operational solution to both theoretical and applied linguistic and informational problems. One of the main and the most complex problems of corpus annotation is resolving tag ambiguities on a specific level of annotation (morphological, syntactic, semantic, etc.). This paper addresses the issue of ambiguity that emerges on the conceptual level, which is the most relevant text annotation level for solving informational tasks. Conceptual annotation is a special type of semantic annotation usually applied to domain corpora to address specific informational problems such as automatic classification, content and trend analyses, machine learning, machine translation, etc. In conceptual annotation, text corpora are annotated with tags reflecting the content of a certain domain, which leads to a type of ambiguity that is different from general semantic ambiguity. It has both universal and language- and domain-specific peculiarities. This paper investigates conceptual ambiguity in a case study of a Russian-language corpus on terror attacks. The research methodology combines automated and manual steps, comprising a) statistical and qualitative corpus analysis, b) the use of pre-developed annotation resources (a terrorism domain ontology, a Russian ontolexicon and a computer platform for conceptual annotation), c) ontological-analysis-based conceptual annotation of the corpus chosen for the case study, d) corpus-based detection and investigation of conceptual ambiguity causes, e) development and experimental study of possible disambiguation methods for some types of conceptual ambiguity. The findings obtained in this study are specific for Russian-language terrorism domain texts, but the conceptual annotation technique and approaches to conceptual disambiguation developed are applicable to other domains and languages.en
dc.description.abstractНаличие корректно размеченных (аннотированных) корпусов текстов является критически важным условием создания эффективных средств автоматизированной обработки естественного языка, обеспечивающих оперативное решение как теоретических, так и прикладных лингво-информационных задач. Одной из основных и наиболее сложных проблем корпусной разметки является разрешение неоднозначности меток на конкретном уровне реализации аннотирования (морфологическом, синтаксическом, семантическом и т. д.). Настоящая статья посвящена проблеме неоднозначности, возникающей на концептуальном, наиболее релевантном для решения информационных задач уровне разметки текстов. Под концептуальной разметкой (аннотированием) понимается специальный тип семантической разметки, как правило, применяемый к корпусам предметных областей для решения конкретных информационных задач (автоматической классификации, контент- и тренд-анализов, машинного обучения, машинного перевода и др.). При концептуальной разметке корпусы текстов размечаются метками, отражающими контент конкретной предметной области, что ведет к отличному от общесемантического типу неоднозначности, который имеет как универсальные, так и зависящие от конкретного языка и предметной области характеристики. В статье проблема концептуальной неоднозначности исследуется методом кейс-стади на материале русскоязычных текстов предметной области «Терроризм». Методология исследования сочетает автоматизированные и вручную выполненные этапы работ, включающие а) статистико-качественный анализ корпусного материала; б) использование предварительно разработанных аннотационных ресурсов (онтологии предметной области «Терроризм», русского онтолексикона и компьютерной платформы концептуального аннотирования); в) основанную на онтологическом анализе концептуальную разметку отобранного для кейс-стади корпуса; г) основанное на корпусном подходе выявление и анализ причин возникновения концептуальной неоднозначности; д) исследование статистических параметров концептуальных меток и соотнесенных с ними лексем в аннотированном корпусе; е) разработка и экспериментальная проверка возможных методов разрешения отдельных типов концептуальной неоднозначности. В настоящем исследовании получены конкретные результаты для русскоязычных текстов, но разработанная методика концептуальной разметки и подходы к разрешению концептуальной неоднозначности применимы к текстам других предметных областей на различных языках.ru
dc.format.mimetypeapplication/pdfen
dc.language.isoruen
dc.publisherИздательство Тюменского государственного университетаru
dc.relation.ispartofВестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates. – 2020. – Т. 6, № 3(23)ru
dc.subjectconceptual annotationen
dc.subjectconceptual taggingen
dc.subjectRussian corpusen
dc.subjectconceptual ambiguityen
dc.subjectcase studyen
dc.subjectontological analysisen
dc.subjectmultilingual domain ontologyen
dc.subjectterrorismen
dc.subjectконцептуальная разметкаru
dc.subjectрусскоязычный корпусru
dc.subjectконцептуальная неоднозначностьru
dc.subjectметод кейс-стадиru
dc.subjectонтологический анализru
dc.subjectмногоязычная предметная онтологияru
dc.subjectтерроризмru
dc.titleАнализ неоднозначности концептуальной разметки русскоязычного текстаru
dc.title.alternativeThe analysis of ambiguity in conceptual annotation of Russian textsen
dc.typeArticleen
dc.typeinfo:eu-repo/semantics/publishedVersionen
dc.typeinfo:eu-repo/semantics/articleen
local.description.firstpage38
local.description.lastpage60
local.issue3(23)
local.volume6
dc.identifier.doi10.21684/2411-197X-2020-6-3-38-60
Appears in Collections:Вестник ТюмГУ: Гуманитарные исследования. Humanitates

Files in This Item:
File SizeFormat 
humanitates_2020_3_38_60.pdf576.46 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.