Title: | Извлечение ключевых терминов на базе корпуса текстов о разработке нефтяных и газовых месторождений |
Other Titles: | Key Term Extraction Based on a Corpus of Oil and Gas Field Development Discourse |
Authors: | Kovyazina, M. A. Ковязина, М. А. |
Keywords: | terminology corpus term extraction keyness score корпус извлечение терминов терминология показатель ключевого слова |
Issue Date: | 2016 |
Publisher: | Издательство Тюменского государственного университета |
Citation: | Ковязина, М. А. Извлечение ключевых терминов на базе корпуса текстов о разработке нефтяных и газовых месторождений / М. А. Ковязина // Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates / главный редактор Н. Н. Белозёрова. – Тюмень : Издательство Тюменского государственного университета, 2016. – Т. 2, № 3. – С. 61-69. |
Abstract: | The paper presents a research targeted at term extraction based on a text corpus. The author of the research uses the corpus analysis toolkit «AntConc» and the corpus query system «Sketch Engine» to compile the corpus of texts devoted to oil and gas field development processes, stages, and methods, as well as to extract the key terminology of the domain. Several corpus methods are used to identify the terminology inherent in oil and gas field development discourse: analysing word frequency lists, generating a list of key words and terms based on keyness score, and building a distributional thesaurus with the application of the logDice coefficient. As a result of the corpus-based research, the terms synonymous with the key notion «field development» have been grouped, as well as the key domain-specific and general scientific terminology has been extracted. Статья излагает результаты исследования, посвященного извлечению терминологии на базе текстового корпуса. Автор применяет программное приложение AntConc и корпусную поисковую систему Sketch Engine для формирования корпуса специальных текстов, рассматривающих основные этапы и методы разработки месторождений нефти и газа, и выявления терминологии, являющейся ключевой для данной предметной области. Основная терминология, описывающая область разработки месторождений нефти и газа, извлекается с использованием нескольких корпусных инструментов: построение частотных списков слов, вычисление относительной частоты (ipm) для единиц корпуса, выявление ключевых слов и терминов с применением статистической меры ключевого слова (keyness score), построение дистрибутивного тезауруса на основе меры ассоциации logDice. В результате анализа на базе корпуса выделены единицы, семантически близкие термину «разработка», а также отраслевые и общенаучные термины, ключевые для исследуемой предметной области. |
URI: | https://elib.utmn.ru/jspui/handle/ru-tsu/15005 |
ISSN: | 2500-0896 2411-197Х |
Source: | Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates. – 2016. – Т. 2, № 3 |
Appears in Collections: | Вестник ТюмГУ: Гуманитарные исследования. Humanitates
|
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.