Please use this identifier to cite or link to this item: https://elib.utmn.ru/jspui/handle/ru-tsu/7382
Title: Лексическое разнообразие текста и способы его измерения
Other Titles: Lexical diversity measures’ review and classification
Authors: Zakharova, E. Yu.
Savina, O. Yu.
Захарова, Е. Ю.
Савина, О. Ю.
Keywords: lexical diversity
lexical diversity measures
lexicometry
statistical linguistics
quantitative methods
vocabulary
lexeme
лексическое разнообразие
коэффициент лексического разнообразия
лексикометрия
лингвостатистика
квантитативные методы
словарный запас
лексема
Issue Date: 2020
Publisher: Издательство Тюменского государственного университета
Citation: Захарова, Е. Ю. Лексическое разнообразие текста и способы его измерения / Е. Ю. Захарова, О. Ю. Савина. – Текст : электронный // Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates / главный редактор Н. Н. Белозёрова. – Тюмень : Издательство Тюменского государственного университета, 2020. – Т. 6, № 1(21). – С. 20-34.
Abstract: This paper reviews various lexical diversity (LD) measures and their classification. The authors define the most significant advantages and disadvantages of the measures and investigate the main scopes of LD application. They include measuring LD in the speech of children and people with aphasia, checking progress in learning a foreign language, and investigating different writing styles of certain authors. Results show that the most frequently used measure is the type-token ratio (TTR), which means the ratio of different words (types) to the total number of words (tokens). The most important problem of TTR and other measures based on TTR is that the more tokens a text has, the less is the TTR value. This has led to the development of other measures; some of them are based on a TTR formula, thus, they do not solve the problem and the calculation result is also affected by the text length. In that case, the texts with different length cannot be compared. Another group of measures rests upon the TTR formula supplemented by a principle of sample forming. These measures solve the problem of the TTR partially or completely, though they often require some extra instruments. Fortunately, these instruments are available on the Internet and demand no particular knowledge on their working principle or in programming. Contemporary researchers tend to use independent measures, because texts mostly have different length and the dependent measures cannot give proper results.
В данной статье представлен обзор способов расчета коэффициента лексического разнообразия текста с их последующей классификацией, определены основные преимущества и недостатки способов, рассмотрены основные сферы практического применения коэффициента. Установлено, что самым распространенным способом является соотношение уникальных лексических единиц (тайпов) и всех словоформ (токенов) – TTR (англ. type-token ratio). Однако главной проблемой TTR и нескольких других производных способов является зависимость результата расчета от длины текста, то есть чем больше в тексте лексических единиц, тем ниже значение TTR. Таким образом, сравнение коэффициентов лексического разнообразия текстов разной длины невозможно. В связи с этим были разработаны другие способы расчета. Некоторые представляют собой видоизмененную формулу TTR, модифицированную квадратным корнем, логарифмом или другой математической операцией, однако они не решают проблему TTR. Другая группа способов использует в расчете обычную формулу TTR, дополненную принципом определения выборки, то есть полный текст не исследуется сразу, а разделяется на более удобные для исследования части. Такие способы частично или полностью решают проблему зависимости результата от длины текста, но для их применения зачастую требуется дополнительный инструмент. Современные ученые склоняются к отказу от сложных формул и применению независимых способов, поскольку тексты для анализа в большинстве исследований имеют разную длину (особенно это касается текстов, не созданных специально для исследований – художественной литературы или законодательных актов), и здесь зависимые способы не могут дать корректный результат.
URI: https://elib.utmn.ru/jspui/handle/ru-tsu/7382
ISSN: 2500-0896
2411-197Х
Source: Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates. – 2020. – Т. 6, № 1(21)
Appears in Collections:Вестник ТюмГУ: Гуманитарные исследования. Humanitates

Files in This Item:
File Description SizeFormat 
humanitates_2020_1_20_34.pdf508.8 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.