Лексическое разнообразие текста и способы его измерения

Zakharova, E. Yu.; Savina, O. Yu.; Захарова, Е. Ю.; Савина, О. Ю.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://elib.utmn.ru/jspui/handle/ru-tsu/7382

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.author	Zakharova, E. Yu.	en
dc.contributor.author	Savina, O. Yu.	en
dc.contributor.author	Захарова, Е. Ю.	ru
dc.contributor.author	Савина, О. Ю.	ru
dc.date.accessioned	2022-05-23T11:28:49Z	-
dc.date.available	2022-05-23T11:28:49Z	-
dc.date.issued	2020	-
dc.identifier.citation	Захарова, Е. Ю. Лексическое разнообразие текста и способы его измерения / Е. Ю. Захарова, О. Ю. Савина. – Текст : электронный // Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates / главный редактор Н. Н. Белозёрова. – Тюмень : Издательство Тюменского государственного университета, 2020. – Т. 6, № 1(21). – С. 20-34.	ru
dc.identifier.issn	2500-0896	online
dc.identifier.issn	2411-197Х	print
dc.identifier.uri	https://elib.utmn.ru/jspui/handle/ru-tsu/7382	-
dc.description.abstract	This paper reviews various lexical diversity (LD) measures and their classification. The authors define the most significant advantages and disadvantages of the measures and investigate the main scopes of LD application. They include measuring LD in the speech of children and people with aphasia, checking progress in learning a foreign language, and investigating different writing styles of certain authors. Results show that the most frequently used measure is the type-token ratio (TTR), which means the ratio of different words (types) to the total number of words (tokens). The most important problem of TTR and other measures based on TTR is that the more tokens a text has, the less is the TTR value. This has led to the development of other measures; some of them are based on a TTR formula, thus, they do not solve the problem and the calculation result is also affected by the text length. In that case, the texts with different length cannot be compared. Another group of measures rests upon the TTR formula supplemented by a principle of sample forming. These measures solve the problem of the TTR partially or completely, though they often require some extra instruments. Fortunately, these instruments are available on the Internet and demand no particular knowledge on their working principle or in programming. Contemporary researchers tend to use independent measures, because texts mostly have different length and the dependent measures cannot give proper results.	en
dc.description.abstract	В данной статье представлен обзор способов расчета коэффициента лексического разнообразия текста с их последующей классификацией, определены основные преимущества и недостатки способов, рассмотрены основные сферы практического применения коэффициента. Установлено, что самым распространенным способом является соотношение уникальных лексических единиц (тайпов) и всех словоформ (токенов) – TTR (англ. type-token ratio). Однако главной проблемой TTR и нескольких других производных способов является зависимость результата расчета от длины текста, то есть чем больше в тексте лексических единиц, тем ниже значение TTR. Таким образом, сравнение коэффициентов лексического разнообразия текстов разной длины невозможно. В связи с этим были разработаны другие способы расчета. Некоторые представляют собой видоизмененную формулу TTR, модифицированную квадратным корнем, логарифмом или другой математической операцией, однако они не решают проблему TTR. Другая группа способов использует в расчете обычную формулу TTR, дополненную принципом определения выборки, то есть полный текст не исследуется сразу, а разделяется на более удобные для исследования части. Такие способы частично или полностью решают проблему зависимости результата от длины текста, но для их применения зачастую требуется дополнительный инструмент. Современные ученые склоняются к отказу от сложных формул и применению независимых способов, поскольку тексты для анализа в большинстве исследований имеют разную длину (особенно это касается текстов, не созданных специально для исследований – художественной литературы или законодательных актов), и здесь зависимые способы не могут дать корректный результат.	ru
dc.format.mimetype	application/pdf	en
dc.language.iso	ru	en
dc.publisher	Издательство Тюменского государственного университета	ru
dc.relation.ispartof	Вестник Тюменского государственного университета. Серия: Гуманитарные исследования. Humanitates. – 2020. – Т. 6, № 1(21)	ru
dc.subject	lexical diversity	en
dc.subject	lexical diversity measures	en
dc.subject	lexicometry	en
dc.subject	statistical linguistics	en
dc.subject	quantitative methods	en
dc.subject	vocabulary	en
dc.subject	lexeme	en
dc.subject	лексическое разнообразие	ru
dc.subject	коэффициент лексического разнообразия	ru
dc.subject	лексикометрия	ru
dc.subject	лингвостатистика	ru
dc.subject	квантитативные методы	ru
dc.subject	словарный запас	ru
dc.subject	лексема	ru
dc.title	Лексическое разнообразие текста и способы его измерения	ru
dc.title.alternative	Lexical diversity measures’ review and classification	en
dc.type	Article	en
dc.type	info:eu-repo/semantics/publishedVersion	en
dc.type	info:eu-repo/semantics/article	en
local.description.firstpage	20	-
local.description.lastpage	34	-
local.issue	1(21)	-
local.volume	6	-
dc.identifier.doi	10.21684/2411-197X-2020-6-1-20-34	-
Располагается в коллекциях:	Вестник ТюмГУ: Гуманитарные исследования. Humanitates

Файлы этого ресурса:

Файл	Описание	Размер	Формат
humanitates_2020_1_20_34.pdf		508,8 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.