Корпус даргинского литературного языка

Корпус даргинского литературного языка содержит около 10 млн. словоформ. Большая часть текстов взята из открытого архива республиканской общественно-политической газеты «Замана» (2010—2023). Имеется также подкорпус, содержащий произведения художественной литературы, сказки и баллады. В дальнейшем в корпус будет добавлено больше текстов разных жанров.

Над корпусом работали: Е. О. Сокур, С. Ю. Толдова, Н. Р. Сумбатова, на ранней стадии также А. С. Токмаков, в обсуждении и тестировании участвовали все сотрудники проекта. В подготовке текстов для корпуса участвовала П. А. Казимова.

Корпус создается на платформе Tsakorpus, разработанной Т. А. Архангельским. Тексты в корпусе представлены в даргинской орфографической записи и отглоссированы. Анализ лексики производится на основе словаря даргинского литературного языка Х. А. Юсупова.

Работа над корпусом продолжается в нескольких направлениях. Во-первых, предполагается пополнение массива текстов; во-вторых, продолжается усовершенствование глоссирования; в-третьих, в ближайшее время планируется выложить подкорпус со снятой грамматической омонимией.