The linguistic corpus of Kullui was developed within the framework of the study of Himachali Pahari – Indo-Aryan languages of North India. The corpus was created by researchers of the Institute of Linguistics, RAS and the Institute of Oriental Studies, RAS – E. Renkovskaya (Institute of Linguistics), J. Mazurova (Institute of Linguistics), A. Krylova (Institute of Oriental Studies). The corpus comprises the data collected during fieldtrips to Kullu district (Naggar, Bashing, Thawa, Suma villages) in 2014-2017.
The software part of the corpus was developed by Evgeniya Korovina. At the moment, the Kullui corpus comprises about 18,000 tokens. It consists of two subcorpora – oral texts and elicited grammatical questionnaires with the translation into Russian and English. The phrases from the text subcorpus have corresponding audio recordings, while questionnaires are not provided with the oral component.
All the texts have detailed morphological annotations. Besides combined search of the Kullui words, parts of the words and their Russian and English translations, there is a possibility for the search of the grammatical categories and the combinations of two Kullui words with a certain distance between them. The user of the corpus can also have access to the full texts and their recordings.
The texts are provided with the discourse marking reflecting intonation, pauses, breaks, self-correction, code-switching and other important characteristics of the oral speech. The corpus also comprises metadata of the place and the time of the recording and the sociolinguistic information about the speaker.
This project was supported by Russian Foundation for Basic Research (RFBR), № 19-012-00 355 «The investigation of the Kullui language based on the oral text corpus» (2019–2021)
Корпус куллуи создан научным коллективом в рамках проекта по изучению языков группы химачальских пахари – индоарийских языков Северной Индии. Корпус разработан сотрудниками Института языкознания РАН и Института востоковедения РАН Ренковской Е.А. (ИЯз РАН), Мазуровой Ю.В. (ИЯз РАН) и Крыловой А.С. (ИВ РАН). В корпус входят материалы на центральном диалекте куллуи, записанные коллективом в ходе экспедиций в округ Куллу (деревни Наггар, Башинг, Тхава, Сума) в 2014–2017 гг.
Программная часть корпуса разработана Е.В. Коровиной (ИЯз РАН). На данный момент (январь 2022 г.) Корпус куллуи имеет объём около 18 тыс. словоупотреблений и состоит из двух подкорпусов — устных текстов и элицитированных грамматических анкет с переводом на русский и английский языки. Каждое предложение из подкорпуса устных текстов можно прослушать, к грамматическим анкетам звук не прилагается.
Тексты имеют подробную морфологическую разметку. Помимо комбинированного поиска по отдельным словам на куллуи, частям слов и их переводам на русский и английский языки, предусмотрена возможность поиска по грамматическим категориям и по комбинации слов куллуи на заданном расстоянии друг от друга. Имеется возможность просмотра и прослушивания полных текстов.
Тексты снабжены дискурсивной разметкой, отражающей интонацию, паузы, обрывы, самоисправления, переключение кода и другие важные характеристики устной речи. Корпус содержит метаданные о месте и времени записи текста и социолингвистические сведения о говорящем.
Проект выполнен при поддержке гранта РФФИ № 19-012-00 355 (2019–2021).