4TB: Тохар A және көне ұйғыр параллель мәтіндерін зерттеуге арналған жаңа құрал


Қаралымдар: 59 / PDF жүктеулері: 19

Авторлар

DOI:

https://doi.org/10.32523/2664-5157-2026-2SI-77-92

Кілт сөздер:

Maitreyasamiti-Nāṭaka, Maitrisimit nom bitig, көне түркі тілі, көне ұйғыр тілі, аудармалар корпусы, Ұлы Жібек жолы мәдениеттері, Майтрея, параллельді корпус, тохардың A тілі, Орталық Азия буддизмі

Аннотация

Мақалада Тохар A және көне ұйғыр тілдерін зерттеуге арналған 4TB онлайн-корпусы таныстырылады. Оның мақсаты – Тохар A тіліндегі мәтін үзінділерін, көне ұйғыр (болашақта санскрит тілімен) тіліндегі сәйкес нұсқаларымен салыстыра отырып жинақтау. Зерттеу негізінен тохар тіліндегі «Maitreyasamiti-Nāṭaka» мәтіні мен оның көне ұйғыр тіліндегі аудармасы «Maitrisimit nom bitig» шығармасына арналған. Бұл мәтіндердің зерттелу тарихы терең болғанына қарамастан, олардың толық ғылыми басылымдары әлі күнге дейін жарияланбаған. Қазіргі уақытта корпустың негізін құрайтын тохар нұсқасының редакциясы дайындалуда. 4TB жобасы болашақта «Maitrisimit nom bitig» мәтінінің толық басылымын әзірлеуге негіз болатын, көне ұйғыр тілінде сәйкес мәтін үзінділерін жинақтауға бағытталған. Қолданыстағы сандық ресурстармен салыстырғанда, тохар мәтіндері салыстырмалы түрде толық ұсынылған, ал көне түркі мәтіндерінің корпустары әлі де толық емес күйде қалып отыр. Бұл жағдай ішінара жасалған сәйкес мәтіндер корпусының өзін де маңызды ғылыми үлеске айналдырады. Мақалада корпусты жобалау мен әзірлеуге қатысты негізгі мәселелер қарастырылады. Екі тіл үшін де транслитерация қолданылмайды, ал транскрипция әртүрлі қағидаттар негізінде жүзеге асырылады. Тохар A тілі қалыптасқан ғылыми конвенцияларға сәйкес берілсе, көне ұйғыр тілі бірыңғай транскрипция жүйесінің аясында біріздендіріліп, кейбір ескірген формалары түзетілген. Қосымша қиындықтар негізінен ғылыми әдебиеттегі транскрипция жүйелерінің біркелкі еместігіне байланысты. Аудармасы түпнұсқа жарияланымдардың тілдеріне сәйкес беріледі (тохар A – орыс тілі, көне ұйғыр тілі – неміс тілі), ал болашақта ағылшын тіліне автоматты аударуды енгізу жоспарлануда. Корпус, ең кіші бірлік – токендерге негізделген, алайда сөзбе-сөз сәйкестіктің болмауы себебінен, фрагменттерді сәйкестендіру жоғары деңгейде жүзеге асырылады. Сөйлемдегі сегментацияның күрделілігіне байланысты «пассаж» деп аталатын икемді бірлік енгізіледі. Пассаждар манускрипттер арасындағы айырмашылықтарды ескеру мақсатында «пассаж топтарына» біріктіріліп, кейін тілдер арасында сәйкестендіріледі. Ол сөздердің түсіп қалуы мен қосылуы сияқты мәтіндік ауытқуларда ескеріледі. Мұндай тәсіл мәтіннің тұтастығын сақтай отырып, оны KWIC форматындағы стандартты корпус модельдерінен ажыратады. Корпус бірқатар негізгі функцияларды қамтиды. Сөздіктер барлық лемматизацияланған токендерді қамтып, олардың формаларын грамматикалық белгілеумен байланыстырады. Конкорданс пассаждарды параллель мәтіндерімен бірге ұсынады. Іздеу құралдары жазылым, форма, лемма және грамматикалық белгілер бойынша сұраныстарды қолдайды (соңғысы тілдер арасындағы іздеуді де қамтиды). Редакциялау құралдары мәтіндік және лексикалық деректерді өзгертуге мүмкіндік береді, онда жартылай автоматты лемматизация да бар және оны әрі қарай жетілдіруге мүмкіндік береді. Жалпы алғанда, 4TB – болашақ корпус жобаларына бейімделетін платформа. Ол тохар және түркі тілдерін салыстырмалы зерттеуге мүмкіндік беріп, материалдарды тіл мамандары ғана емес, әсіресе буддологтарға қолжетімді етеді.

Downloads

Download data is not yet available.

Автор өмірбаяны

M.В. Выжлаков, Вена университеті

PhD., постдокторант

Әдебиет

Bonelli E.T., 2010. Theoretical overview of the evolution of corpus linguistics. The Routledge Handbook of Corpus Linguistics. Editors: Anne O’Keeffe and Michael McCarthy. 1st ed. p. cm. (Routledge handbooks in applied linguistics). P. 14–28.

Burlak S.A., Itkin I.B., 2004. Tokharskij tekst A 446: yeshchë odna rukopis’ tokharskoy versii Maitreyasamiti-Nāṭaka. [Tocharian Text A 446: Another manuscript of the Tocharian version of the Maitreyasamiti-Nāṭaka] Voprosy Jazykoznanija. 3. P. 24–35). [in Russian].

Burlak S.A., Itkin I.B., 2013. Tokharskie yazyki [Tocharian languages]. Yazyki mira. Reliktovye indoevropeyskie yazyki Peredney i Tsentral’noy Azii. Red. koll.: Yu.B. Koryakov, A.A. Kibrik [Languages of the world: relict Indo-European languages of Western and Central Asia. Editorial Board: Yu.B. Koryakov, A.A. Kibrik]. Moscow: Academia. P. 386–485. [in Russian].

Geng Sh., Laut J.-P., Pinault G.-J., 2004a. Neue Ergebnisse der Maitrisimit-Forschung. Zeitschrift der Deutschen Morgenländischen Gesellschaft [New results of Maitrisimit research. Journal of the German Oriental Society]. 154. P. 347–369. [in German].

Geng Sh., Laut J.-P., Pinault G.-J., 2004b. Neue Ergebnisse der Maitrisimit-Forschung (II): Struktur und Inhalt des 26. Kapitels [New Results of Maitrisimit Research (II): Structure and content of chapter 26]. Studies on the Inner Asian Languages. 19. P. 29–94 + Plates III–XIII. [in German].

Erdal M., 2004. A Grammar of Old Turkic. Vol. Central Asia 3. Handbook of Oriental Studies 8. Leiden: Brill. 575 p.

Erdal M., Gippert J., Röhrborn K., Zieme P., Nevskaya I., Knüppel M., Özertural Z., Taube J., 2003. Vorislamische Alttürkische Texte: Elektronisches Corpus [Pre-Islamic Old Turkic texts: Electronic corpus]. [Electronic resource]. Available at: https://vatec2.fkidg1.uni-frankfurt.de/ (Accessed: 29.03.2026). [in German].

Derin M.O., Harada T., 2021. Universal Dependencies for Old Turkish. In Proceedings of the Fifth Workshop on Universal Dependencies (UDW, Syntax Fest 2021). Sofia, Bulgaria. Association for Computational Linguistics. P. 129–141.

Itkin I.B., Kuritsyna A.V., Malyshev S.V., 2017. Tocharian A text THT 1331 and the “Höllenkapitel” of the “Maitrisimit nom bitig”: some more remarks. Tocharian and Indo-European studies. 18. P. 71–81.

Itkin I.B., Kuritsyna A.V., Wilkens J., Nugteren H., 2025. THT-fragments of Maitreyasamiti-Nāṭaka: Current state of the topic and some new identifications. Acta Orientalia Academiae Scientiarum Hungaricae. 1 (78). P. 85–113.

Lefer M.-A., 2020. Parallel Corpora. Magali Paquot, Stefan Th. Gries (eds.). A Practical Handbook of Corpus Linguistics. Springer. P. 257–282.

Kenning M.-M., 2010. What are parallel and comparable corpora and how can we use them? The Routledge Handbook of Corpus Linguistics. Editors: Anne O’Keeffe and Michael McCarthy. 1st ed. p. cm. (Routledge handbooks in applied linguistics). P. 487–500.

Malzahn M., Braun M., Fellner H.A., Koller B., 2011. A Comprehensive Edition of Tocharian Manuscripts. [Electronic resource]. Available at: https://cetom.univie.ac.at/ (Accessed: 29.03.2026).

Müller F.W.K., Sieg E., 1916. Maitrisimit und ‘Tocharisch’ [Maitrisimit and ‘Tocharian’]. Sitzungsberichte der Königlich Preußischen Akademie der Wissenschaften [Proceedings of the Royal Prussian Academy of Sciences]. P. 395–417. [in German].

Peyrot M., Semet A., 2016. A comparative study of the beginning of the 11th act of the Tocharian A Maitreyasamitināṭaka and the Old Uyghur Maitrisimit. Acta Orientalia Hungarica. 69. P. 355–78.

Pinault G.-J., 1999. Restitution du Maitreyasamiti-Nāṭaka en tokharien A: Bilan provisoire et recherches complémentaires sur l’acte XXVI [Restoration of the Maitreyasamiti-Nāṭaka in Tocharian A: Provisional assessment and additional research on act XXVI]. Tocharian and Indo-European Studies. 8. P. 189–240. [in French].

Semet A., Äysa A., 2014. Prophezeiung über die Maitreya-Geburt. Neues zum 11. Kapitel der uighurischen Maitrisimit nom bitig [Prophecy of the birth of Maitreya: New findings on chapter 11 of the Uyghur Maitrisimit nom bitig]. Aysima Mirsultan. Mihriban Tursun Aydın. Erhan Aydın (Hrsg.): Eski Türkçeden Çağdaş Uygurcaya. Mirsultan Osman’ın Doğumunun 85. Yılına Armağan. Konya. P. 221–249. [in German].

Tekin Ş., 1980. Maitrisimit nom bitig. Die uigurische Übersetzung eines Werkes der buddhistischen Vaibhāṣika-Schule. 1. Teil: Transliteration, Übersetzung, Anmerkungen. [Maitrisimit nom bitig. The Uyghur translation of a work of the Buddhist Vaibhāṣika school. Part 1: Transliteration, translation, notes.] Schriften zur Geschichte und Kultur des Alten Orients, Berliner Turfantexte [Writings on the history and culture of the Ancient Orient, Berlin Turfan Texts]. IX. Berlin: Akademie-Verlag. 264 p. [in German].

Weisser M., 2022. What corpora are available? Anne O’Keeffe and Michael McCarthy (Eds.). The Routledge Handbook of Corpus Linguistics. Second edition. Routledge. P. 89–102.

Wilkens J., 2008. Maitrisimit und Maitreyasamitināṭaka. Aspects of research into Central Asian Buddhism. In memoriam Kōgi Kudara. Edited by Peter Zieme. Silk Road Studies 16. Turnhout: Brepols. P. 407–433.

Wilkens J., 2021. Handwörterbuch des Altuigurischen. Altuigurisch – Deutsch – Türkisch. Herausgegeben von der Akademie der Wissenschaften zu Göttingen [Concise dictionary of Old Uyghur. Old Uyghur – German – Turkish. Published by the Göttingen Academy of Sciences]. Göttingen: Universitätsverlag. 929 p. [in German].

Wilkens J., 2023. Einige Beobachtungen zu Übersetzungstechnik der altuigurischen Maitrisimit [Some observations on the translation technique of the Old Uyghur Maitrisimit]. Journal of Old Turkic Studies. 2 (7). P. 553–571. [in German].

Wołk K., 2015. Noisy-parallel and comparable corpora filtering methodology for the extraction of bi-lingual equivalent data at sentence level. Computer Science. 2 (16). P. 169–184.

Жүктеулер

Жарияланды

2026-06-22

Дәйексөзді қалай келтіруге болады

Выжлаков M. . (2026). 4TB: Тохар A және көне ұйғыр параллель мәтіндерін зерттеуге арналған жаңа құрал. Turkic Studies Journal, 77–92. https://doi.org/10.32523/2664-5157-2026-2SI-77-92

Журналдың саны

Бөлім

Түркі жазба ескерткіштерінің мәтінтануы