https://oldena.lpnu.ua/handle/ntb/47788
Title: | Using transitivity information for morphological and syntactic disambiguation of pronouns in Ukrainian |
Authors: | Kotsyba, Natalia Moskalevskyi, Bohdan |
Affiliation: | Samsung Research Poland Institute for Ukrainian |
Bibliographic description (Ukraine): | Kotsyba N. Using transitivity information for morphological and syntactic disambiguation of pronouns in Ukrainian / Natalia Kotsyba, Bohdan Moskalevskyi // Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2019. — № 5. — С. 101–115. |
Bibliographic description (International): | Kotsyba N. Using transitivity information for morphological and syntactic disambiguation of pronouns in Ukrainian / Natalia Kotsyba, Bohdan Moskalevskyi // Visnyk Natsionalnoho universytetu "Lvivska politekhnika". Informatsiini systemy ta merezhi. — Lviv : Vydavnytstvo Lvivskoi politekhniky, 2019. — No 5. — P. 101–115. |
Is part of: | Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі, 5, 2019 |
Journal/Collection: | Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі |
Issue: | 5 |
Issue Date: | 26-Feb-2019 |
Publisher: | Видавництво Львівської політехніки |
Place of the edition/event: | Львів Lviv |
UDC: | 811.162.1=162.2’374.822 004.65 |
Keywords: | українська мова снтаксичний корпус дерево залежностей валентний словник семантичні ролі анафора морфологічне уоднозначення машинне навчання Ukrainian language Treebank syntactic parsing semantic roles valency dictionary anaphora resolution morphological disambiguation supervised machine learning |
Number of pages: | 15 |
Page range: | 101-115 |
Start page: | 101 |
End page: | 115 |
Abstract: | Наведено короткий опис декількох електронних ресурсів української мови, а саме
два синтаксичні корпуси: Золотий стандарт (біля 130 тис. слів), анотований вручну
деревами залежностей Universal Dependencies (https://universaldependencies.org/), що
становить тренувальні дані для синтаксичного парсера, та великий (майже 3 мільярди
слів) автоматично анотований Загальний синтаксичний корпус (Звідусіль), а також
валентний словник українських дієслів. Ці мовні ресурси розробляються в Інституті
Української, ГО від 2015 року та є доступні для некомерційного вживання під адресою
установи https://mova.institute/. Також описано експериметальне використання валентного
словника для покращення якості роботи синтаксичного парсера з використанням
машинного навчання та ґрунтовної теоретико-лінгвістичної бази. Прикладом були
конструкції особово-присвійних займенників “його”, “її”, “їх”, кожен з яких має понад
24 можливі морфологічні таги, у сполученні з ґерундієвими іменниковими формами, що
також можуть мати різні граматичні інтерпретації (із ключовими семантичними
ролями або без них). Вибір правильної інтерпретації у багатьох випадках вимагає
ідентифікації семантичної ролі іменника, що його заступає у тексті займенник, і/або
розв’язання кореференції (анафори). З одного боку, це ускладнює процес
уоднозначнення; з іншого боку, ми отримуємо бонус для якісного автоматичного аналізу
тексту, необхідного для багатьох застосувань в обробці природних мов (NLP). Проаналізовано
типові помилки автоматичного парсингу для досліджуваної конструкції та
подано практичні рекомендації до створення тренінгових даних для кращого навчання
парсера у майбутньому. Стаття є практичним продовженням лінгвістичного
дослідження (Kotsyba, Moskalevskyi 2018 [11]), де подано теоретичне обгрунтування
рішення проблеми інтерпретації займенників та ґерундієвих іменників для української
мови на тлі інших словянських мов. The paper presents a short introduction to several electronic resources for Ukrainian language, namely, two treebanks: the Gold standard (ab. 130 thousand tokens), manually annotated in the Universal Dependencies flavour (https://universaldependencies.org/), which comprises the training data for a machine-trained syntactic parser, and a big (near 3 billion tokens), automatically annotated General Treebank (also known as Zvidusil), as well as a valency dictionary, developed by the Institute for Ukrainian, NGO (Kyiv) in 2015-2019 (https://mova.institute/). We also describe an experimental usage of the valency dictionary information to boost the performance of the syntactic parser. As a proof of concept, we discuss the case of syntactic and morphological ambiguity of frequently used Ukrainian pronouns його, її, їх ‘his, her, their’ and ways of improving the syntactic parser’s performance using the supervised machine learning techniques with a theoretical linguistic support. Apart from the multiple morphological ambiguity (24+ possible tags for each of these forms), one of the challenges connected with the presented linguistic phenomenon, is that its correct disambiguation involves anaphora resolution and semantic roles identification. On the one hand, this makes the disambiguation process much more complicated, given the followed annotation design, on the other hand, by resolving a seemingly low-level (morphological) problem we gain a bonus in the form of significant textual analysis hints which can be later used in various NLP applications for Ukrainian. The present article is a practical follow-up of its more theoretical predecessor (Kotsyba, Moskalevskyi 2018 [11]), where the linguistic underpinnings of the syntactic and morphological interpretation of the pronouns його, її, їх in comparison with other Slavic languages are presented in greater detail |
URI: | https://ena.lpnu.ua/handle/ntb/47788 |
Copyright owner: | © Національний університет “Львівська політехніка”, 2019 © Natalia Kotsyba, Bohdan Moskalevskyi, 2019 |
URL for reference material: | http://science.lp.edu.ua/sisn/vol-770-no-2013-1 https://link.springer.com/chapter/10.1007/978-3-319-10888-9_21 https://slavicorp.ff.cuni.cz/wp-content/uploads/sites/144/2018/09/ http://www.mova.info/ http://sum.in.ua/ https://mova.institute |
References (Ukraine): | 1. Blodgett, A., Schneider, N. (2018). Semantic Supersenses for English Possessives. Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki (Japan). 2. Danielewiczowa M. (2017). Polskie nazwy czynności i wytworów czynności w świetle walencji motywujących je czasowników /Polish Action Nominals in the Light of the Valency of the Corresponding Verbs. Prace Filologiczne, tom LXX, p. 143–157. 3. de Marneffe M.-C., Dozat T., Silveira N., Haverinen K., Ginter F., Nivre J., and Manning Ch.- D. (2014). Universal Stanford Dependencies: A cross-linguistic typology. LREC. 4. Dozat, T., Qi, P., Manning Ch.-D. (2017). Stanford’s Graph-based Neural Dependency Parser at the CoNLL 2017 Shared Task. Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Vancouver, Canada, August 3–4, 2017, p. 20–30. 5. Erjavec T. (2009). MULTEXT-East Morphosyntactic Specifications: Towards Version 4. Proc. of the MONDILEX Third Open Workshop, Bratislava, Slovakia, 15–16 April, 2009. 6. Kocková, J. (2017). Substantiva mezi slovesem a jménem Substantiva na -ní (-tí) / -ние (-тие) v češtině a ruštině ve světle paralelního korpusu. Časopis pro Moderní Filologii 99, Č. 1, p. 55–64. 7. Kotsyba N. (2013). Overview of the Ukrainian language resources within the multilingual European MULTEXT-East project, v. 4. Вісник Національного університету "Львівська політехніка". № 770: Інформаційні системи та мережі. p. 122–129. http://science.lp.edu.ua/sisn/vol-770-no-2013-1 8. Kotsyba, N. (2014). How light are aspectual meanings?: A study of the relation between light verbs and lexical aspects in Ukrainian. Robering, K. (ed.) Events, Arguments, and Aspects. Topics in the Semantics of Verbs. Studies in Language Companion Series, vol. 152, pp. 261–300. 9. Kotsyba N. (2014). Using Polish Wordnet for Predicting Semantic Roles for the Valency Dictionary of Polish Verbs. Przepiórkowski A., Ogrodniczuk M. (eds) Advances in Natural Language Processing. NLP 2014. Lecture Notes in Computer Science, vol 8686. Springer International Publishing Switzerland, p. 202–207. https://link.springer.com/chapter/10.1007/978-3-319-10888-9_21 10. Kotsyba, N., Moskalevskyi, B. (2018). An essential infrastructure of Ukrainian language resources and its possible applications. SlaviCorp 2018, 24–26 September 2018, Charles University, Prague, Book of Abstracts. https://slavicorp.ff.cuni.cz/wp-content/uploads/sites/144/2018/09/ SlaviCorp2018_Book_of_Abstracts.pdf 11. Kotsyba, N., Moskalevskyi, B. (2018). Syntactic and morphological ambiguity of the deverbal nouns’ arguments in Ukrainian and ways of its resolution. Prace Filologiczne, vol. VXXII, Warsaw, p. 193–210. 12. Levin, B. and Rappaport Hovav M. (2005). Argument realization. Cambridge: Cambridge University Press. 13. Panevová, J. (2017). Od valence slovesa k valenci substantiv a adjektiv/From Valency of Verbs to Valency of Nouns and Adjectives. Prace Filologiczne, vol. LXX, Warsaw, p. 59–72. 14. Pazelskaya, A. (2007). Argument structure in Russian deverbal nouns in -nie. Studies in Formal Slavic Linguistics, ed. Franc Maršič and Rok Zeucer, p. 255–272. Peter Lang. 15. Petrov S., Das D., and McDonald R. (2012). A universal part-of-speech tagset. LREC. 16. Pustejovsky, J. (1995). The Generative Lexicon, MIT Press, Cambridge, MA. 17. Straka M., Hajič J., Straková J. (2016). UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia, May 2016. 18. Zeman, D. (2008). Reusable Tagset Conversion Using Tagset Drivers. LREC. 19. Vykhovanets I., Horodenska K. Theoretical Morphology of Ukrainian Language: Academic Grammar of Ukr. Lang. Kyiv: Pulsary, 2004. [Ukrainian] 20. Kobozeva I.M. About Possessivity in Russian: Possessive Predicates and the Genitive. Acta Linguistica Petropolitana. Scientific Papers of Institute for Linguistic Research RAS. T. XI. P. 1. Categories of Noun and Verb in the System of Functional Grammar. Nauka, S. Petersburg, p. 249–271, 2015. [Russian] 21. Kurylo, O. Considerations about the Modern Ukrainian Literary Language. Solomiya Pavlychko’s Publishing House “Osnovy”, Kyiv, 2004 (reprint from Knyhospilka, 1925). [Ukrainian] 22. Pazelskaya A. G., Tatevosov S. G., The Deverbal Noun and the Structure of the Russian Verb. V. A. Plungian, S. G. Tatevosov (ed.), Research on Verbal Derivation. Languages of the Slavic Culture. Moscow, p. 348–380, 2008. [Russian] 23. Pchelintseva, J. E. The Grammatical Status and Aspectuality of Deverbal Nouns of Action in Ukrainian (on the background of Russian and Polish). Izvestiya VGPU. Philological Studies. Volgograd, 2015. [Russian] 24. Syniavskyi O. N. The Norms of the Ukrainian Literary Language. Ukrainian Publisher, 2nd edition, Lviv, 1941. [Ukrainian] 25. Syntactic corpus search interface. Retrieved March 19, 2019, from http://www.mova.info/ syntaxis_search.aspx. [Ukrainian] 26. SUM – Dictionary of Ukrainian language in 11 volumes. „Naukova Dumka”, Kyiv, 1970–1980. Digital version of SUM. Retrieved March 19, 2019, from http://sum.in.ua/. [Ukrainian] 27. IU Gold – Syntactic Corpus of the Ukrainian Language (Gold Standard Treebank of Ukrainian). Institute for Ukrainian, NGO, 2018. Retrieved March 19, 2019, from https://mova.institute [Ukrainian] |
References (International): | 1. Blodgett, A., Schneider, N. (2018). Semantic Supersenses for English Possessives. Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki (Japan). 2. Danielewiczowa M. (2017). Polskie nazwy czynności i wytworów czynności w świetle walencji motywujących je czasowników /Polish Action Nominals in the Light of the Valency of the Corresponding Verbs. Prace Filologiczne, tom LXX, p. 143–157. 3. de Marneffe M.-C., Dozat T., Silveira N., Haverinen K., Ginter F., Nivre J., and Manning Ch, D. (2014). Universal Stanford Dependencies: A cross-linguistic typology. LREC. 4. Dozat, T., Qi, P., Manning Ch.-D. (2017). Stanford’s Graph-based Neural Dependency Parser at the CoNLL 2017 Shared Task. Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Vancouver, Canada, August 3–4, 2017, p. 20–30. 5. Erjavec T. (2009). MULTEXT-East Morphosyntactic Specifications: Towards Version 4. Proc. of the MONDILEX Third Open Workshop, Bratislava, Slovakia, 15–16 April, 2009. 6. Kocková, J. (2017). Substantiva mezi slovesem a jménem Substantiva na -ní (-tí), -nie (-tie) v češtině a ruštině ve světle paralelního korpusu. Časopis pro Moderní Filologii 99, Č. 1, p. 55–64. 7. Kotsyba N. (2013). Overview of the Ukrainian language resources within the multilingual European MULTEXT-East project, v. 4. Visnyk Natsionalnoho universytetu "Lvivska politekhnika". No 770: Informatsiini systemy ta merezhi. p. 122–129. http://science.lp.edu.ua/sisn/vol-770-no-2013-1 8. Kotsyba, N. (2014). How light are aspectual meanings?: A study of the relation between light verbs and lexical aspects in Ukrainian. Robering, K. (ed.) Events, Arguments, and Aspects. Topics in the Semantics of Verbs. Studies in Language Companion Series, vol. 152, pp. 261–300. 9. Kotsyba N. (2014). Using Polish Wordnet for Predicting Semantic Roles for the Valency Dictionary of Polish Verbs. Przepiórkowski A., Ogrodniczuk M. (eds) Advances in Natural Language Processing. NLP 2014. Lecture Notes in Computer Science, vol 8686. Springer International Publishing Switzerland, p. 202–207. https://link.springer.com/chapter/10.1007/978-3-319-10888-9_21 10. Kotsyba, N., Moskalevskyi, B. (2018). An essential infrastructure of Ukrainian language resources and its possible applications. SlaviCorp 2018, 24–26 September 2018, Charles University, Prague, Book of Abstracts. https://slavicorp.ff.cuni.cz/wp-content/uploads/sites/144/2018/09/ SlaviCorp2018_Book_of_Abstracts.pdf 11. Kotsyba, N., Moskalevskyi, B. (2018). Syntactic and morphological ambiguity of the deverbal nouns’ arguments in Ukrainian and ways of its resolution. Prace Filologiczne, vol. VXXII, Warsaw, p. 193–210. 12. Levin, B. and Rappaport Hovav M. (2005). Argument realization. Cambridge: Cambridge University Press. 13. Panevová, J. (2017). Od valence slovesa k valenci substantiv a adjektiv/From Valency of Verbs to Valency of Nouns and Adjectives. Prace Filologiczne, vol. LXX, Warsaw, p. 59–72. 14. Pazelskaya, A. (2007). Argument structure in Russian deverbal nouns in -nie. Studies in Formal Slavic Linguistics, ed. Franc Maršič and Rok Zeucer, p. 255–272. Peter Lang. 15. Petrov S., Das D., and McDonald R. (2012). A universal part-of-speech tagset. LREC. 16. Pustejovsky, J. (1995). The Generative Lexicon, MIT Press, Cambridge, MA. 17. Straka M., Hajič J., Straková J. (2016). UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia, May 2016. 18. Zeman, D. (2008). Reusable Tagset Conversion Using Tagset Drivers. LREC. 19. Vykhovanets I., Horodenska K. Theoretical Morphology of Ukrainian Language: Academic Grammar of Ukr. Lang. Kyiv: Pulsary, 2004. [Ukrainian] 20. Kobozeva I.M. About Possessivity in Russian: Possessive Predicates and the Genitive. Acta Linguistica Petropolitana. Scientific Papers of Institute for Linguistic Research RAS. T. XI. P. 1. Categories of Noun and Verb in the System of Functional Grammar. Nauka, S. Petersburg, p. 249–271, 2015. [Russian] 21. Kurylo, O. Considerations about the Modern Ukrainian Literary Language. Solomiya Pavlychko’s Publishing House "Osnovy", Kyiv, 2004 (reprint from Knyhospilka, 1925). [Ukrainian] 22. Pazelskaya A. G., Tatevosov S. G., The Deverbal Noun and the Structure of the Russian Verb. V. A. Plungian, S. G. Tatevosov (ed.), Research on Verbal Derivation. Languages of the Slavic Culture. Moscow, p. 348–380, 2008. [Russian] 23. Pchelintseva, J. E. The Grammatical Status and Aspectuality of Deverbal Nouns of Action in Ukrainian (on the background of Russian and Polish). Izvestiya VGPU. Philological Studies. Volgograd, 2015. [Russian] 24. Syniavskyi O. N. The Norms of the Ukrainian Literary Language. Ukrainian Publisher, 2nd edition, Lviv, 1941. [Ukrainian] 25. Syntactic corpus search interface. Retrieved March 19, 2019, from http://www.mova.info/ syntaxis_search.aspx. [Ukrainian] 26. SUM – Dictionary of Ukrainian language in 11 volumes. "Naukova Dumka", Kyiv, 1970–1980. Digital version of SUM. Retrieved March 19, 2019, from http://sum.in.ua/. [Ukrainian] 27. IU Gold – Syntactic Corpus of the Ukrainian Language (Gold Standard Treebank of Ukrainian). Institute for Ukrainian, NGO, 2018. Retrieved March 19, 2019, from https://mova.institute [Ukrainian] |
Content type: | Article |
Appears in Collections: | Вісник Національного університету "Львівська політехніка". Інформаційні системи та мережі. – 2019. – Випуск 5 |
File | Description | Size | Format | |
---|---|---|---|---|
2019n5_Kotsyba_N-Using_transitivity_information_101-115.pdf | 1.13 MB | Adobe PDF | View/Open | |
2019n5_Kotsyba_N-Using_transitivity_information_101-115__COVER.png | 533.26 kB | image/png | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.