Anglicisms in The National Corpus of Polish: Assets and Limitations of Corpus Tools

Elżbieta Mańczak-Wohlfeld,

Alicja Witalisz

Abstrakt

Pomimo obiecujących badań automatyczna ekstrakcja anglicyzmów z wykorzystaniem narzędzi dostępnych w elektronicznych korpusach językowych wciąż nie jest możliwa. Mimo to wyszukiwarki korpusowe są nieodzownym narzędziem w systematycznej weryfikacji użycia anglicyzmów wyłuskanych metodą tradycyjną. W artykule omówiono zarówno funkcjonalność, jak i niedoskonałość narzędzi dostępnych w Narodowym Korpusie Języka Polskiego w odniesieniu do badania anglicyzmów różnych typów oraz ich z góry zdefiniowanych cech. Niedostatki narzędzi, związane głównie z semantyką zapożyczeń, zostały zilustrowane konkretnymi przykładami anglicyzmów.

ABSTRACT

While electronic corpora may not seem adequate sources for anglicisms retrieval, since despite promising attempts they still lack readily available and efficient tools for foreign loans identification, they are indispensable in a systematic verification of the use of preidentified loans. The article offers an assessment of an electronic corpus of Polish in reference to its usefulness for the study of English loans. Though we test a selected corpus and its tools, and use Polish anglicisms as exemplifications, the findings presented in the article pertain to other large corpora and anglicisms in other languages. Corpus tools allow for a multidimensional analysis of loans, yet they fail to meet the requirements of more in-depth analyses of anglicisms, related to their semantics and structure. The limitations of corpora tools will be illustrated with authentic attempted-but-failed corpus searches.

Słowa kluczowe: anglicyzm, Narodowy Korpus Języka Polskiego, zapożyczenie angielskie, adaptacja zapożyczeń / anglicism, National Corpus of Polish, English borrowing, loanword adaptation
References

Andersen Gisle (2005). Assessing algorithms for automatic extraction of anglicisms in Norwegian texts. In Proceedings of the International Conference of Corpus Linguistics CL2005. Birmingham: University of Birmingham. URL: https://www.birmingham.ac.uk/research/activity/corpus/publications/conference-archives/2005-conf-e-journal.aspx [accessed June 27, 2019].

Andersen Gisle (2011). Corpora as lexicographical basis the case of anglicisms in Norwegian. VARIENG. Studies in Variation, Contacts and Change in English 6. URL: http://www.helsinki.fi/varieng/series/volumes/06/andersen/ [accessed June 27, 2019].

Andersen Gisle (2012). Semi-automatic approaches to Anglicism detection in Norwegian corpus data. In The Anglicization of European Lexis, Cristiano Furiassi, Virginia Pulcini, Felix Rodríguez González (eds.), 111–130. Amsterdam/Philadelphia: John Benjamins.

Bko Mirosław (ed.) (2000). Inny ownik języka polskiego. Warszawa: Wydawnictwo Naukowe PWN.

Dubisz  Staniaw (ed.) (2003). ownik języka polskiego. Warszawa: Wydawnictwo Naukowe PWN.

Furiassi Cristiano (2008). What dictionaries leave out: new non-adapted Anglicisms in Italian. In Investigating English with corpora, Aurelia Martelli, Virginia Pulcini (eds.), 153–169. Monza: Polimetrica.

Furiassi Cristiano, Hofland Knut (2007). The retrieval of false anglicisms in newspaper texts. In Corpus linguistics 25 years on, Roberta Facchinetti (ed.), 347–363. Amsterdam: Rodopi.

Görlach Manfred (ed.) (2001). A Dictionary of European Anglicisms. A Usage Dictionary of Anglicisms in Sixteen European Languages. Oxford: Oxford University Press.

Kurcz Ida,  Lewicki Andrzej,  Sambor  Jadwiga,  Woronczak Jerzy  (1974–1977). ownictwo  współczesnego  języka  polskiego.  Listy  frekwencyjne.  Vols.  I–V.  Warszawa: PAN, Instytut Języka Polskiego.

Kurcz Ida, Lewicki Andrzej, Sambor  Jadwiga, Szafran Krzysztof, Woronczak Jerzy (1990). ownik frekwencyjny polszczyzny współczesnej. Vols. I–II. Kraków: PAN, Instytut Języka Polskiego.

Lewandowska-Tomaszczyk Barbara, Wilson Paul A. (2018). Sources of data and methodological foundations of a contrastive linguistic analysis of emotion concepts. Bulletin de la Societe Polonaise de Linguistique LXXIV, 157–189.

Losnegaard Gyri Smørdal, LYSE Gunn Inger (2012). A data-driven approach to anglicism identification in Norwegian. In Exploring newspaper language. Using the web to create and investigate a large corpus of modern Norwegian, Gisle Andersen (ed.), 131–154. Amsterdam/Philadelphia: John Benjamins.

Mańczak-Wohlfeld Elżbieta (2004) Does the spread of English constitute a threat to Polish? In Speaking from the Margin. Global English from the European Perspective, Anna Duszak, Urszula Okulska (eds.), 177–182. Frankfurt: Peter Lang.

Moon Rosamund (1998). Fixed Expressions and Idioms in English. Oxford: Clarendon Press.

Pędzik Piotr (2012). Wyszukiwarka PELCRA dla danych NKJP. Narodowy Korpus Języka Polskiego. Andrzej Przepiórkowski, Mirosław Bańko, Rafał Górski, Barbara Lewandowska-Tomaszczyk (eds.). Warszawa: Wydawnictwo Naukowe PWN.

Przepiórkowski Adam (2004). The IPI PAN Corpus. Preliminary Version. Warszawa: Institute of Computer Science, Polish Academy of Sciences.

Przepiórkowski   Adam,  BAŃKO  Mirosław,  Górski  Rafał,  Lewandowska-Tomaszczyk Barbara (eds.) (2012). Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN.

Przepiórkowski Adam, Górski Rafał, Łaziński Marek, Pęzik  Piotr (2017). Recent Developments in the National Corpus of Polish. [pdf. pp. I–VII. ED July 18, 2017]

Renouf Antoinette (2007). Corpus development 25 years on: from super-corpus to cyber-corpus. In Corpus linguistics 25 years on, Roberta Facchinetti (ed.), 27–49. Amsterdam/New York: Rodopi.

Schmid  Hans-Jörg (2010). Does frequency in text instantiate entrenchment in  the cognitive system? In Quantitative Methods in Cognitive Semantics: Corpus-Driven Approaches, Dylan Glynn,  Kerstin Fischer (eds.), 101–133.  Berlin/New York: Mouton de Gruyter.

Witalisz Alicja (2015). English Loan Translations in Polish: Word-formation Patterns, Lexicalization,  Idiomaticity  and  Institutionalization.  Frankfurt  am  Main: Peter Lang.

Witalisz Alicja (2018). Contact-induced right-headed interfixless N+N compounds in Polish. A corpus-based study. Studies in Polish Linguistics 13(1): 45–67.

Witalisz Alicja (2019). Polish faces of English acronyms and alphabetisms: An illustration of contact-induced linguistic diversity (Part 2), Studia Linguistica Universi- tatis Iagellonicae Cracoviensis 136(1): 51–65.

Electronic sources:

FD – The Free Dictionary. https://www.thefreedictionary.com

http://korpus.ia.uni.lodz.pl

http://pelcra.pl

http://korpus.pwn.pl

www.ijp-pan.krakow.pl 

Pierwotną wersją czasopisma jest wersja elektroniczna publikowana w internecie.

Czasopismo ukazuje się w sposób ciągły on-line