Skip navigation

putin IS MURDERER

Please use this identifier to cite or link to this item: https://oldena.lpnu.ua/handle/ntb/42952
Title: Статистика появи слів у природних і рандомних текстах
Other Titles: Statistics of words occurrences in natural and random texts
Authors: Кушнір, О. С.
Альфавіцький, М. А.
Дзіковський, В. Є.
Іваніцький, Л. Б.
Рихлюк, С. В.
Сокульський, В. І.
Affiliation: Львівський національний університет імені Івана Франка
Природничий коледж Львівського національного університету імені Івана Франка
Bibliographic description (Ukraine): Статистика появи слів у природних і рандомних текстах / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, С. В. Рихлюк, В. І. Сокульський // Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі. — Львів : Видавництво Львівської політехніки, 2017. — № 872. — С. 162–178.
Bibliographic description (International): Statistics of words occurrences in natural and random texts / O. S. Kushnir, M. A. Alfavitskyi, V. Ye. Dzikovskyi, L. B. Ivanitskyi, S. V. Rykhliuk, V. I. Sokulskyi // Visnyk Natsionalnoho universytetu "Lvivska politekhnika". Serie: Informatsiini systemy ta merezhi. — Lviv : Vydavnytstvo Lvivskoi politekhniky, 2017. — No 872. — P. 162–178.
Is part of: Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі, 872, 2017
Journal/Collection: Вісник Національного університету «Львівська політехніка». Серія: Інформаційні системи та мережі
Issue: 872
Issue Date: 28-Mar-2017
Publisher: Видавництво Львівської політехніки
Place of the edition/event: Львів
UDC: 004.6
004.9
538.9
Keywords: природні тексти
рандомні тексти
статистичні закони лінгвістики
словник
розподіли з важким хвостом
natural texts
random texts
statistical laws of linguistics
vocabulary
fattailed distributions
Number of pages: 17
Page range: 162-178
Start page: 162
End page: 178
Abstract: Експериментально досліджено статистичні розподіли, що описують появу слів у кількох природних текстах, а також похідних від них рандомних текстах. Показано, що масова функція ймовірності відповідних інтервалів між словами є практично однаковою для природних і рандомних текстів і виявляє важкий вейбулівський хвіст, що не узгоджується із суто стохастичним характером цих інтервалів. Помітні відхилення динаміки зростання словника природних і рандомних текстів від динаміки, передбаченої степеневим законом Гіпса, а також кросовер у словнику одного з природних текстів підтверджують потребу в узагальненні цього закону.
We study experimentally statistical distributions that describe the appearance of words in a number of natural texts, as well as in the random texts derived on their basis. It is shown that the probability mass function of the respective intervals between words is practically the same for the natural and random texts and manifests a fat tail, which is inconsistent with purely stochastic character of those intervals. Significant deviations of the vocabulary growth dynamics found for the natural and random texts from the dynamics predicted by the power Heaps’ law, together with a crossover found in the dictionary of one of the natural texts, confirm a need in generalization of that law.
URI: https://ena.lpnu.ua/handle/ntb/42952
Copyright owner: © Національний університет „Львівська політехніка“, 2017
© Кушнір О. С., Альфавіцький М. А., Дзіковський В. Є., Іваніцький Л. Б., Рихлюк С. В., Сокульський В. І., 2017
URL for reference material: http://arxiv.org/abs/1404.1461
References (Ukraine): 1. Baek S. K. Zipf’s law unzipped / S. K. Baek, S. Bernhardsson, P. Minnhagen // New J. Phys. –2011. – Vol. 13. – 043004 (21 pp.).
2. Adamic L. Unzipping Zipf’s law / L. Adamic // Nature. – 2011. – Vol. 474. – P. 164–165.
3. Kornai A. How many words are there? / A. Kornai // Glottometrics. – 2002. –Vol. 4. – P. 60–85.
4. van Leijenhorst D. C. A formal derivation of Heaps’ law / D. C. van Leijenhorst, Th. P. van der Weide // Inf. Sci. – 2005. – Vol. 170. – P. 263–272.
5. Gerlach M. Stochastic model for the vocabulary growth in natural languages / M. Gerlach, E. G. Altmann // Phys. Rev. X. – 2013. – Vol. 3. –021006 (10 pp.).
6. Bernhardsson S. The meta book and size-dependent properties of written language /S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen // New J. Phys. – 2009. – Vol. 11. – 203015(15 pp.).
7. Bernhardsson S. Size-dependent word frequencies and translational invariance of books / S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen // Physica A. – 2010. – Vol. 389. – P. 330–341.
8. Lü L. Zipf’s law leads to Heaps’ law: Analyzing their relation in finite-size systems / L. Lü, Z.-K. Zhang, T. Zhou // PLOS ONE. – 2010. – Vol. 5. – e14139 (11 pp.).
9. Yan X.-Y. Comment on ‘A scaling law beyond Zipf’s law and its relation to Heaps’ law’ [Electronic resource] / X.-Y. Yan, P. Minnhagen. – 2014. – Access mode: http://arxiv.org/abs/1404.1461. – Title from the screen.
10. Lü L. Deviation of Zipf’s and Heaps’ laws in human languages with limited dictionary sizes / L. Lü, Z.-K. Zhang, T. Zhou // Sci. Rep. –2013. – Vol. 3. – 1082 (7 pp.).
11. Font-Clos F. A scaling law beyond Zipf’s law and its relation to Heaps’ law / F. Font-Clos, G. Boleda, A. Corral // New J. Phys. – 2013. – Vol. 15. – 093033 (16 pp.).
12. Bochkarev V. V. Deviations in the Zipf and Heaps laws in natural languages / V. V. Bochkarev, E. Yu. Lerner, A. V. Shevlyakova // J. Phys.: Conf. Ser. – 2014. – Vol. 490. – 012009 (4 pp.).
13. Font- Clos F. Log-log convexity of type-token growth in Zipf’s systems / F. Font-Clos, A. Corral // Phys. Rev. Lett. – 2015. – Vol. 114. – 238701 (5 pp.).
14. Egghe L. Untangling Herdan’s law and Heaps’ law: Mathematical and informetric arguments / L. Egghe // J. Amer. Soc. Inf. Sci. Technol. – 2007. – Vol. 58. – P. 702–709.
15. Ebeling W. Long-range correlations between letters and sentences in texts / W. Ebeling, A. Neiman // Physica A. – 1995. – Vol. 215. – P. 233–241.
16. Hierarchical structures induce long-range dynamical correlations in written texts / E. Alvarez-Lacalle, B. Dorow, J.-P. Eckmann, E. Moses // Proc. Nat. Acad. Sci. (USA). – 2006. – Vol. 103. – P. 7956–7961.
17. Altmann E. G. Beyond word frequency: Bursts, lulls, and scaling in the temporal distributions of words / E. G. Altmann, J. B. Pierrehumbert, A. E. Motter // PLOS ONE. – 2009. – Vol. 4. – e7678 (7 pp.).
18. Altmann E. G. On the origin of longrange correlations in texts / E. G. Altmann, G. Cristadoro, M. D. Esposti // Proc. Nat. Acad. Sci. (USA). –2012. – Vol. 109. – P. 11582–11587.
19. Флуктуації частоти літер і знаків в українських і російських текстах / О. С. Кушнір, А. М. Байовський, Л. Б. Іваніцький, С. В. Рихлюк // Матер. VII Укр.-польськ. наук.-практ. конф. “Електрон. та інф. технол.”. – Львів : ЛНУ, 2015. – С. 76–79.
20. Статистичний розподіл і флуктуації довжин речень в українському, російському і англійському корпусах / О. С. Кушнір, О. С. Брик, В. Є. Дзіковський, Л. Б. Іваніцький, І. М. Катеринчук, Я. П. Кісь // Вісн. нац. ун-ту “Львівська політехніка”. Сер. “Інф. сист. та мережі”. – 2016. – № 854. –С. 228–239.
21. Eliazar I. The growth statistics of Zipfian ensembles: Beyond Heaps’ law / I. Eliazar // Physica A. – 2011. – Vol. 390. – P. 3189–3203.
22. Simon H. On a class of skew distribution functions / H. Simon // Biometrika. – 1955. – Vol. 42. – P. 425–440.
23. Barabási A.-L. The origin of bursts and heavy tails in human dynamics / A.-L. Barabási // Nature. – 2005. – Vol. 435. – P. 207–211.
24. Chen Y. S. Exponential recurrence distribution in the Simon-Yule model of text / Y. S. Chen // Cybernetics and Systems. – 1988. – Vol. 19. – P. 521–545.
25. Zanette D. H. Dynamics of text generation with realistic Zipf distribution / D. H. Zanette, M. A. Montemurro // J. Quant. Linguist. – 2005. – Vol. 12. – P. 29–40.
26. Keyword detection in natural languages and DNA / M. Ortuño, P. Carpena, P. Bernaola-Galván, E. Muñoz, A. M. Somoza // Europhys. Lett. – 2002. – Vol. 57. – P. 759–764.
27. Herrera J. P. Statistical keyword detection in literary corpora / J. P. Herrera, P. A. Pury // Eur. Phys. J. – 2008. – Vol. 63. – P. 135–146.
28. Level statistics of words: Finding keywords in literary texts and symbolic sequences / P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver // Phys. Rev. E. – 2009. – Vol. 79. – 035102(R) (4 pp.).
29. Про статистику відстаней між словами в тексті та проблему розпізнавання змістових слів / О. С. Кушнір, А. В. Волоско, Л. Б. Іваніцький, С. В. Рихлюк // Елект- роніка та інф. технол. – 2016. – Вип. 6. – С. 155–164.
30. До пояснення механізму явища “спалахів” у статистиці лінгвістичних елементів: часи очікування буквених n-грам / О. С. Кушнір, М. А. Альфавіцький, В. Є. Дзіковський, Л. Б. Іваніцький, І. М. Катеринчук, О. І. Шарга // Матер. VIII Укр.-польськ. наук.-практ. конф. “Електрон. та інф. технол.”. – Львів : ЛНУ, 2016. – С. 84–89.
31. The effect of long-term correlations on the return periods of rare events / A. Bunde, J. F. Eichner, S. Havlin, J. W. Kantelhardt // Physica A. – 2003. – Vol. 330. – P. 1–7.
32. Vajna S. Modelling bursty time series / S. Vajna, B. Tóth, J. Kertész // New J. Phys. – 2013. – Vol. 15. – 103023 (17 pp.).
33. Goh K.-I. Burstiness and memory in complex systems / K.-I. Goh, A.-L. Barabási // Europhys. Lett. – 2008. – Vol. 81. –48002 (5 pp.).
34. Altmann E. G. Recurrence time analysis, long-term correlations, and extreme events / E. G. Altmann, H. Kantz // Phys. Rev. E. – 2005. – Vol. 71. – 056106 (9 pp.).
35. Statistics of return intervals in long-term correlated records / J. F. Eichner, J. W. Kantelhardt, A. Bunde, S. Havlin // Phys. Rev. E. – 2007. – Vol. 75. – 011128 (9 pp.).
36. Cattuto C. A Yule-Simon process with memory / C. Cattuto, V. Loreto, V. D. P. Servedio // Europhys. Lett. – 2006. – Vol. 76. – P. 208–214.
37. Ferrer i Cancho R. Two regimes in the frequency of words and the origins of complex lexicons: Zipf’s law revisited / R. Ferrer i Cancho, R. V. Solé // J. Quant. Linguist. – 2001. – Vol. 8. – P. 165–173.
38. Santhanam M. S. Return interval distribution of extreme events and long-term memory / M. S. Santhanam, H. Kantz // Phys. Rev. E. – 2008. – Vol. 78. – 051113 (9 pp.).
39. Long-term memory: A natural mechanism for the clustering of extreme events and anomalous residual times in climate records / A. Bunde, J. F. Eichner, J. W. Kantelhardt, S. Havlin // Phys. Rev. Lett. – 2005. – Vol. 94. – 048701 (4 pp.).
40. Gerlach M. Scaling laws and fluctuations in the statistics of word frequencies / M. Gerlach, E. G. Altmann // New J. Phys. – 2014. – Vol. 16. – 113010 (19 pp.).
41. Improving statistical keyword detection in short texts: Entropic and clustering approaches / C. Carretero-Campos, P. Bernaola-Galván, P. Ch. Ivanov, P. Carpena // Phys. Rev. E. – 2012. – Vol. 85. – 011139 (6 pp.).
42. Moreno-Sánchez I. Large-scale analysis of Zipf’s law in English texts / I. Moreno-Sánchez, F. Font-Clos, A. Corral // PLOS ONE. – 2016. – Vol. 11. – e0147073(19 pp.).
43. Kushnir O. S. New text-length scaling effects in statistics of natural texts / O. S. Kushnir, L. B. Ivanitskyi, S. V. Rykhlyuk // Матер. VII Укр.-польськ. наук.-практ. конф. “Електрон. та інф.технол.”. – Львів : ЛНУ, 2015. – P. 80–83.
44. Ferrer i Cancho R. Zipf’s law from a communicative phase transition / R. Ferrer i Cancho // Eur. Phys. J.: B. – 2005. – Vol. 47. – P. 449–457.
45. Long-range correlations in nucleotide sequences / C.-K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H. E. Stanley // Nature. – 1992. – Vol. 356. – P. 168–170.
References (International): 1. Baek S. K. Zipf’s law unzipped, S. K. Baek, S. Bernhardsson, P. Minnhagen, New J. Phys. –2011, Vol. 13, 043004 (21 pp.).
2. Adamic L. Unzipping Zipf’s law, L. Adamic, Nature, 2011, Vol. 474, P. 164–165.
3. Kornai A. How many words are there?, A. Kornai, Glottometrics, 2002. –Vol. 4, P. 60–85.
4. van Leijenhorst D. C. A formal derivation of Heaps’ law, D. C. van Leijenhorst, Th. P. van der Weide, Inf. Sci, 2005, Vol. 170, P. 263–272.
5. Gerlach M. Stochastic model for the vocabulary growth in natural languages, M. Gerlach, E. G. Altmann, Phys. Rev. X, 2013, Vol. 3. –021006 (10 pp.).
6. Bernhardsson S. The meta book and size-dependent properties of written language /S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen, New J. Phys, 2009, Vol. 11, 203015(15 pp.).
7. Bernhardsson S. Size-dependent word frequencies and translational invariance of books, S. Bernhardsson, L. E. Correa da Rocha, P. Minnhagen, Physica A, 2010, Vol. 389, P. 330–341.
8. Lü L. Zipf’s law leads to Heaps’ law: Analyzing their relation in finite-size systems, L. Lü, Z.-K. Zhang, T. Zhou, PLOS ONE, 2010, Vol. 5, e14139 (11 pp.).
9. Yan X.-Y. Comment on ‘A scaling law beyond Zipf’s law and its relation to Heaps’ law’ [Electronic resource], X.-Y. Yan, P. Minnhagen, 2014, Access mode: http://arxiv.org/abs/1404.1461, Title from the screen.
10. Lü L. Deviation of Zipf’s and Heaps’ laws in human languages with limited dictionary sizes, L. Lü, Z.-K. Zhang, T. Zhou, Sci. Rep. –2013, Vol. 3, 1082 (7 pp.).
11. Font-Clos F. A scaling law beyond Zipf’s law and its relation to Heaps’ law, F. Font-Clos, G. Boleda, A. Corral, New J. Phys, 2013, Vol. 15, 093033 (16 pp.).
12. Bochkarev V. V. Deviations in the Zipf and Heaps laws in natural languages, V. V. Bochkarev, E. Yu. Lerner, A. V. Shevlyakova, J. Phys., Conf. Ser, 2014, Vol. 490, 012009 (4 pp.).
13. Font- Clos F. Log-log convexity of type-token growth in Zipf’s systems, F. Font-Clos, A. Corral, Phys. Rev. Lett, 2015, Vol. 114, 238701 (5 pp.).
14. Egghe L. Untangling Herdan’s law and Heaps’ law: Mathematical and informetric arguments, L. Egghe, J. Amer. Soc. Inf. Sci. Technol, 2007, Vol. 58, P. 702–709.
15. Ebeling W. Long-range correlations between letters and sentences in texts, W. Ebeling, A. Neiman, Physica A, 1995, Vol. 215, P. 233–241.
16. Hierarchical structures induce long-range dynamical correlations in written texts, E. Alvarez-Lacalle, B. Dorow, J.-P. Eckmann, E. Moses, Proc. Nat. Acad. Sci. (USA), 2006, Vol. 103, P. 7956–7961.
17. Altmann E. G. Beyond word frequency: Bursts, lulls, and scaling in the temporal distributions of words, E. G. Altmann, J. B. Pierrehumbert, A. E. Motter, PLOS ONE, 2009, Vol. 4, e7678 (7 pp.).
18. Altmann E. G. On the origin of longrange correlations in texts, E. G. Altmann, G. Cristadoro, M. D. Esposti, Proc. Nat. Acad. Sci. (USA). –2012, Vol. 109, P. 11582–11587.
19. Fluktuatsii chastoty liter i znakiv v ukrainskykh i rosiiskykh tekstakh, O. S. Kushnir, A. M. Baiovskyi, L. B. Ivanitskyi, S. V. Rykhliuk, Mater. VII Ukr.-polsk. nauk.-prakt. konf. "Elektron. ta inf. tekhnol.", Lviv : LNU, 2015, P. 76–79.
20. Statystychnyi rozpodil i fluktuatsii dovzhyn rechen v ukrainskomu, rosiiskomu i anhliiskomu korpusakh, O. S. Kushnir, O. S. Bryk, V. Ye. Dzikovskyi, L. B. Ivanitskyi, I. M. Katerynchuk, Ya. P. Kis, Visn. nats. un-tu "Lvivska politekhnika". Ser. "Inf. syst. ta merezhi", 2016, No 854. –P. 228–239.
21. Eliazar I. The growth statistics of Zipfian ensembles: Beyond Heaps’ law, I. Eliazar, Physica A, 2011, Vol. 390, P. 3189–3203.
22. Simon H. On a class of skew distribution functions, H. Simon, Biometrika, 1955, Vol. 42, P. 425–440.
23. Barabási A.-L. The origin of bursts and heavy tails in human dynamics, A.-L. Barabási, Nature, 2005, Vol. 435, P. 207–211.
24. Chen Y. S. Exponential recurrence distribution in the Simon-Yule model of text, Y. S. Chen, Cybernetics and Systems, 1988, Vol. 19, P. 521–545.
25. Zanette D. H. Dynamics of text generation with realistic Zipf distribution, D. H. Zanette, M. A. Montemurro, J. Quant. Linguist, 2005, Vol. 12, P. 29–40.
26. Keyword detection in natural languages and DNA, M. Ortuño, P. Carpena, P. Bernaola-Galván, E. Muñoz, A. M. Somoza, Europhys. Lett, 2002, Vol. 57, P. 759–764.
27. Herrera J. P. Statistical keyword detection in literary corpora, J. P. Herrera, P. A. Pury, Eur. Phys. J, 2008, Vol. 63, P. 135–146.
28. Level statistics of words: Finding keywords in literary texts and symbolic sequences, P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver, Phys. Rev. E, 2009, Vol. 79, 035102(R) (4 pp.).
29. Pro statystyku vidstanei mizh slovamy v teksti ta problemu rozpiznavannia zmistovykh sliv, O. S. Kushnir, A. V. Volosko, L. B. Ivanitskyi, S. V. Rykhliuk, Elekt- ronika ta inf. tekhnol, 2016, Iss. 6, P. 155–164.
30. Do poiasnennia mekhanizmu yavyshcha "spalakhiv" u statystytsi linhvistychnykh elementiv: chasy ochikuvannia bukvenykh n-hram, O. S. Kushnir, M. A. Alfavitskyi, V. Ye. Dzikovskyi, L. B. Ivanitskyi, I. M. Katerynchuk, O. I. Sharha, Mater. VIII Ukr.-polsk. nauk.-prakt. konf. "Elektron. ta inf. tekhnol.", Lviv : LNU, 2016, P. 84–89.
31. The effect of long-term correlations on the return periods of rare events, A. Bunde, J. F. Eichner, S. Havlin, J. W. Kantelhardt, Physica A, 2003, Vol. 330, P. 1–7.
32. Vajna S. Modelling bursty time series, S. Vajna, B. Tóth, J. Kertész, New J. Phys, 2013, Vol. 15, 103023 (17 pp.).
33. Goh K.-I. Burstiness and memory in complex systems, K.-I. Goh, A.-L. Barabási, Europhys. Lett, 2008, Vol. 81. –48002 (5 pp.).
34. Altmann E. G. Recurrence time analysis, long-term correlations, and extreme events, E. G. Altmann, H. Kantz, Phys. Rev. E, 2005, Vol. 71, 056106 (9 pp.).
35. Statistics of return intervals in long-term correlated records, J. F. Eichner, J. W. Kantelhardt, A. Bunde, S. Havlin, Phys. Rev. E, 2007, Vol. 75, 011128 (9 pp.).
36. Cattuto C. A Yule-Simon process with memory, C. Cattuto, V. Loreto, V. D. P. Servedio, Europhys. Lett, 2006, Vol. 76, P. 208–214.
37. Ferrer i Cancho R. Two regimes in the frequency of words and the origins of complex lexicons: Zipf’s law revisited, R. Ferrer i Cancho, R. V. Solé, J. Quant. Linguist, 2001, Vol. 8, P. 165–173.
38. Santhanam M. S. Return interval distribution of extreme events and long-term memory, M. S. Santhanam, H. Kantz, Phys. Rev. E, 2008, Vol. 78, 051113 (9 pp.).
39. Long-term memory: A natural mechanism for the clustering of extreme events and anomalous residual times in climate records, A. Bunde, J. F. Eichner, J. W. Kantelhardt, S. Havlin, Phys. Rev. Lett, 2005, Vol. 94, 048701 (4 pp.).
40. Gerlach M. Scaling laws and fluctuations in the statistics of word frequencies, M. Gerlach, E. G. Altmann, New J. Phys, 2014, Vol. 16, 113010 (19 pp.).
41. Improving statistical keyword detection in short texts: Entropic and clustering approaches, C. Carretero-Campos, P. Bernaola-Galván, P. Ch. Ivanov, P. Carpena, Phys. Rev. E, 2012, Vol. 85, 011139 (6 pp.).
42. Moreno-Sánchez I. Large-scale analysis of Zipf’s law in English texts, I. Moreno-Sánchez, F. Font-Clos, A. Corral, PLOS ONE, 2016, Vol. 11, e0147073(19 pp.).
43. Kushnir O. S. New text-length scaling effects in statistics of natural texts, O. S. Kushnir, L. B. Ivanitskyi, S. V. Rykhlyuk, Mater. VII Ukr.-polsk. nauk.-prakt. konf. "Elektron. ta inf.tekhnol.", Lviv : LNU, 2015, P. 80–83.
44. Ferrer i Cancho R. Zipf’s law from a communicative phase transition, R. Ferrer i Cancho, Eur. Phys. J., B, 2005, Vol. 47, P. 449–457.
45. Long-range correlations in nucleotide sequences, C.-K. Peng, S. V. Buldyrev, A. L. Goldberger, S. Havlin, F. Sciortino, M. Simons, H. E. Stanley, Nature, 1992, Vol. 356, P. 168–170.
Content type: Article
Appears in Collections:Інформаційні системи та мережі. – 2017. – №872

Files in This Item:
File Description SizeFormat 
2017n872_Kushnir_O_S-Statistics_of_words_occurrences_162-178.pdf2.62 MBAdobe PDFView/Open
2017n872_Kushnir_O_S-Statistics_of_words_occurrences_162-178__COVER.png428.33 kBimage/pngView/Open
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.