Eki 132013
 

Çalıkuşu, Alice ve Sabahattin Ali Öykülerinde Kelime Sıklıklarının Karşılaştırılması

Türkçe dilinde en fazla tekrarlanan, kullanım sıklığı en fazla sözcüklerin genel olarak saptanması için -gerekiyorsa- binlerce kitabın, filmin, gazetelerin, günlük konuşma örneklerinin taranması lazım.

Buna ek olarak politika, sanat, bilim gibi temel konularda ayrı saptamalar da yapılabilir. Böyle bir çalışmanın gerçekleştirilebilmesi için büyük bir kaynağa gerek var. Ama, mutlaka yapılması gerektiğine inanıyorum.

Benim yaptığım çalışmalar, amatörce bir ilgiden öteye değil. Biraz da, diğer dillerde yapılmış pek çok çalışmanın Türkçe için neden yapılmadığına ilişkin bir tepki var. Oysa Türkçe, dünyada en çok kullanılan 5. dil olarak sıralanıyor.

Genel araştırmaların ötesinde, rastgele yapılan çalışmalarda bile bazı sözcüklerin ortak olarak “fazla” yinelendiği görülüyor. “bir” sözcüğü bu konuda tartışmasız başı çeken ilk sözcük. “bu” ve “ve” sözcükleri de çok sık yineleniyor.

Aşağıdaki tabloda 3 esere ait en çok yinelenen ilk 30 sözcüğü listeledim. Her üç listede de yer alan sözcükler, koyu renkte. 30 sözcükten 19 tanesi her üç eserde de kullanılmış. Dolayısıyla her üç gruptaki en çok kullanılan ilk 30 sözcüğün  %63’ü birbirinin tıpatıp aynı.

Bu durumda, yabancılar için Türkçe eğitiminde, en sık kullanılan sözcüklerin en başta öğretilmesi büyük bir kolaylık sağlayabilir demektir.

Listemiz şöyle:

Çalıkuşu Alice Sabahattin Ali
bir bir bir
bu ve ve
gibi dedi bu
ne alice gibi
o bu o
ben diye kadar
kadar o sonra
fakat kadar de
için de için
de ne ne
ve da fakat
ki daha da
sonra hiç daha
beni çok ben
da ki zaman
daha sonra dedi
bana için bile
feride gibi iki
dedi şey her
diye başladı şey
şey ama hiç
kamran fakat ki
benim kendi diye
öyle şekilde vardı
dedim düşündü biraz
çok ben bana
var doğru çok
hanım küçük onu
değil biraz beni
bey her yalnız

 

 Ahmet Aksoy

 

Eki 092013
 

Çalıkuşu Romanı Üzerine Sayısal Bir Çözümleme

Reşat Nuri Güntekin’in sevilen eseri “Çalıkuşu” üzerine sayısal bazı çalışmalar yaptım. Benzer çalışmaları başka eserler için de tekrarlayacağım.

Çalıkuşu romanı, 90323 kelime içeriyor. Bu sayıya metin içinde tekrarlanan yazar adı, kitap adı gibi unsurlar dahil değil. Tekil sözcük sayısı ise 20308. Bu da gösteriyor ki, ortalama sözcük yinelenme oranı yaklaşık  4.5.  Roman, 657 bin karakterden oluşuyor. Ortalama sözcük uzunluğu, 7.27 harf.

Sayım sırasında inceltme işaretlerini dikkate almadım. İnceltme işaretleri içeren ve içermeyen eşdeğer kelimeleri aynı kabul ettim.

Bu sayısal değerlere ulaşmamı sağlayan bilgisayar programını kendim yazdım. Kullandığım yazılım dili Delphi 7.

Eserin Adı: Çalıkuşu

Eserin Yazarı: Reşat Nuri Güntekin

Eserdeki toplam harf sayısı: 657,704

Eserdeki kelime sayısı: 90,323

Tekil kelime sayısı: 20,308

En çok kullanılan 100 sözcük ve kullanım sayıları (kullanım sıklığı sırasına göre )

(Aşağıdaki satırlarda sol taraftaki sayılar, aynı satırın sağ tarafındaki sözcüğün eser içinde kaç kez kullanılmış olduğunu göstermektedir. Sözcükler, köklerine ayrılmadan yapım ve çekim ekleriyle birlikte ele alınmıştır. Kısa bir süre sonra kök değerlendirmelerini de çalışmalarımıza ekleyeceğiz.)

  1. 03626: bir
  2. 01385: bu
  3. 00824: gibi
  4. 00770: ne
  5. 00698: o
  6. 00615: ben
  7. 00590: kadar
  8. 00565: fakat
  9. 00552: için
  10. 00547: de
  11. 00535: ve
  12. 00477: ki
  13. 00472: sonra
  14. 00443: beni
  15. 00414: da
  16. 00399: daha
  17. 00392: bana
  18. 00374: feride
  19. 00337: dedi
  20. 00327: diye
  21. 00310: şey
  22. 00307: kamran
  23. 00285: benim
  24. 00274: öyle
  25. 00269: dedim
  26. 00251: çok
  27. 00250: var
  28. 00246: hanım
  29. 00240: değil
  30. 00229: bey
  31. 00223: iki
  32. 00221: biraz
  33. 00216: içinde
  34. 00208: gün
  35. 00207: küçük
  36. 00206: sen
  37. 00201: mi
  38. 00194: ile
  39. 00191: onu
  40. 00181: güzel
  41. 00177: artık
  42. 00174: böyle
  43. 00172: vakit
  44. 00170: başka
  45. 00165: her
  46. 00163: onun
  47. 00161: yalnız
  48. 00160: munise
  49. 00159: zaman
  50. 00158: yok
  51. 00150: yine
  52. 00149: müjgan
  53. 00149: şimdi
  54. 00148: nasıl
  55. 00145: yavaş
  56. 00143: kız
  57. 00141: hiç
  58. 00136: vardı
  59. 00136: tekrar
  60. 00136: ihtiyar
  61. 00133: büyük
  62. 00132: ya
  63. 00131: iyi
  64. 00130: kendi
  65. 00130: birdenbire
  66. 00128: kızım
  67. 00127: birkaç
  68. 00126: sana
  69. 00126: kalfa
  70. 00126: hemen
  71. 00123: pek
  72. 00123: nin
  73. 00123: bile
  74. 00121: etti
  75. 00119: kadın
  76. 00118: halde
  77. 00118: en
  78. 00117: çocuk
  79. 00115: gece
  80. 00113: on
  81. 00113: mı
  82. 00113: ama
  83. 00112: bütün
  84. 00111: seni
  85. 00111: ona
  86. 00111: kendimi
  87. 00110: genç
  88. 00110: evvel
  89. 00108: beraber
  90. 00106: ın
  91. 00102: efendi
  92. 00102: doğru
  93. 00101: niçin
  94. 00101: a
  95. 00100: çalıkuşu
  96. 00099: hacı
  97. 00097: oldu
  98. 00097: geldi
  99. 00097: efendim
  100. 00096: ilk

Romanda kullanılan karakterlerin kullanım sayıları da aşağıda yer alıyor:

Toplam harf Sayısı= 657704

  1. 086613: (32) boşluk işareti
  2. 062184: a (97)
  3. 051223: e (101)
  4. 046277: i (105)
  5. 036625: r (114)
  6. 036516: n (110)
  7. 027816: l (108)
  8. 025618: ı (253)
  9. 025031: d (100)
  10. 024604: k (107)
  11. 024308: m (109)
  12. 018269: y (121)
  13. 017289: t (116)
  14. 016906: u (117)
  15. 015624: b (98)
  16. 014327: s (115)
  17. 011711: o (111)
  18. 010848: ü (252)
  19. 010369: , (44)
  20. 009680: . (46)
  21. 009190: ş (254)
  22. 008866: z (122)
  23. 006742: g (103)
  24. 006238: h (104)
  25. 006179: ç (231)
  26. 005646: ğ (240)
  27. 004832: v (118)
  28. 004811: c (99)
  29. 004244: ö (246)
  30. 003425: p (112)
  31. 003177: f (102)
  32. 002503: B (66)
  33. 001720: – (45)
  34. 001198: : (58)
  35. 001195: H (72)
  36. 001172: K (75)
  37. 001126: â (226)
  38. 001107: M (77)
  39. 001098: ‘ (39)
  40. 001042: ? (63)
  41. 000940: F (70)
  42. 000845: ” (34)
  43. 000827: A (65)
  44. 000802: S (83)
  45. 000589: N (78)
  46. 000546: O (79)
  47. 000521: Y (89)
  48. 000479: E (69)
  49. 000442: D (68)
  50. 000436: ! (33)
  51. 000394: G (71)
  52. 000360: Ç (199)
  53. 000260: T (84)
  54. 000251: ; (59)
  55. 000234: Z (90)
  56. 000210: İ (221)
  57. 000191: j (106)
  58. 000188: Ş (222)
  59. 000157: 2 (50)
  60. 000144: P (80)
  61. 000141: 1 (49)
  62. 000129: V (86)
  63. 000123: 3 (51)
  64. 000122:  (9)    Tab işareti
  65. 000109: Ö (214)
  66. 000100: R (82)
  67. 000098: C (67)
  68. 000067: 5 (53)
  69. 000065: 4 (52)
  70. 000063: 9 (57)
  71. 000059: 7 (55)
  72. 000059: 0 (48)
  73. 000058: U (85)
  74. 000054: 8 (56)
  75. 000054: Ü (220)
  76. 000053: 6 (54)
  77. 000044: I (73)
  78. 000028: û (251)
  79. 000023: L (76)
  80. 000018: _ (95)
  81. 000017: ) (41)
  82. 000015: ( (40)
  83. 000007: | (124)
  84. 000006: • (149)
  85. 000006: î (238)
  86. 000004: J (74)
  87. 000003: q (113)
  88. 000003: / (47)
  89. 000002: Â (194)
  90. 000002: ^ (94)
  91. 000002: [ (91)
  92. 000001: X (88)
  93. 000001: Q (81)
  94. 000001: > (62)
  95. 000001: ~ (126)
  96. 000001: ] (93)

(Harf listesindeki parantez içindeki sayılar, ilgili karakterin bilgisayar dilindeki sayısal karşılığıdır.)

Ahmet Aksoy