Kas 032013
 

Türkçe metinlerde sözcük ayırma algoritması

Türkçe metinlerdeki sözcükleri bilgisayar programları aracılığıyla birimlerine – sözcüklerine ayırmak oldukça kolay.

Temel olarak, harf olmayan tüm karakterler bir ayraç işlevi görür. Bunların başında da boşluk işareti yer alır. En sık kullanılan ayırma işareti, boşluk işaretidir.

İyi tanıdığımız bir başka ayırma işareti, tire (-) işaretidir. Tire işareti (-), satır sonunda kelime bölme işareti olarak kullanılır. Türkçe de bu işaret, heceler arasına konur. Heceler bölünmez.

Tire işareti, bazı terimlerde ikili sözcükleri birbirine bağlayıcı bir karaktere dönüşür: Türk-İslam, Hint-Avrupa gibi.

Aynı kesme işaretinin sözcük gövdesi ve eki arasında bağlantı işlevi gördüğü durumlar da mevcuttur: bab-ı ali, ab-ı kevser, arş-ı ala, devran-ı alem gibi. Bu terimler, arapça veya farsçadan aktarılmıştır. Son dönemlerde bu ayracın kullanım sıklığı oldukça azalmıştır. Aynı terimler babı ali, abı kevser, arşı ala, devranı alem şeklinde de yazılmaktadır.

Nokta (.), ünlem (!), soru işareti (?) gibi işaretler cümlelerin sonunda yer alırlar.

Tire (-), virgül (,), parantez işaretleri (), kesme (/), ters kesme (\), artı (+) gibi işaretler ise sözcüklerin arasına konur.

W, x, q gibi bazı harf işaretleri türkçe alfabede yer almadığı halde, ayraç işlevi görmez. Sadece içinde geçtiği sözcüğün yabancı bir sözcük olduğunu vurgular.

Kısacası, ister cümle sonunda, ister sözcükler arasında yer alsın, satır sonu (-) işareti dışındaki tüm işaretler sözcük sınırını belirler.

Bu durumda “ardışık harf grupları sözcükleri oluşturur” diyebiliriz.

Eklerin Durumu

Türkçede ekler, sözcük gövdesine ulanırlar.

Az sayıda ek te tıpkı sözcük gövdeleri gibi  bağımsız ve ardışık harf gruplarından oluşur.

  • mı?, mi?, mu?, mü? soru ekleri dilbilgisi kuralı uyarınca ayrı yazılır.
  • Özel isimlerin sonuna eklenen kesme(‘) işaretini, bağımsız yazılan bir ek izler.
  • Bab-ı ali, ab-ı kevser gibi sözcük gruplarında yer alan tire (-) işareti de kök ve ek arasında yer alan bir ayraçtır.

Bu örneklerin dışında yer alan bütün ekler, sözcük gövdelerine doğrudan eklenir.

Sözcük gövdeleri kök veya türetilmiş olabilir. Türetilmiş olsalar da bunlar da kökler gibi özel anlamlar ifade eder. Ekler ise kelime gövdesinin anlamını değiştirme özelliğine sahip değildir.

Örneğin ak sözcüğü bir köktür. Çünkü anlamını yitirmeksizin daha fazla bölünemez.

Oysa akça (beyazca), akmak (sıvı veya gaz halinde yer değiştirmek), akın (ortak hareket halindeki sürü), akıntısal (akıntı halinde) gibi kelime gövdelerinin hepsi farklı anlamlara sahip olsalar da, alt gövde ve köklerine ayrıştırılabilir: ak-ça, ak-mak, ak-ın, ak-ıntı-sal.

Türkçe, kök sözcüklere dayalı bir dil. Türetme yoluyla elde edilebilen ayrıntılarsa onun zenginliğinin temelini oluşturuyor. Ancak, günümüzün tüketime dayalı kültürü, yabancı hayranlığıyla da birleşerek yabancı sözcüklerin giderek daha fazla kullanılmasına neden oluyor.

İnsanoğlu, elinin altındaki hazinelerin değerini bilmekten çok, başkalarının elindekilerle ilgilenmeye yönelmiş durumda. Elimizdekilerin değerini, ancak onu yitirdikten sonra farkediyoruz. Ama, iş işten geçmiş oluyor.

Dilimiz, en önemli kültürel varlıklarımızın başında yer alıyor. Onu korumak, paylaşmak ve geliştirmek hepimizin görevi.

Ahmet Aksoy

 

 

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)

Önceki yazıyı okuyun:
Türkçe Derlem Çalışması – Corpus

Türkçe Derlem Çalışması - Corpus Daha önceleri yapmış olduğum "Türkçe sözcük kullanım sıklıkları" gibi kişisel çalışmaları bu sitede daha kapsamlı...

Kapat