Kas 032013
 

Türkçe metinlerde sözcük ayırma algoritması

Türkçe metinlerdeki sözcükleri bilgisayar programları aracılığıyla birimlerine – sözcüklerine ayırmak oldukça kolay.

Temel olarak, harf olmayan tüm karakterler bir ayraç işlevi görür. Bunların başında da boşluk işareti yer alır. En sık kullanılan ayırma işareti, boşluk işaretidir.

İyi tanıdığımız bir başka ayırma işareti, tire (-) işaretidir. Tire işareti (-), satır sonunda kelime bölme işareti olarak kullanılır. Türkçe de bu işaret, heceler arasına konur. Heceler bölünmez.

Tire işareti, bazı terimlerde ikili sözcükleri birbirine bağlayıcı bir karaktere dönüşür: Türk-İslam, Hint-Avrupa gibi.

Aynı kesme işaretinin sözcük gövdesi ve eki arasında bağlantı işlevi gördüğü durumlar da mevcuttur: bab-ı ali, ab-ı kevser, arş-ı ala, devran-ı alem gibi. Bu terimler, arapça veya farsçadan aktarılmıştır. Son dönemlerde bu ayracın kullanım sıklığı oldukça azalmıştır. Aynı terimler babı ali, abı kevser, arşı ala, devranı alem şeklinde de yazılmaktadır.

Nokta (.), ünlem (!), soru işareti (?) gibi işaretler cümlelerin sonunda yer alırlar.

Tire (-), virgül (,), parantez işaretleri (), kesme (/), ters kesme (\), artı (+) gibi işaretler ise sözcüklerin arasına konur.

W, x, q gibi bazı harf işaretleri türkçe alfabede yer almadığı halde, ayraç işlevi görmez. Sadece içinde geçtiği sözcüğün yabancı bir sözcük olduğunu vurgular.

Kısacası, ister cümle sonunda, ister sözcükler arasında yer alsın, satır sonu (-) işareti dışındaki tüm işaretler sözcük sınırını belirler.

Bu durumda “ardışık harf grupları sözcükleri oluşturur” diyebiliriz.

Eklerin Durumu

Türkçede ekler, sözcük gövdesine ulanırlar.

Az sayıda ek te tıpkı sözcük gövdeleri gibi  bağımsız ve ardışık harf gruplarından oluşur.

  • mı?, mi?, mu?, mü? soru ekleri dilbilgisi kuralı uyarınca ayrı yazılır.
  • Özel isimlerin sonuna eklenen kesme(‘) işaretini, bağımsız yazılan bir ek izler.
  • Bab-ı ali, ab-ı kevser gibi sözcük gruplarında yer alan tire (-) işareti de kök ve ek arasında yer alan bir ayraçtır.

Bu örneklerin dışında yer alan bütün ekler, sözcük gövdelerine doğrudan eklenir.

Sözcük gövdeleri kök veya türetilmiş olabilir. Türetilmiş olsalar da bunlar da kökler gibi özel anlamlar ifade eder. Ekler ise kelime gövdesinin anlamını değiştirme özelliğine sahip değildir.

Örneğin ak sözcüğü bir köktür. Çünkü anlamını yitirmeksizin daha fazla bölünemez.

Oysa akça (beyazca), akmak (sıvı veya gaz halinde yer değiştirmek), akın (ortak hareket halindeki sürü), akıntısal (akıntı halinde) gibi kelime gövdelerinin hepsi farklı anlamlara sahip olsalar da, alt gövde ve köklerine ayrıştırılabilir: ak-ça, ak-mak, ak-ın, ak-ıntı-sal.

Türkçe, kök sözcüklere dayalı bir dil. Türetme yoluyla elde edilebilen ayrıntılarsa onun zenginliğinin temelini oluşturuyor. Ancak, günümüzün tüketime dayalı kültürü, yabancı hayranlığıyla da birleşerek yabancı sözcüklerin giderek daha fazla kullanılmasına neden oluyor.

İnsanoğlu, elinin altındaki hazinelerin değerini bilmekten çok, başkalarının elindekilerle ilgilenmeye yönelmiş durumda. Elimizdekilerin değerini, ancak onu yitirdikten sonra farkediyoruz. Ama, iş işten geçmiş oluyor.

Dilimiz, en önemli kültürel varlıklarımızın başında yer alıyor. Onu korumak, paylaşmak ve geliştirmek hepimizin görevi.

Ahmet Aksoy

 

 

Eki 242013
 

Türkçe Derlem Çalışması – Corpus

Daha önceleri yapmış olduğum “Türkçe sözcük kullanım sıklıkları” gibi kişisel çalışmaları bu sitede daha kapsamlı olarak duyurup paylaşma amacındayım.

Amacım bu konuda bilimsel bir tez çalışması yapmak değil, pratik, herkesin kolayca kullanabileceği bilgiler oluşturup paylaşmak.

Ticari bir amacım ve beklentim de yok.

Bu konuya ayırabileceğim zaman ve maddi kaynaklar oldukça sınırlı.

Pratik amaçlarımdan biri şu olacak: Türkçe metinlerdeki yazım hatalarını otomatik olarak belirleyip düzeltmek.

İlk çalışmalarımı MySQL üzerinden yaptım. Ancak SQL sorgularının geri dönüş süreleri, bellek dizilerini kullanarak elde edilenlere kıyasla çok uzun. Bazı durumlarda 50 katı bulan hız farkları oluşabiliyor. Yani SQL sorgularıyla 1 (bir) saatte çözümlediğim bir metni, bellek dizileri kullanarak sadece 1 (bir)  dakikada çözümleyebiliyorum.

Ancak bilgisayar belleğinde yapılan çalışmaların da fiziksel boyut sorunu var. Şimdilik sorun yaratmasa bile, derlenen sözcük sayısı arttıkça kaçınılmaz olarak yeniden SQL sistemine dönmek zorunda kalabilirim.

Şu anda bir tür Türkçe Derlem (Corpus) çalışması yapıyorum. Elimdeki dokümanları tarayarak farklı sözcükleri buluyor, yazım hatası içerip içermediklerini denetliyor ve hata yoksa, veritabanına o sözcüğü de ekliyorum.

Çözümlemelerde kullandığım dokümanlardan bazıları basılı kitap üzerinden tarama yapılarak elektronik ortama aktarılmış. Bu nedenle çok fazla yazım hatası içeriyor. Bu durum bir yandan işleri uzatıyor olsa da; öte yandan amaçladığım sistemi denememi ve geliştirmemi de kolaylaştırıyor.

Türkçe Derlem listemde henüz 129 bin 700 sözcük var. Yeni taramalardan eklenen sözcük oranı, doğal olarak azalıyor.  Fakat listede bulunmayan sözcüklerin yazım hatası içerip içermediğinin manuel olarak belirlenmesi çok fazla zaman alıyor.

Aslına bakarsanız hatalı yazılmış sözcükleri orijinal metin üzerinden düzeltmek yerine göz ardı ederek derlem oluşturmayı hızlandırmak mümkün. Şimdilik direniyor olsam da, belki de bu yönteme geçeceğim. Böylece ilk önce derlem dosyasını oluşturacak, yazım hatalarını düzeltmeyi de bir başka proje olarak ele alacağım.

Bir süre sonra bu kelimelerin kök ve eklerine ayrıştırılmasına da sıra gelecek. Bu amaçla Zemberek projesinden yararlanmam mümkün olabilir umuyorum. Tek sıkıntı dil farkında. Eğer Delphi ile devam etmem olanaksız hale gelirse, belki ben de tekrar javaya dönerim.

Şimdilik temel sıkıntım, taranacak metin formatındaki kaynakları bulmak. Elimde -şimdilik- bu tür kaynakları internet üzerinden araştırıp bulmak dışında bir seçeneğim yok. Bu yüzden sizlere bir çağrı yapmak istiyorum:

Elinizde, bana geçici olarak ödünç verebileceğiniz Türkçe ve tercihan metin formatındaki (txt uzantılı)  kaynaklar varsa o kaynakların kendisini veya indirebileceğim adreslerini göndermenizi rica edeceğim. Bu dokümanların boyutu ve konusu önemli değil. PDF, doc gibi formatlar da işime yarayabilir.

Amacım bu dokümanları sadece taramak olduğu için, bir telif sorunu oluşacağını sanmıyorum.

Daha önce yaptığım gibi, ara çalışmalarımın sonuçlarını bu sayfalardan yayınlamaya devam edeceğim.

Katkı ve desteklerinizi bekliyorum.

Şimdiden teşekkürlerimle,

Ahmet Aksoy

 

 

Eki 062013
 

Türkçe Sözcüklerde Yapım Ekleri ve Örnekler

Türkçe, sondan eklemeli bir dildir. Pek çok sözcüğün gövdesi, kök sözcüklere yapım ekleri ulanarak oluşturulmuştur.

Türkçede 4 çeşit yapım eki vardır:

1- Addan ad üreten yapım ekleri
2- Addan fiil üreten yapım ekleri
3- Fiilden ad üreten yapım ekleri
4- Fiilden fiil üreten yapım ekleri

 1- Addan ad üreten yapım ekleri:

cağız: adamcağız, çocukcağız, hayvancağız, kadıncağız, kızcağız, yavrucağız, köyceğiz
ce: Türkçe, İngilizce, Arapça, Farsça, Almanca, Portekizce
cı: sanatçı, gözcü, izci, sözcü, yolcu, simitçi, alaycı
cık: adacık, adamcık, anacık, dalgacık, ihtiyarcık, kapıcık, meydancık, beyincik, bebecik, sözcük, tomurcuk
cıl: insancıl, evcil, bencil, merkezcil, yosuncul, ölümcül, öncül, bütüncül, kötücül
daş: yurttaş, sırdaş, çağdaş, arkadaş, gönüldaş, paydaş, vatandaş, yandaş, yoldaş, özdeş, kardeş, kökteş
ımsı: acımsı,ekşimsi, tatlımsı, siyahımsı, masalımsı, beyazımsı, kadınımsı, esmerimsi, fiilimsi, mavimsi
ımtırak: yeşilimtırak, sarımtırak, beyazımtırak, mavimtırak, siyahımtırak, ekşimtırak
ıncı: birinci, ikinci, üçüncü, dördüncü, beşinci, altıncı, dokuzuncu, onuncu
ıt: yaşıt, bağıt, yazıt, özüt
lı: şehirli, paralı, akıllı, ağaçlı, kültürlü, evli, devamlı, fiyakalı, cilalı, efkârlı, cesaretli, emniyetli, güllü, hüzünlü
lık: odunluk, kömürlük, sabahlık, kitaplık, tuzluk, fidanlık, ağaçlık, gelinlik, askerlik, aksilik, abonelik, bademlik
man: uzman, Türkmen, kocaman, toraman, katman, yazman, ataman, evcimen, gökmen, küçümen
sal: kimyasal, anıtsal, anlamsal, açısal, hukuksal, kalıtımsal, fiziksel, bedensel, belgesel, çözümsel, geleneksel
sıl: varsıl, yoksul, damaksıl
sız: susuz, parasız, vicdansız, ilkesiz, yersiz, yurtsuz, evsiz, barksız, kültürsüz, hükümsüz, güçsüz, çözümsüz
şın: akşın, karaşın, sarışın
tay: danıştay, kamutay, kurultay, sayıştay, yargıtay

 

2- Addan fiil üreten yapım ekleri

a: ada, boşa, kana, yaşa
al: azal, çoğal, daral, kısal, kocal, sağal, ufal, yoğal, dikel, dincel, düzel, incel, körel, sertel, seyrel, yönel, yücel
ar: ağar, bolar, bozar, kabar, kızar, sarar, yeşer
at: boşat, boyat, kanat, kocat, yaşat, gözet, yönet
da: cayırda, cazırda, cırılda,cızırda,çağılda, çatırda, çıngılda, hışırda, horulda, kıkırda, zırılda, gümbürde
ık: acık, ayık, birik, gecik, gözük
ımsa: anımsa, ayrımsa, azımsa, kaçımsa, sayrımsa, benimse, mühimse
kır: fışkır, haykır, hıçkır, höykür, püfkür, püskür, sümkür
l: doğrul, eğril, sivril
la: alala, ayala, cilala, çapa, ıslıkla, kolala, rahatla, sırala, sula, tamamla, taşla, tavla, tıkla, tuzla, uğurla, zorla
lan: akıllan, aklan, allan, avlan, aydınlan, coşkulan, duygulan, hoşlan, kanatlan, bilgilen, dertlen, hüzünlen
laş: abanozlaş, ahmaklaş, aklaş, fenalaş, inatlaş, telefonlaş, aktifleş, cimrileş, çölleş, dertleş, gençleş, zenginleş
sa: çoksa, ıraksa, kapsa, susa, yakınsa, benimse, garipse, mühimse, önemse, örnekse, özümse

 

3- Fiilden ad üreten yapım ekleri

acak: açacak, alacak, gelecek, giyecek, yakacak, verecek
ak: durak, kaçak, yatak, yutak
ar: gider, tutar
ca:  düşünce, eğlence, sakınca
ga: bilge, bölge, süpürge
gı: algı, askı, çalgı, duygu, saygı, sevgi
gıç: bilgiç, dalgıç
gın: bezgin, bilgin, bitkin, dalgın, solgun, yorgun
ı: çatı, doğu, koku, ölü, sevi, yapı, yazı
ıcı: alıcı, görücü, satıcı, yapıcı, yazıcı
ık: açık, göçük, kesik, seçik
ım: onarım, oturum, ölüm, ölçüm, sayım, seçim
ın: akın, ekin, tütün, yığın
ıntı: akıntı, çarpıntı, çıkıntı, döküntü, kesinti, yığıntı
ır: gelir, okur
ış: oturuş, sürüş, veriş, yürüyüş,
ıt: geçit, dikit, ölçüt, sarkıt, yakıt
kan: çalışkan, kaygan, unutkan
ma: açma, gülme, kapama, konuşma, serpme, sevme, uyuma
mak: açmak, gelmek, gitmek, kapamak, uyumak
nç: gülünç, sevinç
tı: belirti, karartı, kızartı, morartı

 

4- Fiilden fiil üreten yapım ekleri

ala: durala, itele, kovala, tepele
dir: açtır, astır, bezdir, bildir, buldur, çizdir, deldir, koştur, soktur, sordur, yazdır
l: atıl, ayrıl, bozul, gidil, sayıl, soyul, tutul, yazıl
n: aran, başlan, bilin, gerin, sürün, taran, taşın, yıkan
r: batır, çıkar, düşür, içir, kaçır, kopar, uçur
ş: atış, bekleş, dövüş, görüş, itiş, selamlaş, seviş, tartış, uçuş, yazış
t: acıt, akıt, anlat, arat, kızart, okut, yürüt

 

Ahmet Aksoy

Eki 052013
 

Sitemiz hakkında

Bu sitede Türkçe diliyle ilgili bazı yazılar yayınlamayı planlıyorum.

Temel konulardan biri, dilimizde etkin olarak yer alan kelimelerin kökleri ve yapım ekleriyle türetilmiş yeni gövdeler olacak. Bu sözcüklerle ilgili çözümlemeler, mümkünse kaynaklar, örnekler vb bu sayfalarda yerini alacak.

Onbinlerce sözcük söz konusu olduğu için, bu çalışma oldukça geniş bir zaman dilimine yayılacak.

Eğer sizlerden de bu çalışmalara katkıda bulunmak isteyenler çıkarsa, bu çalışmayı çok daha erken tamamlama fırsatımız olur.

Ben bir Türk dili uzmanı değilim. Bu nedenle, söz konusu çalışma tamamiyle deneysel ve amatörce bir çalışma olacak.

Hedefim, bu sitenin Türkçenin yapısı ve temelleri ile ilgili popüler bir kaynak haline dönüşmesidir.

Fırsat bulduğunuzda, mutlaka uğrayın!

Ahmet Aksoy