Eki 242013
 

Türkçe Derlem Çalışması – Corpus

Daha önceleri yapmış olduğum “Türkçe sözcük kullanım sıklıkları” gibi kişisel çalışmaları bu sitede daha kapsamlı olarak duyurup paylaşma amacındayım.

Amacım bu konuda bilimsel bir tez çalışması yapmak değil, pratik, herkesin kolayca kullanabileceği bilgiler oluşturup paylaşmak.

Ticari bir amacım ve beklentim de yok.

Bu konuya ayırabileceğim zaman ve maddi kaynaklar oldukça sınırlı.

Pratik amaçlarımdan biri şu olacak: Türkçe metinlerdeki yazım hatalarını otomatik olarak belirleyip düzeltmek.

İlk çalışmalarımı MySQL üzerinden yaptım. Ancak SQL sorgularının geri dönüş süreleri, bellek dizilerini kullanarak elde edilenlere kıyasla çok uzun. Bazı durumlarda 50 katı bulan hız farkları oluşabiliyor. Yani SQL sorgularıyla 1 (bir) saatte çözümlediğim bir metni, bellek dizileri kullanarak sadece 1 (bir)  dakikada çözümleyebiliyorum.

Ancak bilgisayar belleğinde yapılan çalışmaların da fiziksel boyut sorunu var. Şimdilik sorun yaratmasa bile, derlenen sözcük sayısı arttıkça kaçınılmaz olarak yeniden SQL sistemine dönmek zorunda kalabilirim.

Şu anda bir tür Türkçe Derlem (Corpus) çalışması yapıyorum. Elimdeki dokümanları tarayarak farklı sözcükleri buluyor, yazım hatası içerip içermediklerini denetliyor ve hata yoksa, veritabanına o sözcüğü de ekliyorum.

Çözümlemelerde kullandığım dokümanlardan bazıları basılı kitap üzerinden tarama yapılarak elektronik ortama aktarılmış. Bu nedenle çok fazla yazım hatası içeriyor. Bu durum bir yandan işleri uzatıyor olsa da; öte yandan amaçladığım sistemi denememi ve geliştirmemi de kolaylaştırıyor.

Türkçe Derlem listemde henüz 129 bin 700 sözcük var. Yeni taramalardan eklenen sözcük oranı, doğal olarak azalıyor.  Fakat listede bulunmayan sözcüklerin yazım hatası içerip içermediğinin manuel olarak belirlenmesi çok fazla zaman alıyor.

Aslına bakarsanız hatalı yazılmış sözcükleri orijinal metin üzerinden düzeltmek yerine göz ardı ederek derlem oluşturmayı hızlandırmak mümkün. Şimdilik direniyor olsam da, belki de bu yönteme geçeceğim. Böylece ilk önce derlem dosyasını oluşturacak, yazım hatalarını düzeltmeyi de bir başka proje olarak ele alacağım.

Bir süre sonra bu kelimelerin kök ve eklerine ayrıştırılmasına da sıra gelecek. Bu amaçla Zemberek projesinden yararlanmam mümkün olabilir umuyorum. Tek sıkıntı dil farkında. Eğer Delphi ile devam etmem olanaksız hale gelirse, belki ben de tekrar javaya dönerim.

Şimdilik temel sıkıntım, taranacak metin formatındaki kaynakları bulmak. Elimde -şimdilik- bu tür kaynakları internet üzerinden araştırıp bulmak dışında bir seçeneğim yok. Bu yüzden sizlere bir çağrı yapmak istiyorum:

Elinizde, bana geçici olarak ödünç verebileceğiniz Türkçe ve tercihan metin formatındaki (txt uzantılı)  kaynaklar varsa o kaynakların kendisini veya indirebileceğim adreslerini göndermenizi rica edeceğim. Bu dokümanların boyutu ve konusu önemli değil. PDF, doc gibi formatlar da işime yarayabilir.

Amacım bu dokümanları sadece taramak olduğu için, bir telif sorunu oluşacağını sanmıyorum.

Daha önce yaptığım gibi, ara çalışmalarımın sonuçlarını bu sayfalardan yayınlamaya devam edeceğim.

Katkı ve desteklerinizi bekliyorum.

Şimdiden teşekkürlerimle,

Ahmet Aksoy

 

 

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)

Önceki yazıyı okuyun:
Nazım Hikmet Şiirleri Üzerine Sayısal Bir Çözümleme

Nazım Hikmet Şiirleri Üzerine Sayısal Bir Çözümleme Bu kez Nazım'ın şiirlerini ele aldım.  Aslında bu bir "Bütün Şiirleri" derlemesi. Şiirlerin...

Kapat