MultinomialNB Kelime Analizi

Çoklu-Kelime Anlam Belirsizliği Çözümü

MultinomialNB Kelime Analizi 1
MultinomialNB Kelime Analizi 2

Proje Açıklaması

Bu projede, çoklu-kelime anlam belirsizliği problemini çözmek amacıyla Naive Bayes algoritması kullandım. Çoğu dilde, aynı kelime birden fazla farklı anlam taşıyabiliyor ve bu da doğal dil işleme (NLP) alanında önemli bir zorluk oluşturuyor. Örneğin, sağ kelimesi hem yön olarak, hem de sağlıkla ilgili anlamlar taşıyabiliyor. Bu tür anlam belirsizliklerini çözmek için özel bir model geliştirdim.

Veri Kümesi Hazırlığı

Proje için, sağ ve dil gibi kelimeleri içeren iki farklı veri kümesi hazırladım. Bu veri kümelerinde her bir cümlede geçen bu kelimelerin hangi anlamda kullanıldığını belirleyerek cümleleri sınıflandırdım. Cümleler, sağ kelimesinin yön anlamı ve sağlık anlamı gibi farklı sınıflara ayrıldı. Bu verileri Excel dosyalarında düzenleyip, bu veriler üzerinde çalışarak anlam belirsizliğini çözmeye yönelik bir model geliştirdim.

Modelin Kurulumu

Veri setini oluşturduktan sonra, cümleleri TF-IDF (Term Frequency-Inverse Document Frequency) yöntemi ile vektörleştirerek sayısal verilere dönüştürdüm. Bu yöntem, cümledeki her kelimenin önemli olup olmadığını değerlendiriyor. Ardından, Naive Bayes algoritmasını kullanarak eğitim veri kümesi üzerinde modelimi eğittim.

Model Eğitimi ve Değerlendirme

Eğitim verisini kullanarak Naive Bayes sınıflandırıcı modelini oluşturdum ve ardından test verisi üzerinde modelimi test ettim. Sonuçlar oldukça başarılıydı; model, verilen cümlelerdeki anlam belirsizliğini çözmek için doğru tahminlerde bulundu.

Test verisi üzerindeki doğruluk oranı %73.6 çıktı, bu da modelimin cümlelerdeki anlam belirsizliklerini çözme konusunda oldukça etkili olduğunu gösteriyor. F1 skoru ise 0.693 olarak hesaplandı, bu da modelin doğru sınıflandırma yapmada ne kadar başarılı olduğunu gösteren önemli bir metrik.

Sonuç

Bu proje, dildeki çoklu-kelime anlam belirsizliğini çözmek için Naive Bayes algoritması kullanarak geliştirilmiş bir sistemin örneği olarak önemli bir adım. Sağ ve dil kelimeleri için oluşturduğum veri setleri, bu tür problemlerin nasıl çözülebileceğini ve doğru sınıflandırma yapabilmek için hangi yöntemlerin kullanılabileceğini gösteriyor. Modelin doğruluğu ve başarısı, gelecekte daha karmaşık dil problemleri için de uygulanabilir.

Kullanılan Teknolojiler

Python
Scikit-learn
KNN
Pandas
Spotify API
Git