ÖZETBiyoinformatik, moleküllerle ilgili bilgiyi anlamak ve düzenlemek için bilgisayar bilimleri, matematik, istatistik, biyoloji ve fizik gibi karmaşık disiplinlerden türetilen bir alandır. Biyoinformatiğin temel görevi, genomu verilen bir organizma ile ilgili fonksiyonların anlaşılması ve yaşam kalitesinin yükseltilmesidir. Biyoinformatik veritabanları nükleotid dizileri, protein dizileri, makro moleküler üç boyutlu (3D) yapılar gibi farklı veri türlerinden oluşabilmektedir. Biyoinformatik alanında elde edilen devasa boyuttaki verileri veri madenciliği yöntemleri kullanarak işlemek büyük önem kazanmaktadır. Bu çalışmada bioinformatik alanında veri madenciliğinin günümüz disiplinleri arasında geldiği noktaya değinilmiş ve kanser veri kümeleri ile veri madenciliği üzerine yapılan çalışmalar ve gerçekleştirilen uygulamalar incelenmiştir. Yapılmış uygulamalar ışığında yumurtalık kanseri verilerinin çeşitli öznitelik seçme ve sınıflandırma yöntemleri ile modellenerek algoritmaların doğruluk oranları incelenip karşılaştırılmıştır.Anahtar kelimeler: Biyoinformatik, veri madenciliği, öznitelik seçimi, yumurtalık kanseri, boyut indirgeme, sınıflandırma.
Analysis of Gene Expressions in Ovarian Cancer Data Set by using Data Mining
ABSTRACTBioinformatics is a field that is derived from the complicated disciplines such as computer sciences, mathematics, statistics, biology, and physics, in order understand and organize the knowledge with molecules. The fundamental role of bioinformatics is to understand the organism that is given its genomes and to increase the quality of the standard life. Bioinformatics data bases may consist of different data types such as nucleoid sequences, protein sequences, 3D structures of the macro molecules. The processing of the huge amount of bioinformatics data is one of the exciting area for researchers. In this study, state-of-the-art of the data mining in bioinformatics is shortly explained and the studies are investigated that have performed on the cancer databases by using data mining. Ovarian cancer database is used and different feature selection and classification methods are implemented and the results are compared.