Imbalanced data classification is a common issue in data mining where the classifiers are skewed towards the larger data class. Classification of high-dimensional skewed (imbalanced) data is of great interest to decisionmakers as it is more difficult to. The dimension reduction method, a process in which variables are reduced, allows high dimensional datasets to be interpreted more easily with a certain loss. This study, a method combining SMOTE oversampling with principal component analysis is proposed to solve the imbalance problem in high dimensional data. Three classification algorithms consisting of Logistic Regression, K-Nearest Neighbor, Decision Tree methods and two separate datasets were utilized to evaluate the suggested method's efficacy and determine the classifiers' performance. Respectively, raw datasets, converted datasets by PCA, SMOTE and SMOTE+PCA (SMOTE and PCA) methods, were analyzed with the given algorithms. Analyzes were made using WEKA. Analysis results suggest that almost all classification algorithms improve their classification performance using PCA, SOMTE, and SMOTE+PCA methods. However, the SMOTE method gave more efficient results than PCA and PCA+SMOTE methods for data rebalancing. Experimental results also suggest that K-Nearest Neighbor classifier provided higher classification performance compared to other algorithms.
ÖzÜlkelerin gelişmişlik düzeyini gösteren önemli parametrelerden biri de enerji tüketimidir. Genel anlamda sanayi olarak gelişmişlik gösteren ülkelerde daha çok enerji tüketilmektedir. Bu bağlamda enerji ihtiyacı yüksek olan ülkeler dışa bağımlı olmamak için farklı alternatif enerji kaynaklarına yönelmektedirler. Bu çalışmada 36 OECD ülkesine ait çeşitli enerji türleri tüketimi ve ekonomik büyüme arasındaki ilişki Westerlund ( 2007) panel eşbütünleşme testi ile analiz edilmiştir. Eşbütünleşme testinden önce verilerin heterojenliği test edilmiş, verilere çeşitli yatay kesit bağımlılık testleri uygulanmış ve paneli oluşturan yatay kesitlerin birbirleri ile bağımlılığı incelenmiştir. Ayrıca, CIPS testi kullanılarak da verilerin durağan olup olmadığı belirlenmiştir. LM, LMadj ve CDLM istatistiklerine göre (p<0.05) yatay kesit bağımlılığının olduğu belirlenmiştir. Böylece ikinci kuşak birim kök testleri kullanılmasının uygun olacağına karar verilmiştir. CIPS testine göre değişkenlerin durağan olmadığı belirlenmiştir. Düzeyde durağan olmayan verilerin birinci farkları alınarak verilere tekrar durağanlık analizi uygulanmış ve verilerin durağan hale getirildiği gözlenmiştir. Sonuçlar enerji tüketimi ile ekonomik büyüme arasında eşbütünleşmenin olduğunu göstermektedir. Ayrıca uzun dönemli eşbütünleşme testi sonucunda hidroelektrik ve yenilenebilir enerji tüketimi ile ekonomik büyüme arasında pozitif, termik enerji tüketimi ile ekonomik büyüme arasında ise negatif bir ilişkinin var olduğu belirlenmiştir.
Nonlinear principal component analysis (NLPCA) is a descriptive dimension reduction method that examines the relationships between variables and displays the results numerically and visually in multivariate datasets that have a linear or nonlinear relationship between them. In this study, it was aimed to present the basic explanatory information about nonlinear principal components analysis (NLPCA) and to emphasize its usability by performing application. In the study, data obtained from 270 samples for 17 continuous variables concerning 3 pepper varieties were evaluated by Principal components analysis (PCA). With the 4 principal components obtained as a result of PCA, being 3 categorical variables Variety, storage time and Application were analyzed by NLPCA. In the analysis made with PCA, approximately 74% of the total variance was explained and in the analysis made with NLPCA, approximately 58% was explained as well. As a result of the analysis; it was observed that there was a strong relationship between PC1 and storage time and variety, and PC3 and PC2 variables, while the relationship between PC4 and application variables and all variables was low. As a result; by examining the linear and nonlinear relationships between the variables in the multivariate datasets, these relationships intended to be presented in an easily interpreted and easily understandable way in two-dimensional space; it was emphasized that NLPCA can be used alone and/or together with other multivariate analysis methods.
Özİnsanoğlu, yaşam standardını yükseltmek için sürekli bir çaba içerisinde olmuştur. Ancak daha sağlıklı, bilinçli ve kaliteli yaşam standartlarına ulaşmanın yolu genellikle iktisadi zaman serileri arasındaki ilişkilerin doğru bir şekilde belirlenmesi ve dolayısıyla daha iyi bir kalkınma stratejisi geliştirmesi ile mümkün olabilir. Bu amaç doğrultusunda; bu çalışmada 1996-2019 yılları arasındaki yıllık veriler kullanılarak Türkiye'nin eğitim, sağlık ve Ar-Ge harcamalarının ekonomik büyümesi üzerine olan etkileri incelenmiştir. Değişkenler arasındaki ilişkilerin belirlenmesinde ARDL sınır testi ve ilişkilerin yönünün belirlenmesinde de Toda-Yamamoto nedensellik testi kullanılmıştır. Analizler, %5 anlamlılık düzeyinde uzun dönemde eğitim, sağlık ve Ar-Ge harcamaları ile GSYİH arasında anlamlı ve pozitif yönlü bir ilişki olduğunu göstermiştir. Ayrıca, Toda-Yamamoto testi ise her bir değişken ile GSYİH arasındaki nedensellik ilişkinin çift yönlü olduğunu göstermiştir. Sonuç olarak; eğitim, sağlık ve Ar-Ge alanlarında yapılan iyileştirmelerin gelir düzeyini ve dolayısıyla yaşam kalitesini artırdığı söylenebilir. Bu nedenle, Türkiye'de devletin bu alanlara yapacağı yatırımlar önem arz etmekte ve ilgili kurumların bu alanlara yönelik politikalar geliştirilmesi önerilmektedir.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.