Deep Reinforcement Learning (RL) algorithms can solve complex sequential decision tasks successfully. However, they have a major drawback of having poor sample efficiency which can often be tackled by knowledge reuse. In Multi-Agent Reinforcement Learning (MARL) this drawback becomes worse, but at the same time, a new set of opportunities to leverage knowledge are also presented through agent interactions. One promising approach among these is peer-to-peer action advising through a teacher-student framework. Despite being introduced for single-agent RL originally, recent studies show that it can also be applied to multi-agent scenarios with promising empirical results. However, studies in this line of research are currently very limited. In this paper, we propose heuristics-based action advising techniques in cooperative decentralised MARL, using a nonlinear function approximation based task-level policy. By adopting Random Network Distillation technique, we devise a measurement for agents to assess their knowledge in any given state and be able to initiate the teacher-student dynamics with no prior role assumptions. Experimental results in a gridworld environment show that such an approach may indeed be useful and needs to be further investigated.
stiffness and pulse wave velocity / Aorta and carotid arteries 137 (0.94 to 1.01) p = 0.096; Obesity OR = 0.47 (0.29 to 1.77) p = 0.003 and Diabetes OR = 2.41 (1.15 -5.05) p = 0.020. Conclusions: According to the results obtained, genetic polymorphisms variables were not in the multivariate analysis equation to determine the increase of the PWV, which can be explained either by being included in the selected variables such as hypertension, or on the other hand, they may not have enough strength to remain in the equation. So, according to this study, PWV has much more to do with behaviors and traditional risk factors than the genetic heritage.P883 Endothelial dysfunction, pulse wave velocity and augmentation index are correlated in subjects with systemic arterial hypertension?
Pommerman is a complex multi-player and partially observable game where agents try to be the last standing to win. This game poses very interesting challenges to AI, such as collaboration, learning and planning. In this paper, we compare two Statistical Forward Planning algorithms, Monte Carlo Tree Search (MCTS) and Rolling Horizon Evolutionary Algorithm (RHEA) in Pommerman. We provide insights on how the agents actually play the game, inspecting their behaviours to explain their performance. Results show that MCTS outperforms RHEA in several game settings, but leaving room for multiple avenues of future work: tuning these methods, improving opponent modelling, identifying trap moves and introducing of assumptions for partial observability settings.
İçerdikleri şairler, biyografik bilgiler, çeşitli anekdotlar ve şiirler ile toplumun edebî zevk ve beklentilerine hitap eden şiir mecmuaları, biyografik kaynaklarda yer almayan şairleri ve yazma divanlar ile tenkitli neşirlerde bulunmayan şiirleri bulundurma ihtimalini her zaman bünyesinde barındıran çok yönlü metinlerdir. Gerek mecmualara dair gerçekleştirilen neşir çalışmalarında gerekse mecmualara atıfla oluşturulan makale ve bildiri düzeyindeki çalışmalarda şairlerin basılı divanlarında yer almayan şiirlerine dair başlıklar ve vurgular dikkat çekmektedir. Şiir mecmularında bulunan tenkitli neşirlerde yer almayan şiirlerin tespit ve neşrinden daha mühimi şiirlerin atfedildikleri şaire olan aidiyetinin sorgulanması ameliyesidir. Taranılan çalışmalarda basılı divanlarda yer almadığı ifade edilen şiirlerin atfedildikleri şairlere olan aidiyetlerinin belirlenmesinde daha önceden kuramsal çerçevesi çizilen ve uygulanan bir metottan veya metot birliğinden söz etmek mümkün görünmemektedir. Çoğunlukla metin neşrinden ibaret böylesi çalışmalarda az da olsa şiirlerin, atfedildikleri şairlere olan aidiyetlerinin dil, üslup ve tanıklanma durumları çerçevesinde ele alındığı görülmektedir. Şiirlerin yeterli sayıda kaynak metinde taranmadan ve başka şairlere atfedildiklerine dair şüphe durumları en aza indirgenmeden yapılan dil ve üslup incelemeleri, aidiyet meselesi açısından kıymetli olmakla beraber yeterli ve tatmin edici değildir. Bu noktada yapılan çalışmada ortaya konulan yöntem teklifinin, sorgulama işlemini büyük ölçüde gerçekleştireceği ve atfedilen şiirlerle ilgili yapılacak olan üslup incelemelerine gelinceye değin bir eleme mekanizması işlevi göreceği umulmaktadır. Çalışmada ilk olarak neşri gerçekleştirilen ve muhtelif yazma eser kütüphanelerinde mevcut olan bine yakın şiir mecmuasında Necâtî şiirleri gözden geçirilmiştir. İşlem sonucunda Ali Nihat Tarlan tarafından hazırlanan Necâtî Bey Dîvânı neşrinde yer almayan 25 adet şiir tespit edilmiştir. Bu şiirler divanlar, şiir mecmuaları ve tezkire metinleri temelinde tarama ve tanıklama esasına dayalı uygulamalara tabi tutulmuş ve ulaşılan sonuçlara göre bazı kategorilere ayrılmıştır. Elde edilen verilerden hareketle Necâtî’ye ait olabilecek şiirler belirlenirken şüpheli olanlar ayrılmış ve şüphe durumları izah edilmiştir. Böylece Necâtî şiirleri örneği üzerinden benzer çalışmalar için bir yöntem ve kategorizasyon teklifinde bulunularak aidiyet temelli sorgulama işlemlerinin gerekliliği vurgulanmıştır.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.