Creating dance animations can be done manually or using a motion capture system. An intelligent system that able to generate a variety of dance movements should be helpful for this task. The recurrent neural network such as Long Short-Term Memory (LSTM) or Gated Recurrent Unit (GRU) could be trained as a generative model. This model is able to memorize the training data set and reiterate its memory as the output with arbitrary length. This ability makes the model feasible for generating dance animation. Remo is a dance that comprises several repeating basic moves. A generative model with Remo moves as training data set should make the animation creating process for this dance simpler. Because the generative model for this kind of problem involves a probabilistic function in form of Mixture Density Models (MDN), the random effects of that function also affect the model performance. This paper uses LSTM and GRU as generative models for Remo dance moves and tests their performance. SGD, Adagrad, and Adam are also used as optimization algorithms and drop-out is used as the regulator to find out how these algorithms affect the training process. The experiment results show that LSTM outperforms GRU in term of the number of successful training. The trained models are able to create unlimited dance moves animation. The quality of the animations is assessed by using visual and dynamic time warping (DTW) method. The DTW method shows that on average, GRU results have 116% greater variance than LSTM's. Intisari-Pembuatan animasi tari bisa disusun secara manual atau menggunakan motion capture. Sebuah sistem cerdas yang dapat menghasilkan gerakan tari yang bervariasi bisa membantu proses ini. Recurrent neural network yang berupa Long Short-Term Memory (LSTM) atau Gated Recurrent Unit (GRU) dapat dilatih menjadi model generatif. Model ini akan menghafal data pelatihan dan mengeluarkan apa yang diingatnya dengan variasi yang tak terbatas panjangnya. Kemampuan ini sesuai untuk menghasilkan tarian yang terdiri atas perulangan gerakangerakan dasar. Tari Remo adalah tari yang memiliki banyak variasi dan tersusun dari gerakan-gerakan dasar yang pendek dan berulang. Bila tari ini dilatihkan menjadi model generatif, maka animasi tarian yang merupakan variasi dari gerakangerakan tari Remo menjadi mudah dihasilkan. Karena model generatif untuk tari Remo melibatkan penggunaan Mixture Density Network (MDN) yang berupa fungsi probabilitas, maka kinerja model ini juga terpengaruh efek acak (random). Makalah ini melakukan sejumlah percobaan menggunakan LSTM dan GRU yang dilatih untuk menjadi model generatif bagi gerakan tari Remo. Hasil percobaan memberi informasi seberapa besar kesuksesan proses pelatihan. Efek penggunaan teknik optimisasi SGD, AdaGrad, dan Adam, serta teknik regularisasi drop-out juga dicoba. Pada pelatihan yang sukses, variasi animasi tari yang dihasilkan dianalisis menggunakan Dynamic Time Warping (DTW). Hasil percobaan menunjukkan keberhasilan LSTM dalam pelatihan lebih besar daripada GRU. Perhitungan DTW menunjukkan bah...
Babies are still unable to inform the pain they experience, therefore, babies cry when experiencing pain. With the rapid development of computer vision technologies, in the last few years, many researchers have tried to recognize pain from babies expressions using machine learning and image processing. In this paper, a research using Deep Convolution Neural Network (DCNN) Autoencoder and Long-Short Term Memory (LSTM) Network is conducted to detect cry and pain level from baby facial expression on video. DCNN Autoencoder is used to extract latent features from a single frame of baby face. Sequences of extracted latent features are then fed to LSTM so the pain level and cry can be recognized. Face detection and face landmark detection is also used to frontalize baby facial image before it is processed by DCNN Autoencoder. From the testing on DCNN autoencoder, the result shows that the best architecture used three convolutional layers and three transposed convolutional layers. As for the LSTM classifier, the best model is using four frame sequences. Intisari-Bayi belum dapat menginformasikan rasa nyeri yang dialami, karena itu bayi menangis saat mengalami nyeri. Dengan semakin berkembangnya teknologi visi komputer, beberapa tahun terakhir muncul beberapa penelitian yang mencoba mengenali nyeri pada tangis bayi memanfaatkan machine learning dan pengolahan citra. Dalam makalah ini diteliti pemanfaatan Deep Convolution Neural Network (DCNN) Autoencoder dan Long-Short Term Memory (LSTM) Network untuk deteksi tangis dan tingkat nyeri pada video wajah bayi. DCNN Autoencoder berguna untuk melakukan ekstraksi latent feature dari satu frame wajah bayi. Deretan latent feature ini kemudian diumpankan ke LSTM untuk dikenali tangis dan tingkat nyerinya. Selain itu, digunakan juga teknik face detection dan face landmark detection untuk meluruskan/menegakkan wajah bayi sebelum diproses oleh DCNN autoencoder. Dari pengujian DCNN autoencoder, didapatkan hasil terbaik dengan menggunakan tiga convolutional layer dan tiga transposed convolutional layer. Sedangkan untuk LSTM classifier, model terbaik didapatkan dalam percobaan dengan empat runtun frame.
Bahasa sebagai alat komunikasi antar manusia dalam masyarakat terbentuk dari fonem-fonem yang berupa bunyi-bunyi. Setiap bahasa mempunyai sistem fonem dan sistem bunyi yang berbeda. Dalam kegiatan sehari-hari masyarakat jawa banyak sekali menggunakan kata-kata yang mirip dalam komunikasi mereka, baik kata tersebut mempunyai arti atau makna yang berbeda ataupun tidak. Perkembangan teknologi saat ini yang semakin pesat, membuat beberapa peneliti menggunakan Leap Motion sebagai perangkat penerjemah. Pada penelitian ini, diusulkan sebuah sistem pengenalan pose tangan dengan menggunakan leap motion controller untuk generator ucapan fonem bahasa jawa. Dengan menggunakan leap motion controller, setiap titik koordinat tulang pada tangan akan terdeteksi, sehingga titik-titik koordinat tersebut dapat dijadikan sebagai fitur masukan. Penggunaan fitur jarak antara palm position dengan distal phalanges yang diukur dengan menggunakan euclidean distance. Fitur tersebut akan digunakan untuk data training dan data testing pada metode klasifikasi k-nearest neighbor. Data training yang digunakan adalah minimal 100 kelas diambil dari 20 aksara jawa dan 5 fonem vokal. Penelitian ini berhasil dengan tingkat rata- rata akurasi sebesar 97% pada fonem aksara jawa.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.