Bangunan merupakan salah satu objek penting di permukaan bumi yang harus dipetakan. Hasil pemetaan bangunan dapat dimanfaatkan untuk berbagai keperluan seperti perencanaan wilayah, manajemen bencana, pembuatan peta dasar, dan informasi tematik lainnya. Dalam pemetaan skala besar, unsur bangunan harus dipetakan secara detail sesuai dengan bentuk yang sebenarnya. Terdapat berbagai cara untuk ekstraksi fitur bangunan, salah satunya dengan digitasi manual pada setiap bentuk bangunan secara interpretasi visual, namun membutuhkan waktu yang lama. Kebutuhan mendesak dan permintaan yang banyak dalam pemetaan skala besar, maka diperlukan juga metode yang cepat. Secara umum, cara kerja ekstraksi fitur bangunan pada citra satelit yaitu dengan cara mengenali bentuk bangunan pada citra kemudian merekonstruksikannya. Deep learning merupakan salah satu teknologi yang saat ini semakin berkembang, termasuk dalam bidang penginderaan jauh untuk ekstraksi informasi tertentu di permukaan bumi. Metode yang digunakan dalam penelitian ini adalah pendekatan Deep Learning dengan Object Instance Segmentation, berbasis Mask Regions-Based Convolutional Neural Network (Mask-RCNN). Penelitian ini bertujuan untuk mengetahui tingkat keakuratan dari ekstraksi fitur bangunan secara otomatis yang dihasilkan pada area dengan tingkat kepadatan bangunan yang berbeda pada citra satelit dengan resolusi spasial tinggi. Diperoleh akurasi ekstraksi bangunan pada area padat bangunan mencapai 83,64% dan mencapai 90,74% pada area dengan kepadatan bangunan yang lebih rendah dan mampu mengekstraski bangunan secara otomatis dalam satu NLP skala 1:5.000 dengan cepat. Geometri bangunan yang dihasilkan menunjukkan kedetilan yang akurat dan realistis.