I. GIỚI THIỆUCách tiếp cận trƣớc đây để phát hiện các chức năng của protein là dựa trên các quan hệ tiến hóa, với tiêu chí thƣờng đƣợc sử dụng là độ tƣơng tự giữa các trình tự [3,23]. Tuy nhiên, chỉ tính tƣơng đồng trình tự thƣờng không đủ để nhận dạng các phức hợp protein đƣợc bảo tồn [12,24,26]. Sự phát triển của các kỹ thuật công nghệ sinh học trong hơn thập kỷ qua đã cho phép xây dựng đƣợc các mạng tƣơng tác protein (Protein-Protein Interraction Network -PPI Network) cho nhiều loài sinh vật. Từ các dữ liệu này, một số bài toán về phân tích mạng PPI đã đƣợc đặt ra (xem [5,8,[15][16][17]), chẳng hạn nhƣ: phân tích cấu trúc tô pô mạng [10], phát hiện mô-đun [4]... Trong đó, đặc biệt quan trọng là các bài toán dóng hàng mạng PPI dựa trên kết hợp thông tin về sự tƣơng tác giữa các protein cùng với mối quan hệ tiến hóa giữa các trình tự. Việc so sánh tính tƣơng đồng của các mạng PPI này cung cấp nhiều thông tin hữu ích cho dự đoán các chức năng chƣa biết hoặc kiểm định các chức năng đã biết của các proteins [9,11,25].Các kỹ thuật dóng hàng mạng PPI phát triển theo hai hƣớng tiếp cận: dóng hàng cục bộ và dóng hàng toàn cục. Với dóng hàng cục bộ, mục tiêu sẽ là xác định các mạng con gần nhau về tô pô mạng hoặc tƣơng tự xâu (xem [13,14,21,24]). Thông thƣờng, kết quả của dóng hàng cục bộ sẽ thể hiện nhiều mạng con chồng lấn nhau, điều này có thể dẫn đến sự nhập nhằng khi một protein có thể đƣợc dóng hàng với nhiều protein khác. Mục tiêu của dóng hàng toàn cục mạng là đƣa ra một đơn ánh giữa các protein của các mạng khác nhau để tránh các nhập nhằng trong dóng hàng cục bộ. Bài toán này đƣợc Aladag và Erten [3] chứng minh là NP-hard.Thuật toán dóng hàng toàn cục đáng chú ý đầu tiên là IsoRank [25]đƣợc Sing et al. (2008) đề xuất, phát triển dựa trên dóng hàng cục bộ. Sau IsoRank, một số thuật toán tƣơng tự đã đƣợc đề xuất nhƣ PATH và GA [26], PISwap [6,7] nhờ đƣa thêm các nới lỏng thích hợp của hàm đánh giá trên tập các ma trận ngẫu nhiên hoặc ứng dụng tìm kiếm cục bộ trên dóng hàng lời giải có sẵn từ một thuật toán khác.MI-GRAAL [15,16] và các biến thể [19,20] dựa trên kết hợp kỹ thuật tham ăn với thông tin heuristics nhƣ: graphlet, hệ số phân nhóm, độ lập dị và độ tƣơng tự (giá trị E-values từ chƣơng trình BLAST). Các thuật toán này đều đƣa ra kết quả nhanh và tốt hơn so với các thuật toán trƣớc đó. Tuy nhiên, những thuật toán đã nêu chỉ tối ƣu cho độ chính xác (hàm mục tiêu) hoặc tính khả mở (thời gian chạy). Vì các mạng PPI có thƣờng số nút lớn nên cả tính chính xác và tính khả mở cần đƣợc quan tâm. Gần đây, Aladag và Erten (2013) đề xuất thuật toán SPINAL [3], là thuật toán cho kết quả tốt nhất và nhanh nhất là hiện nay. SPINAL là một thuật toán heuristic thời gian đa thức, gồm hai pha: pha đầu tính điểm tƣơng đồng cho tất cả cặp protein; pha sau xây dựng đơn ánh xạ bằng cách cải tiến một cách cục bộ từng tập con của lời giải hiện có. Năm 2015, Do, D. D, cùng các cộng sự, đã đề xuất một thuật toán mới là FastNA [25] để dóng hàng toàn cục mạng PPI. Thuật toán gồm hai pha: pha thứ nhất xây dựng dóng hàng ban đầu bằng...