Abstract:We consider the following Minimum Connectivity Inference problem (MCI), which arises in structural biology: given vertex sets V i ⊆ V, i ∈ I, nd the graph G = (V, E) minimizing the size of the edge set E, such that the sub-graph of G induced by each V i is connected. This problem arises in structural biology, when one aims at nding the pairwise contacts between the proteins of a protein assembly, given the lists of proteins involved in sub-complexes. We present four contributions. First, using a reduction of set cover, we establish that MCI is APX-hard. Second, we show how to solve the problem to optimality using a mixed integer linear programming formulation (MILP). Third, we develop a greedy algorithm based on union-nd data structures (Greedy), yielding a 2(log 2 |V | + log 2 κ)-approximation, with κ the maximum number of subsets V i a vertex belongs to. Fourth, application-wise, we use the MILP and the greedy heuristic to solve the aforementioned connectivity inference problem in structural biology. We show that the solutions of MILP and Greedy are more parsimonious than those reported by the algorithm initially developed in biophysics, which are not qualied in terms of optimality. Since MILP outputs a set of optimal solutions, we introduce the notion of consensus solution. Using assemblies whose pairwise contacts are known exhaustively, we show an almost perfect agreement between the contacts predicted by our algorithms and the experimentally determined ones, especially for consensus solutions. Key-words: Connectivity Inference Connected induced sub-graphs, network design, APX-hard, Mixed integer linear program, Greedy algorithm, Mass spectrometry, Protein assembly, Structural biology, Biophysics, Molecular machines * INRIA Sophia-Antipolis -Méditerranée † Univ. Nice Sophia Antipolis, CNRS, I3S, UMR 7271, 06900 Sophia Antipolis, France ‡ Correspondence to Frederic.Cazals@inria.fr or to David.Coudert@inria.fr Inférence de la connectivité pour la détermination de structure en spectrométrie de masse Résumé : Nous considérons le problème d'Inférence de Connectivité Minimale (Minimum Connectivity Inference ou MCI) qui se pose en biologie structurale: étant donnés des ensembles de sommets V i ⊆ V, i ∈ I, trouver le graphe G = (V, E) minimisant la taille de l'ensemble des arêtes E, de telle sorte que le sous-graphe de G induit par chaque ensemble V i soit connexe. Ce problème se pose en biologie structurale pour la determination des contacts plausibles entre les protéines d'un assemblage à partir des listes de protéines présentes dans des sous-complexes. Nous présentons quatre contributions.Premièrement, nous montrons que le problème MCI est APX-hard en utilisant une réduction de set cover. Deuxièmement, nous présentons une formulation en programme linéaire mixte (MILP) permettant de résoudre MCI de façon optimale. Troisièmement, nous proposons un algorithme glouton (Greedy) basé sur des structures de données Union-Find. Nous montrons que cet algorithme est une 2(log 2 |V | + log 2 κ)-approximation de l'op...