MAMMA: motion capture multi-persona senza marker (e senza impazzire)

Ok, partiamo dal nome: MAMMA. Che non è un acronimo casuale, ma sta per Markerless Accurate Multi-person Motion Acquisition. Tradotto: catturare il movimento di più persone contemporaneamente, senza attaccargli addosso quei pallini riflettenti che avete visto nei documentari sui videogiochi AAA. E con una precisione che, spoiler, fa concorrenza ai sistemi Vicon da decine di migliaia di euro.

Il problema classico del motion capture senza marker? Quando due persone interagiscono — ballano, si abbracciano, fanno yoga in coppia — i sistemi tradizionali vanno in crisi. Le mani si sovrappongono, i corpi si toccano, le pose diventano ambigue. MAMMA risolve questo casino con un approccio in tre pezzi: una rete neurale transformer che predice landmark densi sulla superficie del corpo, un dataset sintetico enorme per addestrarla, e un’ottimizzazione geometrica che sfrutta incertezza e contatto.

MammaNet: 512 punti sulla pelle, con incertezza inclusa

Il cuore del sistema è MammaNet, una rete che non si limita a dire ‘questa è una mano’. Predice esattamente 512 landmark sulla superficie corporea — coordinate pixel, incertezza per ciascun punto, visibilità, e qui viene il bello: probabilità di contatto persona-persona e persona-pavimento.

A differenza di altri approcci, ogni landmark ha il suo embedding specifico. Il che significa che la rete impara a riconoscere ‘gomito destro piegato a 90 gradi mentre tocca la spalla di un’altra persona’ come concetto a sé. Risultato? Generalizza anche su pose estreme, fuori distribuzione — quelle che nei dataset normali non esistono proprio.

L’architettura usa ViT-Base per estrarre feature dall’immagine, una CNN per processare la maschera di segmentazione, e un decoder Transformer per sputare fuori quei 512 punti. Con le loro coordinate μ, deviazione standard σ (l’incertezza), visibilità p, e le probabilità di contatto pc e fl.

MammaSyn: 2.5 milioni di crop sintetici, pose impossibili incluse

Per addestrare una bestia del genere servivano dati. Tanti. Il team ha creato MammaSyn, un dataset sintetico da 2.5 milioni di crop che estende BEDLAM con setup multi-vista e rendering ad alta risoluzione. Tre sotto-categorie:

MammaSyn-S (Single): movimenti da BEDLAM e MOYO, persone singole.
MammaSyn-I (Interactions): Hi4D, Harmony4D, Inter-X più interazioni catturate dal team stesso. Abbracci, spinte, danza.
MammaSyn-H (Hands): SignAvatars e Interhand2.6M. Perché le mani sono il dettaglio che fa la differenza tra ‘quasi giusto’ e ‘perfetto’.

Pose estreme, mani ad alta fedeltà, interazioni complesse. Tutto sintetico, tutto con ground truth perfetto. Ed è questo che permette a MammaNet di funzionare anche quando una persona è parzialmente coperta dalla maschera o in pose da contorsionista.

Matching multi-vista: geometria epipolare e Hungarian assignment

Avere landmark precisi su ogni vista è metà del lavoro. L’altra metà? Capire quale persona nella vista A corrisponde a quale nella vista B. MAMMA usa la distanza epipolare simmetrica — una misura geometrica che confronta quanto un punto in una vista ‘rispetta’ le linee epipolari nell’altra.

Formula: si calcola la distanza punto-linea in entrambe le direzioni, si media. Poi si risolve un problema di assegnamento Ungherese per trovare i match ottimali uno-a-uno. I match con alta affinità vengono collegati in un grafo di corrispondenza ciclicamente consistente. Che in pratica significa: se A corrisponde a B nella vista 1-2, e B a C nella 2-3, allora A deve corrispondere a C nella 1-3. Zero ambiguità.

Ottimizzazione: da landmark 2D a corpo SMPL-X completo

Una volta che hai landmark 2D matched e affidabili, tocca fittare il modello SMPL-X — quello con corpo, mani articolate, espressioni facciali. MAMMA lo fa in tre stage, senza inizializzazione da regressione (i landmark densi bastano da soli):

Stage 1 — Reprojection error: risolve traslazione e rotazione globali minimizzando la distanza tra landmark predetti e vertici del modello proiettati. L’incertezza σ pesa ogni punto, e una funzione robusta Geman-McClure gestisce gli outlier.

Stage 2 — Pose e shape: ottimizza posa e forma del corpo completo, con regolarizzazione per evitare deformazioni irrealistiche. L’incertezza viene ricalibrata in base all’errore di riproiezione — se un punto non si allinea col modello 3D, il suo peso scende.

Stage 3 — Contact optimization: qui entra in gioco la fisica. Due termini energetici: uno che previene compenetrazione, uno che attrae i punti dove il contatto è stato predetto. Risultato: abbracci, danze, prese di mano vengono ricostruite con contatto fisicamente plausibile, non corpi che si attraversano o galleggiano a 2cm l’uno dall’altro.

Le probabilità di contatto vengono mediate tra tutte le viste per un segnale robusto. Il che significa: se tre camere su quattro dicono ‘qui c’è contatto’, vince la maggioranza.

Risultati: meno di 1mm di differenza con i marker Vicon

Il benchmark quantitativo è brutale. MAMMA viene testato su dataset con ground truth da sistema marker-based Vicon sincronizzato con camere RGB multi-vista. Due nuovi dataset introdotti dal team: MammaEval-Singles e MammaEval-Dance.

Numeri su Harmony4D (interazioni a due): MPJPE 45.26mm, PVE 34.02mm. Su RICH (singoli): 22.20mm MPJPE, 19.76mm PVE. Confronto con CameraHMR, che già andava forte? MAMMA lo batte su tutti i dataset tranne un pareggio tecnico su MammaEval-S.

Ma il test più impressionante è il confronto Vicon. Usano 37 marker ‘held-out’ — marker fisici piazzati sui soggetti ma non usati dal fitting MoSh++. Confrontano la posizione di questi marker reali con marker virtuali sulle mesh ricostruite da MoSh++ (gold standard marker-based) e MAMMA (markerless). Differenza media? Meno di 1mm. Praticamente identico.

Bonus: funziona anche con quattro iPhone

Oltre ai setup da laboratorio con camere calibrate, MAMMA è stato testato con quattro iPhone. Quattro. In ambienti indoor e outdoor non controllati. E funziona. Non con la stessa precisione sub-millimetrica del Vicon, chiaro, ma abbastanza bene da essere utilizzabile per produzioni indie, ricerca biomeccanica sul campo, o semplicemente per chi non ha 100k€ da spendere in attrezzatura.

Il dataset MAMMA completo — catture nuove con varie attività e interazioni — è disponibile pubblicamente. Licenza, codice, tutto. Apache 2.0 per il codice, immagino (anche se il paper non lo specifica esplicitamente, ma è Max Planck, di solito sono aperti).

Perché conta

Motion capture multi-persona senza marker non è un problema risolto. La maggior parte dei sistemi crolla quando i soggetti interagiscono davvero — non ‘stanno vicini’, ma si toccano, si spingono, ballano contact improv. MAMMA porta precision da laboratorio in un setup che costa una frazione, scala a scenari reali, e gestisce contatto fisico in modo esplicito.

E quel confronto con i marker Vicon? Quello è il segnale che questo non è l’ennesimo paper con demo cherry-picked. È un sistema che tiene testa all’hardware professionale. Con del software e quattro telecamere.