🚀Shippingscore 79.4May 15, 2026·2605.16165cs.CVcs.AI

Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models

Yishun Lu, Wes Armour

Narrative

The core claim is that second-order optimization (specifically SOAP) handles the gradient heterogeneity between vision and language modalities better than AdamW in unified autoregressive models like Janus and Emu3. The proposed ML-FOP-SOAP adds Fisher-Orthogonal Projection to suppress cross-modal variance conflicts and a hierarchical gradient folding strategy to make second-order preconditioning tractable at large batch sizes. Reported gains are 1.4× sample efficiency and 1.5× wall-clock speedup over AdamW at batch size 8192 — meaningful numbers if they hold across architectures, though the evaluation is limited to two models.

No production traction yet. Zero citations and all GitHub references are arxiv-tracking newsletters and daily digest bots, not implementations or forks. The work is too recent to assess adoption, but the practical angle — fixing multimodal training instability with a drop-in optimizer — is the kind of thing that gets picked up quickly by teams actively training unified image-text models if the results replicate.

Abstract

Autoregressive next-token training offers a unified formulation for image generation and text understanding, but it also creates strong modality competition that destabilizes optimization and limits large-batch scaling. We show that first-order optimizers such as AdamW are vulnerable to cross-modality gradient heterogeneity, while second-order preconditioning, particularly SOAP, provides a more stable basis for multimodal alignment. Building on this insight, we propose \emph{ML-FOP-SOAP}, a second-order optimization framework with Multi-Level Variance Correction. Our Fisher-Orthogonal Projection suppresses variance-induced modality conflicts, reducing the trade-off between visual generation and textual understanding. To make this practical under large gradient accumulation, we introduce a hierarchical folding strategy that captures fine-grained variance with low micro-step overhead. Experiments on Janus and Emu3 show consistent gains across both modalities and stable training at batch size 8192. Compared with AdamW, our method improves sample efficiency by up to $1.4\times$ and accelerates wall-clock training by up to $1.5\times$, offering a robust optimizer for scaling multimodal foundation models.

Citation timeline

Not enough citation snapshots yet to plot a timeline. Come back after a few cron runs.

Signal

Stars: 180
Repos: 10
Citations: 0
Velocity: 0.00/d

GitHub repos (17)

onion-liu/arxiv_daily_aigc⭐ 85
“ </div> <a href="http://arxiv.org/abs/2605.16165v1" target="_blank" class="paper-link"> Read Paper (PDF) </a> ”
CSQianDong/Awesome-arXiv-Daily-Reporter⭐ 47
“{'arxiv_id': 'arXiv:2605.16223', 'title': 'Evaluating Design Video Generation: Metrics for Compositional Fidelity', 'authors': 'Adrienne Deganutti, Dingning Cao, Jaejung Seol, Elad Hirsch, Purvanshi Mehta', 'link': 'https://arxiv.org/abs/2605.16223', 'abstract': 'Generative video”
wwd29/arxiv-daily⭐ 21
“<ul> <li>Authors: Yishun Lu, Wes Armour</a></li> <li>Subjects: cs.CV, cs.AI</a></li> <li>Abstract URL: <a href="https://arxiv.org/abs/2605.16165">https://arxiv.org/abs/2605.16165</a></li> <li>Pdf URL: <a href="ht”
ZenAlexa/agi-brief-history⭐ 11
“- **Summary**: LLM agents routinely serve as first (and sometimes only) readers of academic papers, skimming for sub-claims, extracting reproducibility steps, and generalizing scope. Standard prose papers produce recurring failures in this role: sub-claims that cannot be cited at”
lonePatient/lonePatient.github.io⭐ 9
“{% hideToggle 点击查看摘要 %} {% note blue no-icon %} ID-44-Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models {% endnote %} **链接**: https://arxiv.org/abs/2605.16165 **作者**: Yishun Lu,Wes Armour **类目**: Computer Vision and Pattern Recognition (c”
2shin0/arxiv-ai-mailing⭐ 6
“ ## 62. Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models - **Authors**: Yishun Lu , Wes Armour - **URL**: [https://arxiv.org/abs/2605.16165](https://arxiv.org/abs/2605.16165) - **Abstract**: > Autoregressive next-token training offers a u”
lzx1413/daily_paper⭐ 2
“ ### 1. Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models **⭐⭐⭐⭐** (相关度: 95%, 质量: 0.8) - **arXiv ID**: [2605.16165](https://arxiv.org/abs/2605.16165) - **PDF**: [📄 Download](https://arxiv.org/pdf/2605.16165) - **作者**: Yishun Lu, Wes Armo”
NeoCodeSmith/NeoSignal⭐ 1
“ { "id": "19d43bb7a1a1", "title": "Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models", "url": "https://arxiv.org/abs/2605.16165", "summary": "arXiv:2605.16165v1 Announce Type: cross Abstract: Autoregressive next-”
nx1/nx1.github.io⭐ 1
“<a href="https://arxiv.org/abs/2605.16126">Entropy Across the Bridge: Conditional-Marginal Discretization for Flow and Schr\"odinger Samplers</a> <a href="https://arxiv.org/abs/2605.16134">Navigating Potholes with Geometry-Aware Sharpness Minimization</a> <a href="https://arxiv.o”
sirichen2/sirichen2.github.io⭐ 0
“ "Yishun Lu", "Wes Armour" ], "abs_url": "https://arxiv.org/abs/2605.16165v1", "pdf_url": "https://arxiv.org/pdf/2605.16165v1", "published": "2026-05-15T16:45:56+00:00", "updated": "2026-05-15T16:45:56+00:00",”
windrise/windrise.github.io⭐ 0
“ ], "primary_category": "cs.CV", "links": { "paper": "http://arxiv.org/abs/2605.16165v1", "pdf": "https://arxiv.org/pdf/2605.16165v1" }, "arxiv_id": "2605.16165v1",”
Jack-Zhuang/ai-daily-report⭐ 0
“ | 大语言模型 | <a href="https://arxiv.org/abs/2605.16165v1" target="_blank"> arXiv原文</a> </div”
xiuguangli/DailyArxiv⭐ 0
“ "date": "2026-05-18", "date_url": "https://arxiv.org/catchup/cs.CV/2026-05-18?abs=True", "arxiv_id": "2605.16165", "abs_url": "https://arxiv.org/abs/2605.16165", "pdf_url": "https://arxiv.org/pdf/2605.16165", "title": "Second-Order ”
mghnasiri/PORID⭐ 0
“ { "title": "Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models", "authors": "Yishun Lu, Wes Armour", "url": "http://arxiv.org/abs/2605.16165v1", "date": "2026-05-15" } ]”
iamhenryhuang/Daily-AI-Paper-Digest⭐ 0
“| 2 | [Runtime-Orchestrated Second-Order Optimization for Scalable LLM Training](http://arxiv.org/abs/2605.16184v1) | 2026-05-15 | cs.DC, cs.LG | +2 提及頂級機構：mit | | 2 | [MAgSeg: Segmentation of Agricultural Landscapes in High-Resolution Satellite Imagery using Multimodal Large Lan”
mickdur/tech-watch⭐ 0
“ "https://arxiv.org/abs/2605.16142": "2026-05-18T07:51:44.206446+00:00", "https://arxiv.org/abs/2605.16143": "2026-05-18T07:51:44.206446+00:00", "https://arxiv.org/abs/2605.16153": "2026-05-18T07:51:44.206446+00:00", "https://arxiv.org/abs/2605.16165": "2026-05-18T07:51:44”
nununuma-sabu/RSS_Go⭐ 0
“ "https://media.zenet-web.co.jp/entry/2026/05/15/152410", "https://developer.medley.jp/event-reports/entry/2026/05/15/163840", "https://arxiv.org/abs/2605.15835", "https://arxiv.org/abs/2605.16165", "https://arxiv.org/abs/2605.15722", "https://techblog.nhn-techorus.com”