3

VQ-VA World: Towards High-Quality Visual Question-Visual Answering

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation

Emerging properties in unified multimodal pretraining

Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness

Rejuvenating image-GPT as Strong Visual Representation Learners