Publications | Zeyu Wang

Chenhui Gou*, Zilong Chen*, Zeyu Wang*, Feng Li, Deyao Zhu, Zicheng Duan, Kunchang Li, Chaorui Deng, Hongyi Yuan, Haoqi Fan, Cihang Xie, Jianfei Cai, Hamid Rezatofighi (2025). VQ-VA World: Towards High-Quality Visual Question-Visual Answering. ArXiv Preprint. * denotes equal contribution.

PDF

Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye (2025). When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought. ArXiv Preprint..

PDF

Zeyu Wang*, Zilong Chen*, Chenhui Gou*, Feng Li, Chaorui Deng, Deyao Zhu, Kunchang Li, Weihao Yu, Haoqin Tu, Haoqi Fan, Cihang Xie (2025). LightFusion: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation. ArXiv Preprint. * denotes equal contribution.

PDF

Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan (2025). Emerging properties in unified multimodal pretraining. ArXiv Preprint..

PDF Code Project

Zeyu Wang, Cihang Xie, Brian Bartoldson, Bhavya Kailkhura (2025). Double Visual Defense: Adversarial Pre-training and Instruction Tuning for Improving Vision-Language Model Robustness. ArXiv Preprint..

PDF

Xianhang Li*, Haoqin Tu*, Mude Hui*, Zeyu Wang*, Bingchen Zhao*, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie (2024). What If We Recaption Billions of Web Images with LLaMA-3?. ICML2025. * denotes equal contribution.

PDF Code Dataset Project

Zeyu Wang*, Xianhang Li*, Hongru Zhu, Cihang Xie (2024). Revisiting Adversarial Training at Scale. CVPR2024. * denotes equal contribution.

PDF Code

Sucheng Ren*, Zeyu Wang*, Hongru Zhu, Junfei Xiao, Alan Yuille, Cihang Xie (2023). Rejuvenating image-GPT as Strong Visual Representation Learners. ICML2024. * denotes equal contribution.

PDF Code

Yipeng Gao, Zeyu Wang, Wei-Shi Zheng, Cihang Xie, Yuyin Zhou (2023). Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training. CVPR2024.

PDF Code

Peiran Xu*, Zeyu Wang*, Jieru Mei, Liangqiong Qu, Alan Yuille, Cihang Xie, Yuyin Zhou (2023). FedConv: Enhancing Convolutional Neural Networks for Handling Data Heterogeneity in Federated Learning. TMLR2024. * denotes equal contribution.

PDF Code

Zeyu Wang*, Dingwen Li*, Chenxu Luo, Cihang Xie, Xiaodong Yang (2023). DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal Knowledge Distillation. ICCV2023. * denotes equal contribution.

PDF Code

Xianhang Li*, Zeyu Wang*, Cihang Xie (2023). An Inverse Scaling Law for CLIP Training. NeurIPS2023. * denotes equal contribution.

PDF Code

Shaoyuan Xie, Zichao Li, Zeyu Wang, Cihang Xie (2023). On the Adversarial Robustness of Camera-based 3D Object Detection. TMLR2024..

PDF Code

Yutong Bai, Zeyu Wang, Junfei Xiao, Chen Wei, Huiyu Wang, Alan Yuille, Yuyin Zhou, Cihang Xie (2022). Masked Autoencoders Enable Efficient Knowledge Distillers. CVPR2023.

PDF Code

Zeyu Wang, Yutong Bai, Yuyin Zhou, Cihang Xie (2022). Can CNNs Be More Robust Than Transformers?. ICLR2023.

PDF Code

Yinda Xu*, Zeyu Wang*, Zuoxin Li, Ye Yuan, Gang Yu (2019). Siamfc++: Towards robust and accurate visual tracking with target estimation guidelines. AAAI2020. * denotes equal contribution.

PDF Code