Boyuan Sun

Boyuan Sun (孙博远) is currently a 3rd year Ph.D. candidate at Nankai University, supervised by Prof. Qibin Hou and Prof. Ming-Ming Cheng. He received his bachelor's degree from the School of Computer Science and Technology at Xidian University in 2021. And now he is taking the Master-Ph.D. combined program in Nankai University. His research interests include Computer Vision and Multimodal Large Language Model, particularly focusing on multi-modal visual perception, vison-language model, semi-supervised learning, etc.

Tianjin, China

sbysbysby123@gmail.com

Github

Google Scholar

Blog

中文CV

English CV

Internship Experience

ByteDance

Apr 2026 – Present

Research Intern

Working on streaming video understanding and omni models. Focusing on agentic RL and on-policy training for streaming video.

Streaming Video Understanding Omni Model

Shanghai AI Laboratory

Dec 2025 – Apr 2026

Research Intern

Working on Science Discovery Agent System, focusing on MLE agentic model design, Data analyze agent, and agentic model training.

Science Discovery Agent MLE Data Analyze Agent

Tongyi Lab, Alibaba

Sep 2024 – Dec 2025

Research Intern

Focused on video understanding techniques, especially on training-free token compression, omni model architecture, and fine-grained object understanding for large multimodal models.

Token Compression Video Understanding Video-LLM

Selected Publications

* Equal contribution. # Corresponding author.

Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent

Lei Bai, Zongsheng Cao, Yang Chen, Zhiyao Cui, Shangheng Du, Yue Fan, Shiyang Feng, Zijie Guo, Haonan He, Liang He, Xiaohan He, Shuyue Hu, Yusong Hu, Songtao Huang, Yichen Jiang, Hao Li, Xin Li, Dahua Lin, Weihao Lin, Fenghua Ling, Dongrui Liu, Zhuo Liu, Wenjie Lou, Runmin Ma, Chunjiang Mu, Haoyang Peng, Tianshuo Peng, Jinxin Shi, Luohe Shi, Boyuan Sun, Zelin Tan, Shengji Tang, Yan Teng, Qianyi Wang, Xiaosong Wang, Yiming Wu, Yi Xie, Xiangchao Yan, Jingqi Ye, Peng Ye, Fangchen Yu, Jiakang Yuan, Bihao Zhan, Bo Zhang, Chen Zhang, Shufei Zhang, Shuaiyu Zhang, Wenlong Zhang, Yiqun Zhang, Junpeng Zhao, Zhijie Zhong, Bowen Zhou, Yuhao Zhou

Technical Report

Paper Code Project HF Model ModelScope

MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

Shangheng Du, Xiangchao Yan, Jinxin Shi, Zongsheng Cao, Shiyang Feng, Zichen Liang, Boyuan Sun, Tianshuo Peng, Yifan Zhou, Xin Li, Jie Zhou, Liang He, Bo Zhang, Lei Bai

Technical Report

Paper Code Project

See What I Mean: Aligning Vision and Language Representations for Video Fine-grained Object Understanding

Boyuan Sun, Bo-Wen Yin, Yuan-Ming Li, Xihan Wei, Qibin Hou

IEEE Computer Vision and Pattern Recognition 2026 (CVPR 2026)

Paper Code HF HF Model NL-Refer Dataset

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Modi Jin, Yiming Zhang, Boyuan Sun, Dingwen Zhang, Ming-Ming Cheng, Qibin Hou

IEEE Computer Vision and Pattern Recognition 2026 (CVPR 2026 Highlight)

Paper Code Project Demo HF

Depth Anything at Any Condition

Boyuan Sun*, Modi Jin*, Bowen Yin, Qibin Hou#

Submitted to TPAMI

Paper Code Project Demo HF

LLaVA-Scissor: token Compression with Semantic Connected Components for Video LLMs

Boyuan Sun*, Jiaxing Zhao*, Xihan Wei, Qibin Hou#

Submitted to TMM

Paper Code HF

HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context

Qize Yang*, Shimin Yao*, Weixuan Chen*, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou

Technical Report

Paper Code HF

HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding

Jiaxing Zhao*, Qize Yang*, Yixing Peng*, Detao Bai* Shimin Yao*, Boyuan Sun, Xiang Chen, Shenghao Fu, Weixuan Chen, Xihan Wei, Liefeng Bo#

Technical Report

Paper Code

LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding

Boyuan Sun*, Jiaxing Zhao*, Xiang Chen, Xihan Wei, Qibin Hou#

Arxiv preprint 2025

Paper Code

Facial Dynamics in Video: Instruction Tuning for Improved Facial Expression Perception and Contextual Awareness

Jiaxing Zhao*, Boyuan Sun*, Xiang Chen, Xihan Wei

Association for the Advancement of Artificial Intelligence 2026 (AAAI 2026)

Paper Code

AODRaw: Towards RAW Object Detection in Diverse Conditions

Zhong-Yu Li, Xin Jin, Boyuan Sun, Chun-Le Guo, Ming-Ming Cheng#

IEEE Computer Vision and Pattern Recognition 2025 (CVPR 2025 Highlight)

Paper Code

CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation

Boyuan Sun, Yuqi Yang, Weifeng Yuan, Le Zhang, Ming-Ming Cheng, Qibin Hou#

IEEE Computer Vision and Pattern Recognition 2024 (CVPR 2024)

Paper Code

CamoFormer: Masked Separable Attention for Camouflaged Object Detection

Bowen Yin, Xuying Zhang, Qibin Hou, Bo-Yuan Sun, Deng-Ping Fan, & Luc Van Gool.

Arxiv preprint 2022

Paper Code