Boyuan Sun (孙博远) is currently a 2nd year Ph.D. candidate at Nankai University, supervised by Prof. Qibin Hou and Prof. Ming-Ming Cheng. He received his bachelor's degree from the School of Computer Science and Technology at Xidian University in 2021. And now he is taking the Master-Ph.D. combined program in Nankai University. His research interests include Computer Vision and Multimodal Large Language Model, particularly focusing on semantic segmentation, semi-supervised learning, vison-language model, etc.

Tianjin, China
sbysbysby123 gmail.com
Github Google Scholar Blog

Selected Publications

( * Equal contribution. # Corresponding author. )

	Depth Anything at Any Condition Boyuan Sun, Modi Jin, Bowen Yin, Qibin Hou# Arxiv preprint 2025 [Paper] [Code] [Project] [Demo] [HuggingFace]
	LLaVA-Scissor: oken Compression with Semantic Connected Components for Video LLMs Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou# Arxiv preprint 2025 [Paper] [Code] [HuggingFace]
	HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou Technical Report* [Paper] [Code] [HuggingFace]
	HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding Jiaxing Zhao, Qize Yang, Yixing Peng, Detao Bai Shimin Yao, Boyuan Sun, Xiang Chen, Shenghao Fu, Weixuan Chen, Xihan Wei, Liefeng Bo# Technical Report* [Paper] [Code]
	LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding Jiaxing Zhao, Boyuan Sun, Xiang Chen, Xihan Wei, Qibin Hou# Arxiv preprint 2025 [Paper] [Code]
	Facial Dynamics in Video: Instruction Tuning for Improved Facial Expression Perception and Contextual Awareness Jiaxing Zhao, Boyuan Sun, Xiang Chen, Xihan Wei Arxiv preprint 2025 [Paper] [Code]
	AODRaw: Towards RAW Object Detection in Diverse Conditions Zhong-Yu Li, Xin Jin, Boyuan Sun, Chun-Le Guo, Ming-Ming Cheng# IEEE Computer Vision and Pattern Recognition 2025 (CVPR 2025 Highlight) [Paper] [Code]
	CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation Boyuan Sun, Yuqi Yang, Weifeng Yuan, Le Zhang, Ming-Ming Cheng, Qibin Hou# IEEE Computer Vision and Pattern Recognition 2024 (CVPR 2024) [Paper] [Code]
	CamoFormer: Masked Separable Attention for Camouflaged Object Detection Bowen Yin, Xuying Zhang, Qibin Hou, Bo-Yuan Sun, Deng-Ping Fan, & Luc Van Gool. Arxiv preprint 2022 [Paper] [Code]

	Depth Anything at Any Condition Boyuan Sun, Modi Jin, Bowen Yin, Qibin Hou# Arxiv preprint 2025 [Paper] [Code] [Project] [Demo] [HuggingFace]
	LLaVA-Scissor: oken Compression with Semantic Connected Components for Video LLMs Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou# Arxiv preprint 2025 [Paper] [Code] [HuggingFace]
	HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou Technical Report* [Paper] [Code] [HuggingFace]
	HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding Jiaxing Zhao, Qize Yang, Yixing Peng, Detao Bai Shimin Yao, Boyuan Sun, Xiang Chen, Shenghao Fu, Weixuan Chen, Xihan Wei, Liefeng Bo# Technical Report* [Paper] [Code]
	LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding Jiaxing Zhao, Boyuan Sun, Xiang Chen, Xihan Wei, Qibin Hou# Arxiv preprint 2025 [Paper] [Code]
	Facial Dynamics in Video: Instruction Tuning for Improved Facial Expression Perception and Contextual Awareness Jiaxing Zhao, Boyuan Sun, Xiang Chen, Xihan Wei Arxiv preprint 2025 [Paper] [Code]
	AODRaw: Towards RAW Object Detection in Diverse Conditions Zhong-Yu Li, Xin Jin, Boyuan Sun, Chun-Le Guo, Ming-Ming Cheng# IEEE Computer Vision and Pattern Recognition 2025 (CVPR 2025 Highlight) [Paper] [Code]
	CorrMatch: Label Propagation via Correlation Matching for Semi-Supervised Semantic Segmentation Boyuan Sun, Yuqi Yang, Weifeng Yuan, Le Zhang, Ming-Ming Cheng, Qibin Hou# IEEE Computer Vision and Pattern Recognition 2024 (CVPR 2024) [Paper] [Code]
	CamoFormer: Masked Separable Attention for Camouflaged Object Detection Bowen Yin, Xuying Zhang, Qibin Hou, Bo-Yuan Sun, Deng-Ping Fan, & Luc Van Gool. Arxiv preprint 2022 [Paper] [Code]