Research archive

Publications

Selected work, connected research series, and the broader publication record. * Equal contribution. † Corresponding author.

Research Series 01

Remote Sensing Image Interpretation

Open-vocabulary perception and detailed language grounding for understanding the Earth at scale.

5papers

arXiv 2025 DescribeEarth method and sample results

Featured work

DescribeEarth: Describe Anything for Remote Sensing Images

Kaiyu Li*, Zixuan Jiang*, Xiangyong Cao†, Jiayu Wang, Yuchen Xiao, Deyu Meng, Zhi Wang

PaperCodeStarsDatasetBenchmark

Introduces geo-spatial detailed localized captioning.
Builds the first describe-anything model for remote sensing.
Releases the associated dataset and evaluation benchmark.

Media遥感与深度学习码科智能 CV炼丹术

CVPRW2026

The Second Challenge on Cross-Domain Few-Shot Object Detection at NTIRE 2026: Methods and Results

Xingyu Qiu, Yuqian Fu, Jiawei Geng, Bin Ren, ..., Kaiyu Li, Bowen Fu, Zixuan Jiang, Ke Li, Hui Qiao, Xiangyong Cao, ...

arXiv2026

OVEarth-Bench: Evaluating Category Breadth and Query Diversity for Open-Vocabulary Earth Observation

Kaiyu Li, Zepeng Xin, Zixuan Jiang, Jing Fu, Lanxuan Xue, Lingyu Zhang, Xiangyong Cao

PaperProject

CJIG2026

Advances in Open-Vocabulary Perception for Remote-Sensing Images

Kaiyu Li, Xiangyong Cao†, Zixuan Jiang, Deyu Meng

arXiv2025

Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images

Kaiyu Li, Xiangyong Cao†, Ruixun Liu, Shihong Wang, Zixuan Jiang, Zhi Wang, Deyu Meng

Research Series 02

Audio Intelligence

Interactive speech systems and evaluation methods that move recognition beyond a single pass.

4papers

arXiv 2026

Featured work

AgenticASR: Refining Speech Recognition in Real-World Scenarios via an Agentic Approach

Zixuan Jiang*, Binghao Qiang*, Jiaying Chi*, Yanqiao Zhu, Kai Yu, Xie Chen†

PaperProject PageCodeStarsAASR-Bench

Defines Agentic Speech Recognition as final-intent-preserving audio-to-clean-text recognition.
Introduces a decoupled ASR–Refiner system for bilingual online and offline refinement.
Releases AASR-Bench with 6,637 atomic rubrics and leads the evaluated ASR families.

arXiv 2026 Interactive ASR system overview

Featured work

Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

Zixuan Jiang*, Yanqiao Zhu*, Peng Wang*, Qinyuan Chen, Xinjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen†

PaperProject PageLive Demo

Extends one-pass ASR into an interactive system with user feedback and semantic correction.
Introduces an agent-based framework for interactive speech recognition.
Develops the S²ER metric and ISS simulation framework for semantic evaluation.

arXiv2026

MMAE: A Massive Multitask Audio Editing Benchmark

Ziyang Ma, Ruiqi Yan, Ruiyang Xu, Jie Fang, ..., Yanru Huo, Zixuan Jiang, Xiquan Li, Yalin Li, ..., Xie Chen

CodeStarsDataset

arXiv2026

Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition

Peng Wang*, Yanqiao Zhu*, Zixuan Jiang*, Qinyuan Chen, Xingjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen†