About Me

I am currently actively seeking job opportunities related to LLM agents, software engineering, and real-world automation. Welcome to email me at hyshen@stu.pku.edu.cn if you are interested.

I am SHEN Haiyang, a Ph.D. candidate at the School of Computer Science, Peking University, advised by Assistant Professor Yun Ma.

I work on LLM agents, software engineering, and data synthesis for real-world automation. My current research takes a data-centric view of agent development: the bottleneck is not only model capability, but also how we discover, define, and scale the right tasks from real software systems, user trajectories, and executable environments. Since late 2024, I have focused on agent data synthesis, including graph/search data synthesis for deep research and agentic retrieval, and coding agent benchmark/data synthesis through Monthly-SWEBench, DeepTerminalBench, and EvoCodeBench.

My long-term vision is to build a fully automated self-improving loop for agents: systems that discover real problems from software systems and user trajectories, define them as measurable tasks, synthesize benchmark and training data, run experiments, and use feedback to improve the next generation of agents. Inspired by autoresearch, I hope to move this loop toward fully automated agent self-evolution and continual evolution.

My research group is affiliated with the Data Space Technology and Systems Research Center, led by Academician Hong Mei and Professor Gang Huang, with faculty members including Xuanzhe Liu, Xin Jin, and Yun Ma. The center has long-standing strengths in machine learning systems, software engineering, systems, edge/mobile computing, and AI infrastructure.

Research and Engineering Experience

2025.12 – 2026.07 Intern, UniPat AI, a leading agent-data company focused on accelerating AI toward real-world automation. Deeply involved in the development and research of high-quality code benchmarks for Terminal-X, including Deep-TerminalBench, EvoCode-Bench, Roadmap-Bench, and Monthly-SWEBench. This work goes beyond human-in-the-loop benchmark construction, extending to fully automated, large-scale high-quality data construction pipelines that have already created substantial economic value.
2025.06 – 2025.11 Intern, Tongyi DeepResearch Group, Tongyi Lab, Alibaba, one of China’s top LLM labs. Deeply investigated graph data synthesis for improving agentic retrieval performance in DeepResearch.
2022 – now PKU Outstanding Research Award and Ubiquant Scholarship, Peking University.
2022.09 – now Ph.D. candidate in Computer Science and Technology, School of Computer Science in Peking University.
2024.10 – 2025.03 Intern of Miracleplus & Shanghai AI Lab. Explored complex graph data synthesis for agentic retrieval, focusing on generating structured, multi-hop graph data to improve agents’ ability to retrieve, connect, and reason over heterogeneous information.
2022.08 – 2022.10 Intern of Alibaba Innovative Research in Technical & Quality of Fliggy, Alibaba. Explored AI-based prediction of abnormal software usage patterns from page-access and interaction logs. Resigned early to work remotely due to the pandemic.
2019 – 2021 National Scholarship, First Class Scholarship, and Wu Yajun Scholarship of Northwestern Polytechnical University.
2018.09 – 2022.07 B.Sc. in Computer Science and Technology, School of Computer Science in Northwestern Polytechnical University.

Publications

^* Co-first author or project leader. ^✉ Corresponding author.

Software-System Agents, Benchmarks, and Data Synthesis

Haiyang Shen^*, Xuanzhong Chen^*, Wendong Xu^*, Yun Ma^✉, Liang Chen^✉, Kuan Li^✉. EvoCodeBench: Evaluating Coding Agents in Multi-Turn Iterative Interactions. 2026.
- arXiv
- Benchmark
- Blog
- GitHub
- Dataset
UniPat AI Coding Team. DeepTerminalBench: Single-Shot Deep Engineering Tasks in Terminal-X. 2026. Benchmark.
- Blog
- GitHub
- Dataset
Xinbo Xu, Ruihan Yang, Haiyang Shen, Wendong Xu, Bofei Gao, Ruoyu Wu, Kean Shi, Weichu Xie, Xuanzhong Chen, Ming Wu, Jason Zeng, Michael Heinrich, Liang Chen, Kuan Li, Baobao Chang. RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades. 2026.
- arXiv
- Benchmark
- Blog
- GitHub
- Dataset
Haiyang Shen^*, Xinbo Xu^*, Xuanzhong Chen, Wendong Xu^✉, Elvis Zhang, Kaiyuan Chen, Xiaobo Hu, Rui Wang, Yang Liu, Yixin Ren, Yuan Gong, Liang Chen, Kuan Li^✉. Monthly-SWEBench: A Living, Rigorously Verified Benchmark for Real-World Software Engineering. 2026. Live Benchmark.
- Live Benchmark
- Dataset
Haiyang Shen, Yue Li, Desong Meng, Dongqi Cai, Sheng Qi, Li Zhang, Mengwei Xu, Yun Ma^✉. ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents. The Thirteenth International Conference on Learning Representations (ICLR). 2025. Top Conference on Machine Learning.
Haiyang Shen, Yue Li, Zhiyang Chen, Yun Ma^✉. EasIPA: Enhancing LLM’s Ability to Select APIs for IPA. International Conference on Service Science. 2025.
- Paper
Haiyang Shen, Yun Ma^✉, Yue Li, Xiaoling Wang, Deyu Tian, Tong Jia, Tengfei He, Shenghua Luo. ADPal: Automatic Detection of Troubled Users in Online Service Systems via Page Access Logs. 2023 IEEE International Conference on Web Services (ICWS). 2023. Top Conference on Service Computing.
- DOI
- GitHub
Wenchun Jing, Haiyang Shen, Haoran Wang, Qi Liu, Ningyuan Li, Chaoran Luo, Ning Zhang, Yun Ma. MCP-Focus: Leveraging Function-Oriented Document Enhancement for MCP Server Retrieval. The ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR). 2026.
- GitHub
Zhuofan Shi, Hubao A, Yufei Shao, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing. MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics. 2026.
- arXiv
- GitHub
Guoqing Wang, Zeyu Sun, Yizhou Chen, Yifan Zhao, Haiyang Shen, Qingyuan Liang, Dan Hao^✉. Beyond the Sum of Parts: Leveraging Entanglement for Bug Inducing Commit Localization. IEEE Transactions on Software Engineering. 2025. Top Journal in Software Engineering.
- DOI

Graph/Search Data Synthesis for Deep Research

Haiyang Shen^*, Taian Guo^*, Xuanzhong Chen^*, Mugeng Liu, Weichen Bi, Wenchun Jing, Sixiong Xie, Zhuofan Shi, Yudong Han, Chongyang Pan, Siqi Zhong, Jinsheng Huang, Ming Zhang^✉, Yun Ma^✉. MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis. 2026.
- arXiv
- GitHub
Sixiong Xie^*, Zhuofan Shi^*, Haiyang Shen^*✉, Jiuzheng Wang, Siqi Zhong, Chongyang Pan, Mugeng Liu, Peilun Jia, Baoqing Sun, Xiang Jing, Yun Ma^✉. DeepWeb-Bench: A Deep Research Benchmark Demanding Massive Cross-Source Evidence and Long-Horizon Derivation. 2026.
- arXiv
- Project
Haiyang Shen^*, Jiuzheng Wang^*, Taian Guo, Mugeng Liu, Wenchun Jing, Chongyang Pan, Siqi Zhong, Zhiyang Chen, Weichen Bi, Yudong Han, Xiaoying Bai, Yun Ma^✉. Teaching AI Through Benchmark Construction: QuestBench as a Course-Based Practice for Accountable Knowledge Work. 2026.
- arXiv
- Dataset
Ningyuan Li^*, Haiyang Shen^*, Mugeng Liu, Yudong Han, Zhuofan Shi, Sixiong Xie, Yun Ma^✉. SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval. 2026.
- arXiv
- Dataset
Zhengwei Tao^*, Haiyang Shen^*, Baixuan Li^*, Wenbiao Yin, Jialong Wu, Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou, Wentao Zhang^✉, Yun Ma^✉, Zhiqiang Gao^✉. Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking. The Fourteenth International Conference on Learning Representations (ICLR). 2026. Top Conference on Machine Learning.
- Paper
- arXiv
- GitHub
- Dataset
Haiyang Shen^*, Hang Yan^*, Zhongshi Xing, Mugeng Liu, Yue Li, Zhiyang Chen, Yuxiang Wang, Jiuzheng Wang, Yun Ma^✉. DRAGON: Domain-specific Robust Automatic Data Generation for RAG Optimization. Findings of the Association for Computational Linguistics: EACL 2026. 2026. Top Conference on NLP.
- Paper
- arXiv
- GitHub
Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, Dingchu Zhang, …, Haiyang Shen, Xinyu Geng, Yuning Wu, Zijian Li, Yong Jiang^✉. Tongyi DeepResearch Technical Report. 2025.
- arXiv
- GitHub
Zhengwei Tao^*, Jialong Wu^*, Wenbiao Yin, Pu Wu, Junkai Zhang, Baixuan Li, Haiyang Shen, Kuan Li, Liwen Zhang, Xinyu Wang, Yong Jiang^✉, Pengjun Xie, Fei Huang, Jingren Zhou, Wentao Zhang^✉. WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization. The Fourteenth International Conference on Learning Representations (ICLR). 2026. Top Conference on Machine Learning.
- Paper
- arXiv
- GitHub
- Dataset
Zhuofan Shi, Peilun Jia, Baoqing Sun, Haiyang Shen, Sixiong Xie, Yun Ma, Xiang Jing. ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence. 2026.
- arXiv
- GitHub
Baixuan Li^*, Dingchu Zhang^*, Jialong Wu^*, Wenbiao Yin^✉, Zhengwei Tao, Yida Zhao, Liwen Zhang, Haiyang Shen, Runnan Fang, Pengjun Xie, Jingren Zhou, Yong Jiang^✉. ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking. 2025.
- arXiv
- GitHub
Qi Yang, Weichen Bi, Haiyang Shen, Yaoqi Guo, Yun Ma^✉. PixelWeb: The First Web GUI Dataset with Pixel-Wise Labels. 2025.
- arXiv
- Dataset

Financial Agents

Taian Guo^*, Haiyang Shen^*, Junyu Luo, Zhongshi Xing, Hanchun Lian, Jinsheng Huang, Binqi Chen, Luchen Liu, Yun Ma^✉, Ming Zhang^✉. MEME: Modeling the Evolutionary Modes of Financial Markets. 2026.
- arXiv
- GitHub
Taian Guo^*, Haiyang Shen^*, Junyu Luo, Binqi Chen, Hongjun Ding, Jinsheng Huang, Luchen Liu, Yun Ma^✉, Ming Zhang^✉. AlphaPROBE: Alpha Mining via Principled Retrieval and On-graph Biased Evolution. 2026.
- arXiv
- GitHub
Taian Guo^*, Haiyang Shen^*, Jinsheng Huang, Zhengyang Mao, Junyu Luo, Binqi Chen, Zhuoru Chen, Luchen Liu, Bingyu Xia, Yun Ma^✉, Ming Zhang^✉. MASS: Multi-Agent Simulation Scaling for Portfolio Construction. 2025.
- arXiv
- GitHub

LLM Inference on Edge Devices

Siqi Zhong, Mugeng Liu, Haiyang Shen, Chongyang Pan, Yun Ma^✉. LaTune: Lightweight and Adaptive Configuration Tuning for LLM Inference on Edge Devices. Proceedings of the ACM Web Conference 2026. 2026. Top Conference on Web.
- Paper
- GitHub
Zhiyang Chen, Daliang Xu, Haiyang Shen, Chiheng Lou, Mengwei Xu, Shangguang Wang, Xin Jin, Yun Ma^✉. Accelerating Mobile Language Model via Speculative Decoding and NPU-Coordinated Execution. 2025.
- arXiv
Zhiyang Chen, Yun Ma^✉, Haiyang Shen, Mugeng Liu. WeInfer: Unleashing the Power of WebGPU on LLM Inference in Web Browsers. Proceedings of the ACM on Web Conference 2025. 2025. Top Conference on Web.
- Paper
- GitHub
Mugeng Liu, Haiyang Shen, Yixuan Zhang, Hong Mei, Yun Ma^✉. WebAssembly for Container Runtime: Are We There Yet? ACM Transactions on Software Engineering and Methodology. 2025. Top Journal in Software Engineering.
- DOI
- GitHub
Deyu Tian, Haiyang Shen, Yun Ma^✉. Parallelizing DNN Inference in Mobile Web Browsers on Heterogeneous Hardware. Proceedings of the 20th Annual International Conference on Mobile Systems, Applications and Services (MobiSys). 2022. Top Conference on Mobile Computing.
- DOI

Others

Liang Chen^*^✉, Weichu Xie^*, Yiyan Liang^*, Hongfeng He^*, Hans Zhao^*, …, Haiyang Shen, Yixin Ren, Yang Liu, Yuan Gong, Kuan Li^✉. BabyVision: Visual Reasoning Beyond Language. The Forty-third International Conference on Machine Learning (ICML). 2026. Top Conference on Machine Learning.
- arXiv
- Project
- GitHub
- Dataset
Zijian Shao^*, Haiyang Shen^*, Mugeng Liu, Guangyu Fu, Yaoqi Guo, Yuxiang Wang, Yun Ma^✉. Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture. 2025.
- arXiv
- GitHub
Haiyang Shen, Yun Ma^✉. Characterizing the Developer Groups for Metaverse Services in Roblox. 2024 IEEE International Conference on Software Services Engineering (SSE). 2024.
- DOI

Correspondence

Email: hyshen@stu.pku.edu.cn
GitHub: https://github.com/eachsheep
Google Scholar: https://scholar.google.com/citations?user=BI-Mb_EAAAAJ
Homepage: https://eachsheep.space