Publications

Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu (2026). UniT: Unified Multimodal Chain-of-Thought Test-time Scaling. In arXiv:2602.12279.

PDF Cite Project

Haochen Zhang, Animesh Sinha, Felix Juefei-Xu, Haoyu Ma, Kunpeng Li, Zhipeng Fan, Xiaoliang Dai, Tingbo Hou, Peizhao Zhang, Zecheng He (2025). Conversational Image Generation: Towards Multi-Round Personalized Generation with Multi-Modal Language Models. In WACV 2026.

PDF Cite

Cong Wei, Bo Sun, Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Péter Vajda, Wenhu Chen (2025). MoCha: Towards Movie-Grade Talking Character Synthesis. In NeurIPS 2025.

PDF Cite Project

Feng Liang, Haoyu Ma, Zecheng He, Tingbo Hou, Ji Hou, Kunpeng Li, Xiaoliang Dai, Felix Juefei-Xu, Samaneh Azadi, Animesh Sinha, Peizhao Zhang, Péter Vajda, Diana Marculescu (2025). Movie Weaver: Tuning-Free Multi-Concept Video Personalization with Anchored Prompts. In CVPR 2025.

PDF Cite Project

Kunpeng Song, Tingbo Hou, Zecheng He, Haoyu Ma, Jialiang Wang, Animesh Sinha, Sam Tsai, Yaqiao Luo, Xiaoliang Dai, Li Chen, Xide Xia, Peizhao Zhang, Péter Vajda, Ahmed Elgammal, Felix Juefei-Xu (2024). DirectorLLM for Human-Centric Video Generation. In BMVC 2025.

PDF Cite

Movie Gen team (2024). Movie Gen: A Cast of Media Foundation Models. In arxiv:2410.13720.

PDF Cite Dataset Blog

Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Péter Vajda, Animesh Sinha (2024). Imagine yourself: Tuning-Free Personalized Image Generation. In arxiv:2409.13346.

PDF Cite Project

Animesh Sinha, Bo Sun, Anmol Kalia, Arantxa Casanova, Elliot Blanchard, David Yan, Winnie Zhang, Tony Nelli, Jiahui Chen, Hardik Shah, Licheng Yu, Mitesh Kumar Singh, Ankit Ramchandani, Maziar Sanjabi, Sonal Gupta, Amy Bearman, Dhruv Mahajan (2023). Text-to-Sticker: Style Tailoring Latent Diffusion Models for Human Expression. In ECCV 2024.

PDF Cite Blog

Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic (2023). Context Diffusion: In-Context Aware Image Generation. In ECCV 2024.

PDF Cite Project

Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua (2023). GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation. In CVPR 2024.

PDF Cite Project

Saksham Suri, Fanyi Xiao, Animesh Sinha, Sean Chang Culatana, Raghuraman Krishnamoorthi, Chenchen Zhu, Abhinav Shrivastava (2023). Gen2Det: Generate to Detect. In CVPRW 2024.

PDF Cite

Arka Sadhu, Licheng Yu, Animesh Sinha, Hugo Chen, Ram Nevatia, Ning Zhang (2023). Unaligned Video-Text Pre-training using Iterative Alignment. Under Review.

PDF

Suvir Mirchandani, Licheng Yu, Mengjiao MJ Wang, Animesh Sinha, Wenwen Jiang, Tao Xiang, Ning Zhang (2022). FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning. In EMNLP 2022.

PDF Cite

Licheng Yu, Jun Chen, Animesh Sinha, Mengjiao MJ Wang, Hugo Chen, Tamara L. Berg, Ning Zhang (2022). CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni Retrieval. In KDD 2022.

PDF Cite Poster Blog

Filip Radenovic, Animesh Sinha, Albert Gordo, Tamara Berg, Dhruv Mahajan (2021). Large-Scale Attribute-Object Compositions. In arxiv:2105.11373.

PDF Cite Blog