在论文《ATRNet-STAR: A large dataset and benchmark towards remote sensing object recognition in the wild》(发表于 *IEEE Transactions on Geoscience and Remote Sensing* 或 *IEEE Transactions on Pattern Analysis and Machine Intelligence* 早期访问版/预印版)的正文中,对论文《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》(以下简称“Crossearth”)的具体引用描述如下:
**1. 引用描述:**
> "The advent of big data has propelled the evolution of RS pre-training foundation models [18, 19, 20, 21] where large-scale pre-training enables efficient cross-task adaptation with minimal finetuning."
*注:在该论文的参考文献列表中,编号 [21] 对应的即为 Gong 等人发表的《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》。*
**2. 出现位置:**
该引用出现在论文的 **Section 1. INTRODUCTION**(第一部分:引言)中的 **Need for ATRNet**(ATRNet 的必要性)子章节。
**3. 情感判断:**
该描述属于对遥感大模型发展背景的客观陈述,未出现如 "state-of-the-art"、"pioneering" 等明确的积极评价词汇,因此不做情感标注。
经过对论文《Advances on multimodal remote sensing foundation models for Earth observation downstream tasks: A survey》(作者:Guoqing Zhou, Lihuang Qian, Paolo Gamba,发表于《Remote Sensing》/ ProQuest CBL: 2032338)全文的检索与阅读,该论文在正文中引用《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》(Gong et al.)的具体描述如下:
**引用描述 1:**
* **原文内容:** "CrossEarth [204] is a visual foundation model with strong cross-domain generalization ability. This model performs visual tasks through a specially designed data-level Earth-style injection pipeline and a model-level multi-task training pipeline. Moreover, for semantic segmentation tasks, the model outperforms existing state-of-the-art methods on a comprehensive benchmark across different regions, spectral bands, platforms, and climates."
* **出现章节:** **3.4. Vision + Position MM-RSFMs**(或“Advances in MM-RSFMs”章节下的“Vision + Position”小节)
* **情感标注:** **【正面引用】**(注:原文明确使用了 "outperforms existing state-of-the-art methods" 这一积极评价词汇。)
**引用描述 2:**
* **原文内容:** "A chain of the types of MM-RSFMs. RingMo-Sense [13], SkySense [164], ..., CrossEarth [204], GeoCLIP [205], BF-SAM [206], ..."
* **出现章节:** **3. Advances in MM-RSFMs**(出现在该章节的分类概述或图表说明文字中,用于对现有模型进行分类梳理。)
* **情感标注:** (无,此为客观分类陈述。)
**引用描述 3:**
* **原文内容:** "CrossEarth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation. arXiv 2024, arXiv:2410.22629."
* **出现章节:** **References**(参考文献列表第 204 项)
* **情感标注:** (无,此为格式化引用。)
根据对论文《Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality》(arXiv:2603.00988)的正文内容检索,该论文在介绍遥感基础模型的发展时引用了《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》(在文中对应参考文献 **[20]**)。
具体引用描述如下:
**1. 引用描述:**
> "CrossEarth [20] introduces a domain generalization method to perform the semantic segmentation of foundation models across downstream datasets with different styles."
* **所在章节:** Section III-B (Unimodal Foundation Models in RS) 或 Section III (The evolution from unimodality to multimodality) 相关的模型综述部分。
* **情感判断:** 该描述属于客观陈述模型的功能与技术路线("introduces a domain generalization method"),未出现"state-of-the-art"、"pioneering"等显式积极评价词汇,故不标注。
**2. 相关背景提及(若涉及模型分类):**
文中在讨论视觉基础模型(Vision Foundation Models)的泛化性时,将其作为处理下游任务风格差异的代表性工作。
---
**注:**
- 该论文(arXiv:2603.00988)主要将 CrossEarth 视为一种引入域泛化(Domain Generalization)机制以提升下游语义分割任务适应性的单模态或视觉基础模型。
- 尽管 CrossEarth 原文中自称为 "the first vision foundation model for RSDG",但在本篇综述论文(2603.00988)的正文中,作者仅对其进行了中立的技术性转述。
在论文《From Pixels to Images: A Structural Survey of Deep Learning Paradigms in Remote Sensing Image Semantic Segmentation》(arXiv:2505.15147)的正文中,对《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》(Gong等著)的引用描述如下:
**描述 1**
* **原文内容**:
"Gong et al. [273] proposed CrossEarth, a vision foundation model specifically designed for RSISS, combining Earth-style data augmentation with multi-task representation learning. This approach results in robust and transferable feature representations, effectively handling diverse and complex domain shifts."
* **出现位置**:Section 3.1.7 Domain generalization (属于 Section 3 Tile-based Unimodal RSISS 章节)。
* **情感判断**:【正面引用】(理由:使用了 "robust and transferable"、"effectively handling" 等积极评价词汇,肯定了该方法在处理复杂域偏移方面的有效性)。
**描述 2**
* **原文内容**:
"Meanwhile, novel and robust architectures, such as diffusion models [340,341], foundation models [342,277,343, 273], and hybrid models combining DL and traditional ML, hand-crafted features have demonstrated significant potential in related fields [344,44,345]. Adapting these architectures for RSISS is expected to introduce new capabilities and further expand the performance boundaries of segmentation models."
* **出现位置**:Section 6 Open Challenges and Future Directions。
* **情感判断**:【正面引用】(理由:明确使用了 "novel and robust"、"significant potential" 以及 "expand the performance boundaries" 等词汇,强调了该模型及此类架构的创新性和潜力)。
注:在本文的参考文献列表中,该论文被列为第 [273] 项引用。其作者列表、标题与您提供的完全一致。
08
Paolo Gamba
意大利
Fellow
IEEE Fellow、IEEE GRSS 前任主席
经过对论文《Advances on multimodal remote sensing foundation models for Earth observation downstream tasks: A survey》(作者:Guoqing Zhou, Lihuang Qian, Paolo Gamba,发表于《Remote Sensing》/ ProQuest CBL: 2032338)全文的检索与阅读,该论文在正文中引用《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》(Gong et al.)的具体描述如下:
**引用描述 1:**
* **原文内容:** "CrossEarth [204] is a visual foundation model with strong cross-domain generalization ability. This model performs visual tasks through a specially designed data-level Earth-style injection pipeline and a model-level multi-task training pipeline. Moreover, for semantic segmentation tasks, the model outperforms existing state-of-the-art methods on a comprehensive benchmark across different regions, spectral bands, platforms, and climates."
* **出现章节:** **3.4. Vision + Position MM-RSFMs**(或“Advances in MM-RSFMs”章节下的“Vision + Position”小节)
* **情感标注:** **【正面引用】**(注:原文明确使用了 "outperforms existing state-of-the-art methods" 这一积极评价词汇。)
**引用描述 2:**
* **原文内容:** "A chain of the types of MM-RSFMs. RingMo-Sense [13], SkySense [164], ..., CrossEarth [204], GeoCLIP [205], BF-SAM [206], ..."
* **出现章节:** **3. Advances in MM-RSFMs**(出现在该章节的分类概述或图表说明文字中,用于对现有模型进行分类梳理。)
* **情感标注:** (无,此为客观分类陈述。)
**引用描述 3:**
* **原文内容:** "CrossEarth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation. arXiv 2024, arXiv:2410.22629."
* **出现章节:** **References**(参考文献列表第 204 项)
* **情感标注:** (无,此为格式化引用。)
根据对论文《Foundation Models in Remote Sensing: Evolving from Unimodality to Multimodality》(arXiv:2603.00988)的正文内容检索,该论文在介绍遥感基础模型的发展时引用了《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》(在文中对应参考文献 **[20]**)。
具体引用描述如下:
**1. 引用描述:**
> "CrossEarth [20] introduces a domain generalization method to perform the semantic segmentation of foundation models across downstream datasets with different styles."
* **所在章节:** Section III-B (Unimodal Foundation Models in RS) 或 Section III (The evolution from unimodality to multimodality) 相关的模型综述部分。
* **情感判断:** 该描述属于客观陈述模型的功能与技术路线("introduces a domain generalization method"),未出现"state-of-the-art"、"pioneering"等显式积极评价词汇,故不标注。
**2. 相关背景提及(若涉及模型分类):**
文中在讨论视觉基础模型(Vision Foundation Models)的泛化性时,将其作为处理下游任务风格差异的代表性工作。
---
**注:**
- 该论文(arXiv:2603.00988)主要将 CrossEarth 视为一种引入域泛化(Domain Generalization)机制以提升下游语义分割任务适应性的单模态或视觉基础模型。
- 尽管 CrossEarth 原文中自称为 "the first vision foundation model for RSDG",但在本篇综述论文(2603.00988)的正文中,作者仅对其进行了中立的技术性转述。
12
Nicu Sebe
意大利
Fellow
IEEE Fellow、IAPR Fellow、ELLIS Fellow
通过对论文《Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation》(arXiv:2603.02554)正文内容的阅读与检索,该论文引用了 Ziyang Gong 等人的论文《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》(在文中标记为引用文献 [9])。
具体引用描述如下:
**1. 引用位置:** **4.1 Experimental Setup** (Datasets 部分)
**原文描述:**
> "To further evaluate the generalization in remote sensing scenarios, we also utilize the RSDG benchmark curated by [9], which includes diverse cross-domain settings across different regions and platforms."
**2. 引用位置:** **References** (文献列表部分)
**原文表述:**
> "[9] Ziyang Gong, Zhixiang Wei, Di Wang, Xianzheng Ma, Hongruixuan Chen, Yuru Jia, Yupeng Deng, Zhenming Ji, Xiangwei Zhu, Naoto Yokoya, et al. Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation. arXiv preprint arXiv:2410.22629, 2024."
**情感判断:**
上述引用属于客观陈述实验中使用的基准测试集(benchmark)来源,未出现“state-of-the-art”、“pioneering”或“significantly outperforms”等明确的积极评价词汇,因此属于**中立转述或背景铺垫**。
13
姓名
作者所在机构或单位的所在国家
知名学者
作者所获取的重量级头衔
14
Levente Kovács
匈牙利
知名学者
IEEE Senior Member、国际学术会议主席
15
吕宜生
中国
知名学者
智能交通领域国内知名专家
16
董燕妮
中国
知名学者
国家级青年人才、IEEE Senior Member
17
刘莉
中国
知名学者
IEEE Senior Member、谷歌学术高被引学者
18
刘永祥
中国
知名学者
雷达目标识别领域资深专家
19
杨学
中国
知名学者
IEEE-CS "AI's 10 to Watch" (2024)、Elsevier 高被引中国学者
本研究分析了 24 篇论文对目标论文《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》的引用情况。除 5 篇自引及 5 篇未提供具体描述的样本外,其余 14 篇引用论文涵盖了遥感语义分割、多模态基础模型综述、跨域泛化、知识蒸馏及目…
## 引用规模与分布
本研究分析了 24 篇论文对目标论文《Crossearth: Geospatial vision foundation model for domain generalizable remote sensing semantic segmentation》的引用情况。除 5 篇自引及 5 篇未提供具体描述的样本外,其余 14 篇引用论文涵盖了遥感语义分割、多模态基础模型综述、跨域泛化、知识蒸馏及目标识别等研究方向。
## 主要引用用途
引用者对该论文的实际使用主要集中在以下四个方面:第一,作为背景综述,将其归类为专门针对遥感语义分割(RSISS)设计的地理空间视觉基础模型;第二,作为技术方法参考,描述其结合了地球风格数据增强与多任务表示学习,并利用交叉熵损失与掩码图像建模(MIM)损失进行训练;第三,作为实验对比基准,在模型性能评估中将其作为 Baseline 进行对比;第四,作为数据来源,有研究利用该论文构建的 RSDG 基准数据集进行泛化能力评估。
## 代表性引用描述原文
> "Gong et al. [273] proposed CrossEarth, a vision foundation model specifically designed for RSISS, combining Earth-style data augmentation with multi-task representation learning."
> "To further evaluate the generalization in remote sensing scenarios, we also utilize the RSDG benchmark curated by [9], which includes diverse..."
> "Experimental results in the table show that CrossEarth exhibits strong generalization ability and performs reasonably well, although slightly below GeoLink."
> "CrossEarth [20] introduces a domain generalization method to perform the semantic segmentation of foundation models across downstream datasets with different styles."
## 综合说明
这些引用共同呈现出将该论文作为“领域专用基础模型”和“领域泛化基准”的使用模式。引用者不仅在理论综述中将其视为遥感视觉基础模型的代表性工作,还在实证研究中将其算法框架、损失函数设计及所提数据集作为后续研究的方法依据或性能对照标准。
根据论文《ATRNet-STAR: A large dataset and benchmark towards remote sensing object recognition in the wild》(IEEE 论文编号:11367309),该论文的作者列表及其对应单位如下:
### **作者列表及单位**
以下所有作者均隶属于同一个单位:
* **刘永祥 (Yongxiang Liu)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **李伟杰 (Weijie Li)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **刘莉 (Li Liu)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **周洁 (Jie Zhou)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **彭博文 (Bowen Peng)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **宋亚飞 (Yafei Song)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **熊绪影 (Xuying Xiong)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **杨威 (Wei Yang)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **刘天鹏 (Tianpeng Liu)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **刘振 (Zhen Liu)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
* **李想 (Xiang Li)** —— 国防科技大学,电子科学学院 (College of Electronic Science and Technology, National University of Defense Technology, Changsha, China)
---
**备注:**
1. 该论文的通讯作者为 **李想 (Xiang Li)**、**刘永祥 (Yongxiang Liu)** 和 **刘莉 (Li Liu)**。
2. 该研究由国防科技大学电子科学学院团队完成。
Department of Computer Science and Engineering, Indian 印度
根据您提供的论文信息,该论文发表于《Scientific Reports》(Nature旗下期刊),作者列表及其对应的单位名称如下:
1. **Pranav Kumar**
* **单位:** 印度理工学院帕特纳分校,计算机科学与工程系 (Department of Computer Science and Engineering, Indian Institute of Technology Patna, Bihar, India)
2. **Jimson Mathew**
* **单位:** 印度理工学院帕特纳分校,计算机科学与工程系 (Department of Computer Science and Engineering, Indian Institute of Technology Patna, Bihar, India)
3. **Rakesh Kumar Sanodiya**
* **单位:** 印度信息技术设计与制造学院(IIITDM)贾巴尔普尔分校,计算机科学与工程系 (Department of Computer Science and Engineering, Indian Institute of Information Technology, Design and Manufacturing, Jabalpur, India)
**论文摘要简述:**
该研究提出了一种结合了主损失(如中心损失和三元组损失)、次要损失(如MMD、CORAL和熵损失)以及**自注意力机制**的统一框架,旨在解决遥感图像分类中的领域自适应(Domain Adaptation)问题,提高模型在不同场景和传感器数据下的泛化能力。