风格很官方,将就看吧

本来是为官方号准备点内容,

结果觉得和GIS关系不大,

就直接发我这里来了,

所以虽然风格和我的传统风格不搭,

但是将就看吧



光谱 “解码” 的远古探索:遥感地物识别的萌芽

1666年,牛顿通过光的色散实验,将太阳光分解为从红光到紫光的各种色光,开创了光谱学的先河

而到了1859年,德国物理学家基尔霍夫和德国科学家本生制成了第一台棱镜光谱仪,用于光谱研究。基尔霍夫发现,每一种元素都有自己的特征谱线,如果在某种光中观察到了这种元素的特征谱线,那么光源里面一定含有这种元素。太阳光中含有各种颜色的光,但当太阳光透过太阳的高层大气射向地球时,太阳高层大气含有的元素会吸收它自己特征谱线的光,然后再发射出去。

经过这些研究,科学家们发现不同地物对光有着独特的 “喜好”。就像每个人有自己偏爱的颜色,植被、水体、土壤等各类地物,会选择性地吸收、反射和透射不同波长的光,形成独一无二的 “光谱指纹” 。早期科研人员拿着光谱仪,在野外实地测量各种地物的光谱数据,记录下它们在可见光、近红外等波段的反射率差异。

图片来源:童庆禧院士:高光谱遥感,从概念到产业的发展历程 

进入到20世纪六七十年代,计算机技术的飞速发展,让各种数据处理和分析软件陆续登上历史舞台,在遥感处理领域,各种专业的遥感图像处理软件,它拥有强大的光谱分析功能,能够帮助科研人员更好地挖掘光谱数据背后的地物信息。

比如在早期的农业遥感监测中,科研人员获取到农田的遥感影像后,会将其导入专业的遥感图像处理软件。利用该类的光谱剖面工具,可以查看不同位置的光谱曲线。通过对比健康作物与受病虫害作物的光谱特征差异,科研人员能快速定位到农田中出现异常的区域。曾经有研究团队对某区域的小麦田进行监测,通过分析光谱数据,提前发现了一片感染锈病的小麦区域,及时采取防治措施,避免了更大的损失。

有了这些珍贵的数据和专业的遥感图像处理软件,科研人员开始尝试 “看图说话”。通过分析遥感影像上不同区域的色调、亮度,对照手中的光谱数据,来推测地物类型。比如,在黑白遥感影像中,颜色较浅的区域,可能是反射率高的水体;颜色较深的部分,或许是植被覆盖区。但这种方法全靠人工肉眼判断,不仅效率极低,而且受天气、光照等外界因素影响巨大。要是遇到云层遮挡,影像变得模糊,识别工作就难上加难,仿佛在迷雾中摸索前行。

当时,为了更系统地分类,科研人员还借助遥感图像处理软件制定简单的地物光谱特征库。科研人员可以将常见地物的光谱曲线整理、存储,就像一本 “地物光谱字典”。每次拿到新的遥感影像,科研人员就可以利用光谱匹配功能,逐页翻阅字典,比对光谱曲线,试图找出影像中地物的 “真身”。但由于技术和认知的局限,这种早期的分类方式只能识别出一些大面积、特征明显的地物,对于复杂场景中的小目标、混合地物,几乎束手无策,这也推动着遥感地物识别技术不断寻求突破。

传统遥感地物识别:披荆斩棘的 “旧时代”

尽管早期的光谱分析和专业的遥感图像处理软件应用带来了一定突破,但面对海量的遥感数据和复杂的地物类型,人工解译成为了当时不可或缺的重要手段。科研人员瞪大眼睛,对着一张张遥感影像,用放大镜、尺子等工具,一点一点地分辨建筑物、道路、植被等。这不仅耗时耗力,而且识别的准确性还很容易受主观因素影响,简直是 “体力 + 眼力” 的双重考验

随着技术的发展,地理信息系统(GIS)软件逐渐崭露头角,例如GeoScene Pro 这功能强大的软件,为传统遥感地物识别带来了新的助力 。在 GeoScene Pro 中,有诸多实用的技术可用于此。比如,利用其分类工具,能基于监督分类算法,像最大似然分类法。科研人员先在遥感影像上选取具有代表性的地物样本,例如清晰的城市建筑区域、大片的农田、茂密的森林等,将这些样本标记为不同类别,作为训练数据输入到 GeoScene Pro 的分类器中 。软件通过分析这些样本的光谱特征,构建分类模型,进而对整幅遥感影像进行分类,识别出不同地物类型的分布范围 。

     随着深度学习模型,如卷积神经网络CNN 凭借强大的特征提取能力,在遥感影像处理中崭露头角。人们通过大量标注好的遥感影像数据对模型进行训练,让模型学会自动识别地物特征。比如,CNN 可以从海量遥感影像中快速识别出房屋的形状、道路的走向。

GeoScene Pro中内置了深度学习的工具和识别工具:

【虾说IT】从传统到智能:遥感地物识别的技术跃迁

但传统深度学习模型也存在明显的局限性。它对数据的依赖性极强,需要大量高质量的标注数据。一旦遇到新的地物类型、复杂的场景,或者数据量不足的情况,识别效果就会大打折扣。而且,传统模型只能处理单一模态的数据,对于遥感影像中丰富的光谱信息、纹理信息等,无法进行全面的融合分析,就像 “偏科生”,难以满足日益复杂的遥感地物识别需求。

而且模型的训练和工具的使用也都一定的学习曲线,并非所有人都能够轻松掌握,而达到普适性的程度。

通用 AI 多模态大模型:开启地物识别的 “新纪元”

如今,通用 AI 多模态大模型强势登场,为遥感地物识别带来了全新的曙光。多模态大模型可以同时处理多种类型的数据,比如将遥感影像的视觉信息、地理坐标信息、气象数据等多种模态进行融合分析。这就好比给模型装上了 “全能大脑”,让它能够从多个角度去理解遥感数据,极大地提升了对复杂地物和场景的识别能力。

如下:

我们并不需要做复杂的标注、训练和推理,只需要告诉大模型,我们想要什么(我这里的Prompt就是:框出每一架飞机都位置,以json格式输出所有的坐标),然后其他的工作,就全部都交给多模态大模型即可。

经过计算,大模型把生成的边框坐标返回给我们,就完成全部都识别工作。

尽管通用 AI 多模态大模型展现出巨大潜力,但目前在遥感地物识别领域,其精度和能力仍存在明显短板。首先,从数据层面来看,高质量的多模态遥感数据获取难度大、标注成本极高。大模型训练需要海量涵盖不同地物、场景、时间维度的遥感影像、地形数据、气象信息等,但实际中数据往往存在覆盖不全、模态缺失等问题,导致模型训练 “营养不良”,难以精准识别各类地物 。

其次,模型架构本身也面临适配难题。现有的大模型多基于通用数据训练,在处理遥感影像这种具有高分辨率、复杂空间特征的数据时,难以充分挖掘数据中的细节信息。例如在识别小面积的基础设施、植被病虫害斑块时,模型容易出现漏检、误判的情况 。而且,遥感地物识别场景对实时性要求较高,部分大模型计算复杂度高,推理速度慢,难以满足快速响应的需求 。

此外,在实际应用场景中,大模型的稳定性也有待提升。不同地区的遥感数据受地理环境、气候条件等因素影响,数据特征差异显著,大模型在跨区域、跨季节应用时,识别精度波动较大,难以保证稳定可靠的识别效果 。

例如同样的例子,我想让大模型帮我识别房屋与建筑物,结果就变成了这样:

要说是完全失败,也不尽然,比较少正确的识别率这个小区中的一部分楼房,但是也远远谈不上成功。

大模型助力手写表格识别:外业调查的革新之光

在日常外业调查工作中,手写表格的记录极为常见。例如在农村土地确权工作中,手写表格都是快速记录一手数据的重要方式。但传统的手写表格处理方式,在后续的数据录入、整理与分析环节,往往需要耗费大量人力与时间,且容易出现人为的数据录入错误。

大模型的引入为这一困境带来了转机。借助先进的图像处理技术与深度学习算法,大模型能够对拍摄的手写表格图片进行智能解析 。以一些专门的文档识别大模型为例,其工作流程首先是通过图像预处理,如边缘检测、噪声去除、二值化等操作,将模糊、带有背景干扰的手写表格图像转化为更清晰、便于识别的数字形式 。接着,利用基于 Transformer 结构的 OCR(光学字符识别)技术,对表格中的手写文字进行特征提取与模式识别,即便字迹存在不规则、连笔、变形等情况,模型也能通过学习大量不同书写风格的样本,尽可能准确地识别出文字内容 。同时,结合自然语言处理(NLP)模块,大模型可根据表格的上下文语义,对识别结果进行优化与纠正,比如判断数字的单位、文本的所属类别等,进一步提升识别的准确性 。

而且最关键的地方,在于上面所列出的所有技术都不用你去掌握和了解,你所需要的就是将图片直接扔进大模型即可:

上图手写表格,AI的识别结果如下:

可以看到,不但识别率颇高,而且还可以求AI安装我们指定的结构进行输出,更是方便了接下来的数据处理、分析、入库等一系列流程。

这一技术在实际外业调查中意义重大。一方面,大幅提高了工作效率。以往外业结束后,工作人员可能需要花费数天时间将手写表格数据手动录入电脑,而现在借助大模型,短时间内就能完成识别与初步的数据结构化处理,将节省下来的时间投入到更有价值的数据分析与决策制定中 。另一方面,降低了数据错误率。人工录入难免因疲劳、疏忽等因素出错,大模型的标准化识别流程则能有效减少这类低级错误,确保数据的准确性,为后续基于这些数据的研究、规划提供可靠支撑 。

总结:技术跃迁带来的深远影响与未来展望

从传统深度学习到通用 AI 多模态大模型的转型,不仅仅是技术层面的升级,更是为众多领域带来了无限可能!在农业领域,它可以更精准地监测农作物的生长状态、病虫害情况,助力智慧农业发展;在生态保护方面,能及时发现森林砍伐、湿地退化等问题,为地球生态环境的保护提供有力保障。

展望未来,随着通用 AI 多模态大模型技术的不断完善,遥感地物识别将变得更加智能、高效、精准。科研人员正着力攻克数据、模型架构和应用场景等方面的难题,也许在不久的将来,我们可以通过大模型实时获取全球任何一个角落的地物信息,为人类的生产生活提供全方位的智能服务!让我们一起期待这场技术变革带来的更多惊喜吧。