李志林,1,2,3, 徐柱1, 慎利1, 李精忠4, 藍天,1, 王繼成5, 趙婷婷6, 艾廷華7, 遆鵬1, 劉萬增6, 陳軍3,6
1.
2.
3.
4.
5.
6.
7.
通過智能化提升制圖技術(shù),讓制圖系統(tǒng)能全自動地完成地圖設計與制作,一直是地圖學界追求的目標,也一直是國際地圖制圖協(xié)會的前沿研究方向。從20世紀80年代開始,人工智能技術(shù)在地圖學領(lǐng)域開始應用,逐步解決了部分工序的自動化問題,提高了地圖制圖的生產(chǎn)效率。然而,地圖設計等關(guān)鍵環(huán)節(jié)的自動化水平仍然極低,無法滿足信息時代的“定制化”“泛在化”制圖需求??上驳氖?,2023年以來,以GPT-4和Gemini等大語言模型(簡稱“大模型”)為代表的人工智能技術(shù)取得了突破,達到了“準通用人工智能”,表現(xiàn)出令人驚嘆的語言理解力、推理能力和表達能力。基于此,本文探討利用大模型來提升地圖制圖系統(tǒng)的智能水平,旨在建立新一代智能化制圖理論與方法體系。首先,分析現(xiàn)有數(shù)字制圖系統(tǒng)的瓶頸問題,指出建立新一代智能化制圖技術(shù)的必要性;其次,分析大模型的性質(zhì)與能力,論證建立新一代智能化制圖技術(shù)的充分性;然后,進一步分析它們相結(jié)合的可能與方式,提出一個大模型時代的智能制圖模式,并根據(jù)其根本性質(zhì)與表征,將之稱為情境化地圖表達;最后,討論情境化地圖表達的關(guān)鍵技術(shù)問題,即自主覺知用圖情境、自主設計制作地圖及隨境自主人機交互。
智能化測繪 ; 地圖制圖 ; 情境化地圖表達 ; 大模型
第一作者:李志林(1960—),男,博士,教授,研究方向為空間數(shù)據(jù)多尺度建模與表達、空間信息理論與方法、遙感影像解譯與信息提取。E-mail:dean.ge@home.swjtu.edu.cn
通信作者: 藍天 E-mail:tianlan@swjtu.edu.cn
基金項目 國家自然科學基金(42394063)
本文引用格式 李志林, 徐柱, 慎利, 李精忠, 藍天, 王繼成, 趙婷婷, 艾廷華, 遆鵬, 劉萬增, 陳軍. 自主式情境化地圖表達:大模型時代的智能化地圖制圖理論探討 [J]. 測繪學報, 2024, 53(11): 2043-2052 doi:10.11947/j. AGCS.2024.20240222.
LI Zhilin, XU Zhu, SHEN Li, LI Jingzhong, LAN Tian, WANG Jicheng, ZHAO Tingting, AI Tinghua, TI Peng, LIU Wanzeng, CHEN Jun. Autonomous situatedness map representation: a theoretical discussion on intelligent cartography in the era of large models [J]. Acta Geodaetica et Cartographica Sinica , 2024, 53(11): 2043-2052 doi:10.11947/j. AGCS.2024.20240222.
1 地圖制圖智能化從漸進式走向突破式
讓制圖系統(tǒng)全自動地完成地圖設計與制作,一直是地圖學界追求的目標,也是國際地圖制圖協(xié)會的前沿研究方向。智能化是其中的關(guān)鍵技術(shù),因此各個時期人工智能新技術(shù)的出現(xiàn)歷來都得到地圖學界的及時研究與應用。
在20世紀80年代,隨著知識工程技術(shù)的快速發(fā)展,符號主義專家系統(tǒng)在學術(shù)界獲得了廣泛的關(guān)注與應用。在此背景下,地圖學領(lǐng)域的研究者們致力于構(gòu)建專業(yè)的規(guī)則庫,并開發(fā)了一系列專家系統(tǒng),如地圖制圖專家系統(tǒng)[1-3]、地圖設計專家系統(tǒng)[4-6]、制圖綜合專家系統(tǒng)[7-9]。然而,這些專家系統(tǒng)在應用范圍和實用性方面存在一定的局限,這導致其逐漸式微。從20世紀80年代末期開始,行為主義智能算法的涌現(xiàn)為地圖學領(lǐng)域帶來了新的研究視角,如模擬退火、遺傳算法、蟻群算法等,均在地圖學中得到了有效的應用,涉及目標提取[10-12]、地圖綜合[13-16]、注記配置[17-21]、地圖設計[22-23]、地圖分析[24]等多個方面。然而,這些智能算法主要處理數(shù)值數(shù)據(jù),缺乏系統(tǒng)地解決地圖制圖問題的完整策略,且在將地圖知識數(shù)學化方面存在難度。近些年,以深度學習為代表的連接主義人工智能迅猛發(fā)展,在地圖學界受到越來越多的關(guān)注。深度學習不僅能夠賦能地圖創(chuàng)意設計,實現(xiàn)專家知識經(jīng)驗支持下的藝術(shù)風格遷移,顯著提升地圖的藝術(shù)表現(xiàn)力[25],還被廣泛應用于生成高畫質(zhì)地圖[26-32]、地圖空間認知[33-38]等方面。盡管學者們普遍認為深度學習在地圖學領(lǐng)域具有巨大的潛力,但其在實際應用中仍面臨著諸多挑戰(zhàn)和局限性[39]。
盡管人工智能技術(shù)在地圖學領(lǐng)域的研究已取得顯著進展,但距離實現(xiàn)制圖系統(tǒng)全自動完成地圖設計與制作的宏偉目標仍存在較大差距,尤其是“制圖任務理解”和“地圖設計”等關(guān)鍵工序的自動化程度低下。究其根本,當前的地圖制圖系統(tǒng)尚未達到真正意義上的智能化水平。普遍認為,智能化系統(tǒng)應具備以下兩大特征:①采用人工智能的理論、方法和技術(shù)來處理信息和解決問題;②具有擬人智能的特性或功能。在大型語言模型出現(xiàn)之前,大多數(shù)人工智能技術(shù)尚屬于弱人工智能范疇,缺乏類似人類的智能功能,這在一定程度上限制了全自動化制圖系統(tǒng)的實現(xiàn)。
換言之,要實現(xiàn)真正的智能化,必須由具備擬人智能的人工智能技術(shù)支撐,即通用人工智能或強人工智能。令人欣喜的是,2023年人工智能領(lǐng)域取得了突破性進展。2023年3月14日,Open AI發(fā)布的語言大模型GPT-4展現(xiàn)出了令人驚嘆的語言理解、推理和表達能力,并具備了相當豐富的知識儲備。微軟研究院的研究認為GPT-4是通用人工智能的早期版本[40],清華大學張鈸院士則認為GPT-4已經(jīng)觸及了通用人工智能的門檻[41]。2023年12月6日,谷歌發(fā)布的Gemini模型更是被譽為迄今為止功能最強大、最通用的多模態(tài)人工智能,宣稱其語言能力已超越人類[42]。這里不妨將這些最新的大模型理解為“準通用人工智能”(quasi-AGI),相信它們將賦予智能制圖系統(tǒng)所需的強大智能,能夠理解、學習、推理和決策并為地圖制作的全自動化提供有效的技術(shù)支撐。因此,本文旨在探討如何利用大模型來提升地圖制圖系統(tǒng)的智能水平,并建立一套新一代智能化地圖的理論與方法體系。
2 新一代智能化地圖技術(shù)的充要性與基本特點
要建立一套新一代智能化地圖的新理論與方法體系,需要討論3個問題,即充分性、必要性及基本特點。必要性是需求問題,充分性則是大模型的功能問題,而基本特點是指新理論的特點。
第一作者:李志林(1960—),男,博士,教授,研究方向為空間數(shù)據(jù)多尺度建模與表達、空間信息理論與方法、遙感影像解譯與信息提取。E-mail:dean.ge@home.swjtu.edu.cn
通信作者: 藍天 E-mail:tianlan@swjtu.edu.cn
國家自然科學基金(42394063)
李志林, 徐柱, 慎利, 李精忠, 藍天, 王繼成, 趙婷婷, 艾廷華, 遆鵬, 劉萬增, 陳軍.
LI Zhilin, XU Zhu, SHEN Li, LI Jingzhong, LAN Tian, WANG Jicheng, ZHAO Tingting, AI Tinghua, TI Peng, LIU Wanzeng, CHEN Jun.
讓制圖系統(tǒng)全自動地完成地圖設計與制作,一直是地圖學界追求的目標,也是國際地圖制圖協(xié)會的前沿研究方向。智能化是其中的關(guān)鍵技術(shù),因此各個時期人工智能新技術(shù)的出現(xiàn)歷來都得到地圖學界的及時研究與應用。
在20世紀80年代,隨著知識工程技術(shù)的快速發(fā)展,符號主義專家系統(tǒng)在學術(shù)界獲得了廣泛的關(guān)注與應用。在此背景下,地圖學領(lǐng)域的研究者們致力于構(gòu)建專業(yè)的規(guī)則庫,并開發(fā)了一系列專家系統(tǒng),如地圖制圖專家系統(tǒng)[1-3]、地圖設計專家系統(tǒng)[4-6]、制圖綜合專家系統(tǒng)[7-9]。然而,這些專家系統(tǒng)在應用范圍和實用性方面存在一定的局限,這導致其逐漸式微。從20世紀80年代末期開始,行為主義智能算法的涌現(xiàn)為地圖學領(lǐng)域帶來了新的研究視角,如模擬退火、遺傳算法、蟻群算法等,均在地圖學中得到了有效的應用,涉及目標提取[10-12]、地圖綜合[13-16]、注記配置[17-21]、地圖設計[22-23]、地圖分析[24]等多個方面。然而,這些智能算法主要處理數(shù)值數(shù)據(jù),缺乏系統(tǒng)地解決地圖制圖問題的完整策略,且在將地圖知識數(shù)學化方面存在難度。近些年,以深度學習為代表的連接主義人工智能迅猛發(fā)展,在地圖學界受到越來越多的關(guān)注。深度學習不僅能夠賦能地圖創(chuàng)意設計,實現(xiàn)專家知識經(jīng)驗支持下的藝術(shù)風格遷移,顯著提升地圖的藝術(shù)表現(xiàn)力[25],還被廣泛應用于生成高畫質(zhì)地圖[26-32]、地圖空間認知[33-38]等方面。盡管學者們普遍認為深度學習在地圖學領(lǐng)域具有巨大的潛力,但其在實際應用中仍面臨著諸多挑戰(zhàn)和局限性[39]。
盡管人工智能技術(shù)在地圖學領(lǐng)域的研究已取得顯著進展,但距離實現(xiàn)制圖系統(tǒng)全自動完成地圖設計與制作的宏偉目標仍存在較大差距,尤其是“制圖任務理解”和“地圖設計”等關(guān)鍵工序的自動化程度低下。究其根本,當前的地圖制圖系統(tǒng)尚未達到真正意義上的智能化水平。普遍認為,智能化系統(tǒng)應具備以下兩大特征:①采用人工智能的理論、方法和技術(shù)來處理信息和解決問題;②具有擬人智能的特性或功能。在大型語言模型出現(xiàn)之前,大多數(shù)人工智能技術(shù)尚屬于弱人工智能范疇,缺乏類似人類的智能功能,這在一定程度上限制了全自動化制圖系統(tǒng)的實現(xiàn)。
換言之,要實現(xiàn)真正的智能化,必須由具備擬人智能的人工智能技術(shù)支撐,即通用人工智能或強人工智能。令人欣喜的是,2023年人工智能領(lǐng)域取得了突破性進展。2023年3月14日,Open AI發(fā)布的語言大模型GPT-4展現(xiàn)出了令人驚嘆的語言理解、推理和表達能力,并具備了相當豐富的知識儲備。微軟研究院的研究認為GPT-4是通用人工智能的早期版本[40],清華大學張鈸院士則認為GPT-4已經(jīng)觸及了通用人工智能的門檻[41]。2023年12月6日,谷歌發(fā)布的Gemini模型更是被譽為迄今為止功能最強大、最通用的多模態(tài)人工智能,宣稱其語言能力已超越人類[42]。這里不妨將這些最新的大模型理解為“準通用人工智能”(quasi-AGI),相信它們將賦予智能制圖系統(tǒng)所需的強大智能,能夠理解、學習、推理和決策并為地圖制作的全自動化提供有效的技術(shù)支撐。因此,本文旨在探討如何利用大模型來提升地圖制圖系統(tǒng)的智能水平,并建立一套新一代智能化地圖的理論與方法體系。
要建立一套新一代智能化地圖的新理論與方法體系,需要討論3個問題,即充分性、必要性及基本特點。必要性是需求問題,充分性則是大模型的功能問題,而基本特點是指新理論的特點。
2.1 制圖智能化突破的需求:從“預設情境”走向“開放情境”
數(shù)字制圖可以分解成6個環(huán)節(jié):需求理解、資料收集與處理、地圖設計、快速制圖、地圖輸出及地圖服務。根據(jù)多個單位的生產(chǎn)實踐,需求理解、資料收集與處理、地圖設計這前3個環(huán)節(jié)的自動化程度仍然極低,現(xiàn)有數(shù)字制圖系統(tǒng)較好地解決了后3個環(huán)節(jié)中的一些自動化問題,即通過模板化、流程化和算法來實現(xiàn)。
模板化制圖其本質(zhì)是“預設情境”下的制圖技術(shù),即事先預設制圖情境并依賴人工完成對應的地圖表達、地圖交互和制圖數(shù)據(jù)處理的設計。這種預設情境就好比餐館里送菜的機器人,只能沿著預先設定的線路行走,而一旦離開預先情境便無法正常運作。對地圖制圖來說,預設的制圖情境是通過人工對制圖任務的理解來獲取的,不僅耗費大量的時間和勞力,而且可能導致制圖過程中出現(xiàn)多次返工的情況。在過去,地圖制作往往采用標準化生產(chǎn)方式,如,一個校園地圖可能只有一個標準版本,而個性化的用戶需求往往沒有得到充分的考慮。因此導致了一種“有什么給什么”的地圖服務模式,即地圖制作者提供什么,用戶就只能接受什么,缺乏對用戶個性化需求的響應和滿足。
在當今信息化和移動化高度發(fā)達的時代,地圖應用日趨廣泛[43-52],地圖制圖服務正從“有什么給什么”的模板化逐步走向“要什么制什么”的定制化[53],即制圖系統(tǒng)需要從“預設情境”走向“開放情境”。顯然,傳統(tǒng)的模板化制圖模式無法滿足當前的定制化需要。
開放情境下的地圖制圖系統(tǒng)最核心要求是其能自動且準確理解用戶需求并高效地獲取制圖情境。這不僅涉及對語言文字的理解,更需擴展至對空間數(shù)據(jù)庫以及地圖或圖像的深入解析。此外,另一個迫切需求是系統(tǒng)能實現(xiàn)給定制圖情境下地圖設計表達的自動化和制圖數(shù)據(jù)獲取與處理的自動化。因而要求系統(tǒng)不僅能夠自主地獲取并處理數(shù)據(jù),還應能夠獨立構(gòu)建設計文件,并最終生成高質(zhì)量的地圖。
數(shù)字制圖可以分解成6個環(huán)節(jié):需求理解、資料收集與處理、地圖設計、快速制圖、地圖輸出及地圖服務。根據(jù)多個單位的生產(chǎn)實踐,需求理解、資料收集與處理、地圖設計這前3個環(huán)節(jié)的自動化程度仍然極低,現(xiàn)有數(shù)字制圖系統(tǒng)較好地解決了后3個環(huán)節(jié)中的一些自動化問題,即通過模板化、流程化和算法來實現(xiàn)。
模板化制圖其本質(zhì)是“預設情境”下的制圖技術(shù),即事先預設制圖情境并依賴人工完成對應的地圖表達、地圖交互和制圖數(shù)據(jù)處理的設計。這種預設情境就好比餐館里送菜的機器人,只能沿著預先設定的線路行走,而一旦離開預先情境便無法正常運作。對地圖制圖來說,預設的制圖情境是通過人工對制圖任務的理解來獲取的,不僅耗費大量的時間和勞力,而且可能導致制圖過程中出現(xiàn)多次返工的情況。在過去,地圖制作往往采用標準化生產(chǎn)方式,如,一個校園地圖可能只有一個標準版本,而個性化的用戶需求往往沒有得到充分的考慮。因此導致了一種“有什么給什么”的地圖服務模式,即地圖制作者提供什么,用戶就只能接受什么,缺乏對用戶個性化需求的響應和滿足。
在當今信息化和移動化高度發(fā)達的時代,地圖應用日趨廣泛[43-52],地圖制圖服務正從“有什么給什么”的模板化逐步走向“要什么制什么”的定制化[53],即制圖系統(tǒng)需要從“預設情境”走向“開放情境”。顯然,傳統(tǒng)的模板化制圖模式無法滿足當前的定制化需要。
開放情境下的地圖制圖系統(tǒng)最核心要求是其能自動且準確理解用戶需求并高效地獲取制圖情境。這不僅涉及對語言文字的理解,更需擴展至對空間數(shù)據(jù)庫以及地圖或圖像的深入解析。此外,另一個迫切需求是系統(tǒng)能實現(xiàn)給定制圖情境下地圖設計表達的自動化和制圖數(shù)據(jù)獲取與處理的自動化。因而要求系統(tǒng)不僅能夠自主地獲取并處理數(shù)據(jù),還應能夠獨立構(gòu)建設計文件,并最終生成高質(zhì)量的地圖。
2.2 大模型帶來突破的可能性:從“專用性”走向“通用性”
2.1節(jié)分析了建立新一代智能化地圖技術(shù)的必要性,下面探討其充分性,即現(xiàn)在的人工智能技術(shù)(特別是大模型)能提供足夠的技術(shù)支撐。
在當前人工智能領(lǐng)域,大模型特指那些以實現(xiàn)高級語言理解和生成能力為目標的大型語言模型。這類模型由具有海量參數(shù)的人工神經(jīng)網(wǎng)絡構(gòu)成,通過在大量數(shù)據(jù)集上進行預訓練,形成超大規(guī)模的深度學習架構(gòu)。大模型的參數(shù)在數(shù)量上可與大腦皮層的神經(jīng)元連接數(shù)相媲美,可以形象地比喻為模型的“連接數(shù)”。當這些連接數(shù)達到六七十億量級時,原本不具備推理能力的模型開始展現(xiàn)出初步的推理功能;而當參數(shù)數(shù)量進一步增加至五六百億時,模型的能力會經(jīng)歷一個顯著的躍升,這種現(xiàn)象在學術(shù)界被稱為“涌現(xiàn)”。此外,大模型的通用功能還表現(xiàn)在幻覺、語言能力遷移及邏輯增強等現(xiàn)象。實際上,現(xiàn)今的大模型已具備7大維度能力,即文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力、代碼能力和多模態(tài),已被成功并廣泛用于創(chuàng)意寫作、語言翻譯、代碼生成、圖像生成、數(shù)據(jù)分析等任務。
國外主要的大模型有Open AI的GPT、Meta的LLa MA、Google的Gemini等;而國內(nèi)主要的大模型有百度的文心一言、阿里的通義千問、騰訊的混元、華為的盤古等。以ChatGPT為代表的人工智能生成內(nèi)容(AI generated content,AIGC)的研究正如火如荼地展開,已有學者系統(tǒng)地回顧和分析了其在地圖學領(lǐng)域的應用潛力[54-55]。在地圖表達方面,一些學者開始評估ChatGPT等大語言模型用于地圖表達的能力并提出了一些基于大模型的地圖表達框架,如自主式地理信息系統(tǒng)LLM-Geo[56]、地理問答系統(tǒng)GeoQA Map[57]、自主式地圖制圖框架MapGPT[58]、基于ChatGPT的地圖制圖助手[59]等。在地圖讀圖和解譯方面的相關(guān)研究還比較缺乏,已有學者基于GPT-4V系統(tǒng)地評估了大模型與人眼目視檢查相比的優(yōu)缺點,結(jié)果表明GPT-4V不僅能夠從不同比例尺和分辨率的多類型地圖中檢索信息,而且能進行簡單的地圖分析[60]。另一方面的研究是將ChatGPT用于制圖與用圖中的人機交互,讓用戶可以通過自然語言向制圖系統(tǒng)發(fā)出指令[61]。結(jié)果表明,ChatGPT具備相當豐富的知識,強大的語言理解能力、推理和表達能力,具備了一定的空間地理空間理解能力,但是制圖能力依賴一些外部條件,制圖質(zhì)量取決于用戶干預。
總的來講,不論是將大模型作為制圖系統(tǒng)的自然語言交互引擎,還是以之為大腦的自主GPT,或是多模態(tài)生成式模型,都為制圖系統(tǒng)的智能化帶來了光明前景。然而,僅用大模型還不夠,還需要融入地圖制圖與地圖用圖的人類知識(即自然智能)。這種融合不僅能夠提升系統(tǒng)的理解能力和生成能力,還能夠使系統(tǒng)在處理復雜制圖任務時更加精準和高效。因此,未來的研究應當著重探索如何將大模型與制圖自然智能相結(jié)合,以實現(xiàn)更加智能和人性化的制圖系統(tǒng)。
2.1節(jié)分析了建立新一代智能化地圖技術(shù)的必要性,下面探討其充分性,即現(xiàn)在的人工智能技術(shù)(特別是大模型)能提供足夠的技術(shù)支撐。
在當前人工智能領(lǐng)域,大模型特指那些以實現(xiàn)高級語言理解和生成能力為目標的大型語言模型。這類模型由具有海量參數(shù)的人工神經(jīng)網(wǎng)絡構(gòu)成,通過在大量數(shù)據(jù)集上進行預訓練,形成超大規(guī)模的深度學習架構(gòu)。大模型的參數(shù)在數(shù)量上可與大腦皮層的神經(jīng)元連接數(shù)相媲美,可以形象地比喻為模型的“連接數(shù)”。當這些連接數(shù)達到六七十億量級時,原本不具備推理能力的模型開始展現(xiàn)出初步的推理功能;而當參數(shù)數(shù)量進一步增加至五六百億時,模型的能力會經(jīng)歷一個顯著的躍升,這種現(xiàn)象在學術(shù)界被稱為“涌現(xiàn)”。此外,大模型的通用功能還表現(xiàn)在幻覺、語言能力遷移及邏輯增強等現(xiàn)象。實際上,現(xiàn)今的大模型已具備7大維度能力,即文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力、代碼能力和多模態(tài),已被成功并廣泛用于創(chuàng)意寫作、語言翻譯、代碼生成、圖像生成、數(shù)據(jù)分析等任務。
國外主要的大模型有Open AI的GPT、Meta的LLa MA、Google的Gemini等;而國內(nèi)主要的大模型有百度的文心一言、阿里的通義千問、騰訊的混元、華為的盤古等。以ChatGPT為代表的人工智能生成內(nèi)容(AI generated content,AIGC)的研究正如火如荼地展開,已有學者系統(tǒng)地回顧和分析了其在地圖學領(lǐng)域的應用潛力[54-55]。在地圖表達方面,一些學者開始評估ChatGPT等大語言模型用于地圖表達的能力并提出了一些基于大模型的地圖表達框架,如自主式地理信息系統(tǒng)LLM-Geo[56]、地理問答系統(tǒng)GeoQA Map[57]、自主式地圖制圖框架MapGPT[58]、基于ChatGPT的地圖制圖助手[59]等。在地圖讀圖和解譯方面的相關(guān)研究還比較缺乏,已有學者基于GPT-4V系統(tǒng)地評估了大模型與人眼目視檢查相比的優(yōu)缺點,結(jié)果表明GPT-4V不僅能夠從不同比例尺和分辨率的多類型地圖中檢索信息,而且能進行簡單的地圖分析[60]。另一方面的研究是將ChatGPT用于制圖與用圖中的人機交互,讓用戶可以通過自然語言向制圖系統(tǒng)發(fā)出指令[61]。結(jié)果表明,ChatGPT具備相當豐富的知識,強大的語言理解能力、推理和表達能力,具備了一定的空間地理空間理解能力,但是制圖能力依賴一些外部條件,制圖質(zhì)量取決于用戶干預。
總的來講,不論是將大模型作為制圖系統(tǒng)的自然語言交互引擎,還是以之為大腦的自主GPT,或是多模態(tài)生成式模型,都為制圖系統(tǒng)的智能化帶來了光明前景。然而,僅用大模型還不夠,還需要融入地圖制圖與地圖用圖的人類知識(即自然智能)。這種融合不僅能夠提升系統(tǒng)的理解能力和生成能力,還能夠使系統(tǒng)在處理復雜制圖任務時更加精準和高效。因此,未來的研究應當著重探索如何將大模型與制圖自然智能相結(jié)合,以實現(xiàn)更加智能和人性化的制圖系統(tǒng)。
2.3 新一代智能化制圖技術(shù)的特點:自主式情境化
前文的討論中已指出新一代智能化制圖技術(shù)面臨的主要挑戰(zhàn)包括需求理解、地圖設計、資料收集與處理等部分的自動化。結(jié)合當前大模型等人工智能技術(shù)的發(fā)展趨勢與應用現(xiàn)狀,本文認為新一代智能化制圖技術(shù)應具備以下特征。
(1)制圖情境覺知化。需求理解的任務需要系統(tǒng)來“覺知”(consciousness),其不僅涵蓋了系統(tǒng)對用戶指令的“覺悟”或“認知”,更強調(diào)系統(tǒng)能夠結(jié)合制圖用圖的專業(yè)知識,發(fā)展出強大的推理能力。
(2)制圖指令交互化。地圖用戶的要求(或指令)需要被制圖系統(tǒng)自動理解,但經(jīng)驗表明理解需要多次迭代才能完成。故制圖系統(tǒng)的設計需要考慮人機交互機制,以促進用戶需求與系統(tǒng)響應之間的有效溝通。
(3)設計生成自主化。包括地圖設計、資料收集(含數(shù)據(jù)處理)和地圖生成,系統(tǒng)應能自主地完成這些任務。
(4)交互時空增強式。人機交互時不僅使用提示工程(即通過設計和優(yōu)化輸入提示來引導模型生成高質(zhì)量和有針對性輸出的技術(shù)),更重要的是通過時空增強等方式使系統(tǒng)能理解空間數(shù)據(jù)。
(5)制圖智能混合式。目前大模型無法解決所有制圖問題,需要在制圖情境覺知、地圖設計與生成、人機時空交互等地圖表達的3個階段,將人類制圖知識與經(jīng)驗賦予制圖系統(tǒng),實現(xiàn)人類制圖自然智能與機器智能的有效融合。
(6)制圖過程多模態(tài)。在制圖情境覺知、自主設計生成及時空增強交互等環(huán)節(jié),要求系統(tǒng)能處理多模態(tài)空間數(shù)據(jù)。
在開放情境下的新一代智能化制圖技術(shù)中,地圖表達隨制圖情境而變,制圖情境由系統(tǒng)自主覺知并通過時空增強的人機交互來實現(xiàn),而制圖情境隨人隨時而變。由此,制圖情境成為新一代智能化制圖技術(shù)的核心,而系統(tǒng)的自主化能力則成為其主要特征。這種智能化制圖本文稱之為“自主式情境化地圖表達”(簡稱“情境化地圖表達”),其理論框架如圖1所示。

圖1 情境化地圖表達的理論框架
3 自主式情境化地圖表達的關(guān)鍵技術(shù)
2.3節(jié)提出了情境化地圖表達的3大關(guān)鍵技術(shù),分別為自主覺知用圖情境、自主設計制作地圖及隨境自主人機交互,本節(jié)將對之進行深入分析。
3.1 自主覺知用圖情境
地圖情境覺知旨在從多個維度去理解地圖,包括推斷用戶意圖、解析地圖語言及理解地圖內(nèi)容等。這一過程對提升地圖系統(tǒng)的智能化水平和定制化服務能力至關(guān)重要,有助于實現(xiàn)地圖與用戶需求的精準對接,從而優(yōu)化地圖使用效果和提升用戶體驗。圖2展示了一種切實可行的技術(shù)路線。

圖2 自主式制圖情境覺知技術(shù)
(1)基于時空增強自然語言模型的用戶制圖意圖理解技術(shù)。具體而言,首先,通過時空增強的預訓練命名實體識別模型與數(shù)據(jù)庫,提取地理命名實體(如地點、城市)。其次,應用自然語言處理技術(shù),特別是依存句法分析,捕捉地理實體間的時空關(guān)系;通過關(guān)鍵詞匹配或機器學習分類器,區(qū)分用戶操作類型(如查詢、標記、路徑規(guī)劃)。然后,利用預訓練的自然語言處理模型對地理信息和操作類型進行編碼,生成時空語義表示,融合GIS空間分析方法,深化時空關(guān)系理解;通過深度神經(jīng)網(wǎng)絡技術(shù),將時空語義表示與地圖操作類型相結(jié)合,實現(xiàn)用戶輸入與地圖操作的精準映射。最后,采用循環(huán)神經(jīng)網(wǎng)絡或Transformer模型,編碼用戶交互歷史,分析地圖數(shù)據(jù)庫的動態(tài)變化,并結(jié)合地圖更新歷史,整合用戶交互歷史和地圖動態(tài)變化,通過注意力機制或操作拼接,增強對用戶意圖的上下文感知。
(2)數(shù)據(jù)和知識聯(lián)合驅(qū)動的地圖語言判識技術(shù)。首先,構(gòu)建基于知識和數(shù)據(jù)雙驅(qū)動的混合智能計算模型,探索計算機視覺理解和自然語言處理兩種任務中機器智能模型中融入制圖人類自然智能的策略;其次,研究地圖符號、比例尺等的計算機視覺理解方法,將其視為影像理解任務,并結(jié)合深度學習技術(shù),嵌入人類制圖知識,利用混合智能計算模型,提升對地圖符號、比例尺等元素的精準識別能力;然后,專注于地圖標注、圖例說明等文字表達,融合制圖領(lǐng)域知識于自然語言處理,生成精準語義表示,實現(xiàn)準確解析;最后,建立適用于上述方法的樣本庫,支持模型訓練與評估,確保研究成果的可靠性和實用性。
(3)基于圖-文-數(shù)跨模態(tài)融合的地圖內(nèi)容理解技術(shù)。首先,探索結(jié)合計算機視覺和地理信息數(shù)據(jù)庫的方法,通過自動解析地圖制圖要素和地理信息數(shù)據(jù)庫映射獲取地理實體詳細信息;然后,研究地圖中視覺特征、標注文本和空間數(shù)據(jù)庫信息的融合策略,探索統(tǒng)一的語義表示方法;最后,借助多模態(tài)認知模型,實現(xiàn)不同數(shù)據(jù)源信息的互補和關(guān)聯(lián),支撐對復雜地圖場景的深入理解。
前文的討論中已指出新一代智能化制圖技術(shù)面臨的主要挑戰(zhàn)包括需求理解、地圖設計、資料收集與處理等部分的自動化。結(jié)合當前大模型等人工智能技術(shù)的發(fā)展趨勢與應用現(xiàn)狀,本文認為新一代智能化制圖技術(shù)應具備以下特征。
(1)制圖情境覺知化。需求理解的任務需要系統(tǒng)來“覺知”(consciousness),其不僅涵蓋了系統(tǒng)對用戶指令的“覺悟”或“認知”,更強調(diào)系統(tǒng)能夠結(jié)合制圖用圖的專業(yè)知識,發(fā)展出強大的推理能力。
(2)制圖指令交互化。地圖用戶的要求(或指令)需要被制圖系統(tǒng)自動理解,但經(jīng)驗表明理解需要多次迭代才能完成。故制圖系統(tǒng)的設計需要考慮人機交互機制,以促進用戶需求與系統(tǒng)響應之間的有效溝通。
(3)設計生成自主化。包括地圖設計、資料收集(含數(shù)據(jù)處理)和地圖生成,系統(tǒng)應能自主地完成這些任務。
(4)交互時空增強式。人機交互時不僅使用提示工程(即通過設計和優(yōu)化輸入提示來引導模型生成高質(zhì)量和有針對性輸出的技術(shù)),更重要的是通過時空增強等方式使系統(tǒng)能理解空間數(shù)據(jù)。
(5)制圖智能混合式。目前大模型無法解決所有制圖問題,需要在制圖情境覺知、地圖設計與生成、人機時空交互等地圖表達的3個階段,將人類制圖知識與經(jīng)驗賦予制圖系統(tǒng),實現(xiàn)人類制圖自然智能與機器智能的有效融合。
(6)制圖過程多模態(tài)。在制圖情境覺知、自主設計生成及時空增強交互等環(huán)節(jié),要求系統(tǒng)能處理多模態(tài)空間數(shù)據(jù)。
在開放情境下的新一代智能化制圖技術(shù)中,地圖表達隨制圖情境而變,制圖情境由系統(tǒng)自主覺知并通過時空增強的人機交互來實現(xiàn),而制圖情境隨人隨時而變。由此,制圖情境成為新一代智能化制圖技術(shù)的核心,而系統(tǒng)的自主化能力則成為其主要特征。這種智能化制圖本文稱之為“自主式情境化地圖表達”(簡稱“情境化地圖表達”),其理論框架如圖1所示。
圖1 情境化地圖表達的理論框架
2.3節(jié)提出了情境化地圖表達的3大關(guān)鍵技術(shù),分別為自主覺知用圖情境、自主設計制作地圖及隨境自主人機交互,本節(jié)將對之進行深入分析。
3.1 自主覺知用圖情境
地圖情境覺知旨在從多個維度去理解地圖,包括推斷用戶意圖、解析地圖語言及理解地圖內(nèi)容等。這一過程對提升地圖系統(tǒng)的智能化水平和定制化服務能力至關(guān)重要,有助于實現(xiàn)地圖與用戶需求的精準對接,從而優(yōu)化地圖使用效果和提升用戶體驗。圖2展示了一種切實可行的技術(shù)路線。
圖2 自主式制圖情境覺知技術(shù)
(1)基于時空增強自然語言模型的用戶制圖意圖理解技術(shù)。具體而言,首先,通過時空增強的預訓練命名實體識別模型與數(shù)據(jù)庫,提取地理命名實體(如地點、城市)。其次,應用自然語言處理技術(shù),特別是依存句法分析,捕捉地理實體間的時空關(guān)系;通過關(guān)鍵詞匹配或機器學習分類器,區(qū)分用戶操作類型(如查詢、標記、路徑規(guī)劃)。然后,利用預訓練的自然語言處理模型對地理信息和操作類型進行編碼,生成時空語義表示,融合GIS空間分析方法,深化時空關(guān)系理解;通過深度神經(jīng)網(wǎng)絡技術(shù),將時空語義表示與地圖操作類型相結(jié)合,實現(xiàn)用戶輸入與地圖操作的精準映射。最后,采用循環(huán)神經(jīng)網(wǎng)絡或Transformer模型,編碼用戶交互歷史,分析地圖數(shù)據(jù)庫的動態(tài)變化,并結(jié)合地圖更新歷史,整合用戶交互歷史和地圖動態(tài)變化,通過注意力機制或操作拼接,增強對用戶意圖的上下文感知。
(2)數(shù)據(jù)和知識聯(lián)合驅(qū)動的地圖語言判識技術(shù)。首先,構(gòu)建基于知識和數(shù)據(jù)雙驅(qū)動的混合智能計算模型,探索計算機視覺理解和自然語言處理兩種任務中機器智能模型中融入制圖人類自然智能的策略;其次,研究地圖符號、比例尺等的計算機視覺理解方法,將其視為影像理解任務,并結(jié)合深度學習技術(shù),嵌入人類制圖知識,利用混合智能計算模型,提升對地圖符號、比例尺等元素的精準識別能力;然后,專注于地圖標注、圖例說明等文字表達,融合制圖領(lǐng)域知識于自然語言處理,生成精準語義表示,實現(xiàn)準確解析;最后,建立適用于上述方法的樣本庫,支持模型訓練與評估,確保研究成果的可靠性和實用性。
(3)基于圖-文-數(shù)跨模態(tài)融合的地圖內(nèi)容理解技術(shù)。首先,探索結(jié)合計算機視覺和地理信息數(shù)據(jù)庫的方法,通過自動解析地圖制圖要素和地理信息數(shù)據(jù)庫映射獲取地理實體詳細信息;然后,研究地圖中視覺特征、標注文本和空間數(shù)據(jù)庫信息的融合策略,探索統(tǒng)一的語義表示方法;最后,借助多模態(tài)認知模型,實現(xiàn)不同數(shù)據(jù)源信息的互補和關(guān)聯(lián),支撐對復雜地圖場景的深入理解。
3.2 自主設計制作地圖
自主設計制作地圖的任務涉及根據(jù)系統(tǒng)覺知的情境參數(shù),結(jié)合GPT技術(shù)與混合智能計算,研究地圖的自主設計、數(shù)據(jù)自適應變換及地圖場景化表達(地圖生成)。該任務旨在利用多種數(shù)據(jù)源和模態(tài)的信息,通過生成式方法創(chuàng)建地圖,并將地圖內(nèi)容與特定的情境相匹配,以更好地滿足用戶需求。其基本內(nèi)容如圖3所示。

圖3 多模態(tài)地圖的情境化生成基本內(nèi)容
(1)地圖自主設計。多模態(tài)地圖的情境化生成首先涉及地圖設計,即確定地圖的整體結(jié)構(gòu)和顯示的信息。在設計多模態(tài)地圖之前,需要明確用戶的需求和使用情境,這可能涉及不同類型的用戶(行人、駕車者、游客等)以及不同情境下的地圖使用(城市導航、旅游規(guī)劃等);隨后,確定地圖將包含的多種模態(tài),如地理信息、圖像、語言描述等,這些模態(tài)可以來自衛(wèi)星數(shù)據(jù)、傳感器、社交媒體等多種數(shù)據(jù)源;最后,根據(jù)需求和表達模態(tài),自主生成地圖的風格、符號和交互元素,包括:①基于自然語言指令的個性化地圖風格定制,進行自然語言解析提煉出其所隱含的地圖風格特征,并基于情景模型自動提取地圖風格;②多模態(tài)地圖生成式設計,針對多圖種、多層次、多用途、多用戶和多級別泛地圖表達需要,進行多模態(tài)地圖模板、地圖版式、地圖表達模型、地圖符號、注記和比例尺等生成式設計;③地圖設計結(jié)果的形式化表達模型構(gòu)建,針對地圖設計的生成結(jié)果,構(gòu)建形式化表達的生成式地圖設計模型,模型涵蓋地圖的圖層、符號、標注、圖例、視圖、布局等信息。
(2)數(shù)據(jù)自適應變換。地圖設計確定后的數(shù)據(jù)變換包括多模態(tài)數(shù)據(jù)整合、語義理解和尺度變換等。此階段將整合從不同數(shù)據(jù)源獲取的地理信息、圖像、文本等多模態(tài)數(shù)據(jù),需針對多源異構(gòu)制圖數(shù)據(jù)在數(shù)據(jù)格式、語義、類型、空間基準等方面的差異,構(gòu)建語義整合模型、多基準數(shù)據(jù)集成模型以及屬性、幾何、時態(tài)一致性融合模型,以便在地圖中呈現(xiàn)多樣化的信息;進一步地,利用自然語言處理技術(shù)對文本進行處理,將用戶提供的語境信息轉(zhuǎn)化為地圖可以理解的語義,使地圖更符合用戶的需求。面向多尺度地圖表達,對普通地理數(shù)據(jù)、三維場景數(shù)據(jù)和專題屬性數(shù)據(jù)進行動態(tài)、光滑、連續(xù)的尺度變換,構(gòu)建智能化時空數(shù)據(jù)綜合模型;此外,地圖的智能變換需要知識庫的支撐,包括時空數(shù)據(jù)集成融合知識、空間結(jié)構(gòu)知識、變換規(guī)則知識、變換過程決策知識、變換結(jié)果評價知識等。通過對各類知識進行形式化描述和知識圖譜表達,可為智能地圖變換提供自然智能支持。在數(shù)據(jù)變換過程中,關(guān)注情境感知是必要的,如基于自然語言處理技術(shù)理解用戶提供的文本描述,基于計算機視覺技術(shù)從圖像中提取有關(guān)環(huán)境的信息等。
(3)地圖場景化表達(地圖生成)。多模態(tài)地圖在幾何表達上具有二維平面、三維場景特征,在模式上具有地圖、文本等模態(tài)特征,在應用場景上具有多載體和多樣環(huán)境特征。首先,在對自然語言制圖指令解譯的基礎上,進行任務理解與地圖概要設計,包括地圖風格的提取、多模態(tài)地圖內(nèi)容和形式的生成式設計以及地圖設計的表達模型構(gòu)建(對設計結(jié)果的形式化描述,記錄了地圖元素的布局及顏色符號配置等信息,通過改進Transformer模型可進行自主式地圖設計);然后,進行多源制圖數(shù)據(jù)的智能變換,構(gòu)建地圖變換知識庫,由此面向多源異構(gòu)數(shù)據(jù)進行集成融合變換、面向多尺度數(shù)據(jù)進行智能化尺度變換,其結(jié)果是制圖數(shù)據(jù)的就緒化;最后,面向場景化應用進行多模態(tài)地圖自主式生成,可改進CodeGPT自主調(diào)用地圖制圖API(如Mapbox GL JS等)求的個性化地圖,如多維動態(tài)地圖自主式生成、多載體地圖自主式生成和多環(huán)境地圖自主式生成。
自主設計制作地圖的任務涉及根據(jù)系統(tǒng)覺知的情境參數(shù),結(jié)合GPT技術(shù)與混合智能計算,研究地圖的自主設計、數(shù)據(jù)自適應變換及地圖場景化表達(地圖生成)。該任務旨在利用多種數(shù)據(jù)源和模態(tài)的信息,通過生成式方法創(chuàng)建地圖,并將地圖內(nèi)容與特定的情境相匹配,以更好地滿足用戶需求。其基本內(nèi)容如圖3所示。
圖3 多模態(tài)地圖的情境化生成基本內(nèi)容
(1)地圖自主設計。多模態(tài)地圖的情境化生成首先涉及地圖設計,即確定地圖的整體結(jié)構(gòu)和顯示的信息。在設計多模態(tài)地圖之前,需要明確用戶的需求和使用情境,這可能涉及不同類型的用戶(行人、駕車者、游客等)以及不同情境下的地圖使用(城市導航、旅游規(guī)劃等);隨后,確定地圖將包含的多種模態(tài),如地理信息、圖像、語言描述等,這些模態(tài)可以來自衛(wèi)星數(shù)據(jù)、傳感器、社交媒體等多種數(shù)據(jù)源;最后,根據(jù)需求和表達模態(tài),自主生成地圖的風格、符號和交互元素,包括:①基于自然語言指令的個性化地圖風格定制,進行自然語言解析提煉出其所隱含的地圖風格特征,并基于情景模型自動提取地圖風格;②多模態(tài)地圖生成式設計,針對多圖種、多層次、多用途、多用戶和多級別泛地圖表達需要,進行多模態(tài)地圖模板、地圖版式、地圖表達模型、地圖符號、注記和比例尺等生成式設計;③地圖設計結(jié)果的形式化表達模型構(gòu)建,針對地圖設計的生成結(jié)果,構(gòu)建形式化表達的生成式地圖設計模型,模型涵蓋地圖的圖層、符號、標注、圖例、視圖、布局等信息。
(2)數(shù)據(jù)自適應變換。地圖設計確定后的數(shù)據(jù)變換包括多模態(tài)數(shù)據(jù)整合、語義理解和尺度變換等。此階段將整合從不同數(shù)據(jù)源獲取的地理信息、圖像、文本等多模態(tài)數(shù)據(jù),需針對多源異構(gòu)制圖數(shù)據(jù)在數(shù)據(jù)格式、語義、類型、空間基準等方面的差異,構(gòu)建語義整合模型、多基準數(shù)據(jù)集成模型以及屬性、幾何、時態(tài)一致性融合模型,以便在地圖中呈現(xiàn)多樣化的信息;進一步地,利用自然語言處理技術(shù)對文本進行處理,將用戶提供的語境信息轉(zhuǎn)化為地圖可以理解的語義,使地圖更符合用戶的需求。面向多尺度地圖表達,對普通地理數(shù)據(jù)、三維場景數(shù)據(jù)和專題屬性數(shù)據(jù)進行動態(tài)、光滑、連續(xù)的尺度變換,構(gòu)建智能化時空數(shù)據(jù)綜合模型;此外,地圖的智能變換需要知識庫的支撐,包括時空數(shù)據(jù)集成融合知識、空間結(jié)構(gòu)知識、變換規(guī)則知識、變換過程決策知識、變換結(jié)果評價知識等。通過對各類知識進行形式化描述和知識圖譜表達,可為智能地圖變換提供自然智能支持。在數(shù)據(jù)變換過程中,關(guān)注情境感知是必要的,如基于自然語言處理技術(shù)理解用戶提供的文本描述,基于計算機視覺技術(shù)從圖像中提取有關(guān)環(huán)境的信息等。
(3)地圖場景化表達(地圖生成)。多模態(tài)地圖在幾何表達上具有二維平面、三維場景特征,在模式上具有地圖、文本等模態(tài)特征,在應用場景上具有多載體和多樣環(huán)境特征。首先,在對自然語言制圖指令解譯的基礎上,進行任務理解與地圖概要設計,包括地圖風格的提取、多模態(tài)地圖內(nèi)容和形式的生成式設計以及地圖設計的表達模型構(gòu)建(對設計結(jié)果的形式化描述,記錄了地圖元素的布局及顏色符號配置等信息,通過改進Transformer模型可進行自主式地圖設計);然后,進行多源制圖數(shù)據(jù)的智能變換,構(gòu)建地圖變換知識庫,由此面向多源異構(gòu)數(shù)據(jù)進行集成融合變換、面向多尺度數(shù)據(jù)進行智能化尺度變換,其結(jié)果是制圖數(shù)據(jù)的就緒化;最后,面向場景化應用進行多模態(tài)地圖自主式生成,可改進CodeGPT自主調(diào)用地圖制圖API(如Mapbox GL JS等)求的個性化地圖,如多維動態(tài)地圖自主式生成、多載體地圖自主式生成和多環(huán)境地圖自主式生成。
3.3 隨境自主人機交互
隨境自主人機交互是一種多模態(tài)的情境化地圖人機交互,即將人與計算機之間的交互嵌入制圖的特定情境中,以提高用戶體驗和時空地圖表達效率。這種人機交互基于情境覺知,通過營造情境化交互氛圍,在智能提示的引導下進行時空增強的多模態(tài)交互,最終生成完善的情境化制圖指令進行地圖生成,主要內(nèi)容如圖4所示。

圖4 多模態(tài)情境化地圖人機交互主要內(nèi)容
(1)時空地圖交互的情境化。時空地圖交互的情境化旨在營造情境化交互氛圍,從而保證交互的有效性,提升情境化人機交互下的地圖表達能力。該過程主要依賴于對獲取到的情景信息的深入分析,以及對自然語言處理大模型的領(lǐng)域知識和時空知識理解的增強。針對領(lǐng)域知識增強,首先構(gòu)建領(lǐng)域知識增強的人機交互對話模型,然后綜合多源信息構(gòu)建領(lǐng)域知識樣本數(shù)據(jù)集,最后通過提示工程和指令嵌入對語言大模型進行訓練微調(diào),以增強交互過程中對領(lǐng)域知識理解和表達;針對時空知識增強,首先構(gòu)建面向空間關(guān)系以及地理關(guān)系的樣本數(shù)據(jù)集并進行知識注入,實現(xiàn)時空增強的自然語言交互,然后通過構(gòu)建關(guān)系和實體的特征嵌入庫以及基于深度學習的特征匹配模型,實現(xiàn)時空知識在交互過程的準確表達。
(2)地圖文本雙模態(tài)交互?;贕UI的地圖交互,如點選/繪制等,能夠提供明確且精準的操作,在制圖場景中,需要與自然語言交互進行協(xié)同。這種協(xié)同是自適應的,包括輸入?yún)f(xié)同和表達協(xié)同。對傳統(tǒng)基于GUI交互過程進行建模,根據(jù)輸入/輸出的形式構(gòu)成交互指令,在此基礎上形成指令樣本數(shù)據(jù)集,結(jié)合基于表示學習的文本和地圖信息的聯(lián)合嵌入方法,實現(xiàn)多模態(tài)信息有效整合,根據(jù)提示工程和AI代理在制圖過程中進行自適應交互。
(3)提示工程引導下的交互。用戶制圖意圖會在交互過程中不斷完善和變更,因此基于提示工程引導下的交互旨在準確掌握交互過程中用戶的制圖意圖,并引導用戶表達出清晰制圖意圖以優(yōu)化地圖的表達。包括:交互過程中的用戶意圖感知和引導,通過強化學習在交互上下文中學習用戶的行為模式和反饋信號,完成對交互過程的管理。結(jié)合感知的用戶意圖和情境以及多種輸入信息,構(gòu)建多模態(tài)提示生成方法與時空信息提示庫,在交互過程中進行基于提示工程的引導;由獲取到的用戶意圖和情景信息,根據(jù)提示工程生成用戶制圖指令。
4 自主式情境化地圖表達的展望
地圖學家們早已認識到地圖制圖是一種需要高級智能的活動,而智能化是實現(xiàn)制圖全自動化的必然途徑。歷史上,每當人工智能領(lǐng)域出現(xiàn)新技術(shù),地圖學界總是積極響應并探索其應用潛力。然而,傳統(tǒng)人工智能技術(shù)并不能為地圖制圖提供充分的智能支撐。與此相對,當前被譽為準通用人工智能的大模型標志著實用人工智能技術(shù)的到來,其將帶來一場深遠的顛覆性變革。
為此,本文倡議建立一套基于大模型的智能化地圖表達理論與方法體系,旨在突破現(xiàn)行“預設情境下”數(shù)字制圖面臨的自動化程度上的技術(shù)天花板,目標是推動“開放情境下”的自主式智能制圖技術(shù),以實現(xiàn)更高層次的自動化和智能化。該理論與方法將使制圖系統(tǒng)能夠在實時掌握現(xiàn)實世界動態(tài)的基礎上,積極響應制圖需求、持續(xù)回應用戶指令、精確理解用戶意圖、充分顧及用戶偏好、恰當運用制圖形式、即時生成精美表達從而實現(xiàn)新一代智能化制圖的愿景。希望在不遠的將來,情境化表達系統(tǒng)能變成智能手機中的一項常用應用。用戶只需提出需求,系統(tǒng)便能理解并制作出所需的地圖;若用戶有新的修改要求,系統(tǒng)也能夠迅速響應并進行調(diào)整。盡管當前的研究成果與這一目標尚有差距,但通過不懈的努力和研究,這一愿景終將實現(xiàn)。
智能化制圖是智能化測繪的重要部分之一。當前,智能化測繪領(lǐng)域尚處于初期發(fā)展階段,相關(guān)研究比較零散,系統(tǒng)性理論框架和方法論仍在構(gòu)建之中。盡管如此,相信隨著研究的深入和技術(shù)的進步,未來智能化測繪將展現(xiàn)出其獨特的價值和潛力,我們將看到智能化測繪帶來的各種新景象。
隨境自主人機交互是一種多模態(tài)的情境化地圖人機交互,即將人與計算機之間的交互嵌入制圖的特定情境中,以提高用戶體驗和時空地圖表達效率。這種人機交互基于情境覺知,通過營造情境化交互氛圍,在智能提示的引導下進行時空增強的多模態(tài)交互,最終生成完善的情境化制圖指令進行地圖生成,主要內(nèi)容如圖4所示。
圖4 多模態(tài)情境化地圖人機交互主要內(nèi)容
(1)時空地圖交互的情境化。時空地圖交互的情境化旨在營造情境化交互氛圍,從而保證交互的有效性,提升情境化人機交互下的地圖表達能力。該過程主要依賴于對獲取到的情景信息的深入分析,以及對自然語言處理大模型的領(lǐng)域知識和時空知識理解的增強。針對領(lǐng)域知識增強,首先構(gòu)建領(lǐng)域知識增強的人機交互對話模型,然后綜合多源信息構(gòu)建領(lǐng)域知識樣本數(shù)據(jù)集,最后通過提示工程和指令嵌入對語言大模型進行訓練微調(diào),以增強交互過程中對領(lǐng)域知識理解和表達;針對時空知識增強,首先構(gòu)建面向空間關(guān)系以及地理關(guān)系的樣本數(shù)據(jù)集并進行知識注入,實現(xiàn)時空增強的自然語言交互,然后通過構(gòu)建關(guān)系和實體的特征嵌入庫以及基于深度學習的特征匹配模型,實現(xiàn)時空知識在交互過程的準確表達。
(2)地圖文本雙模態(tài)交互?;贕UI的地圖交互,如點選/繪制等,能夠提供明確且精準的操作,在制圖場景中,需要與自然語言交互進行協(xié)同。這種協(xié)同是自適應的,包括輸入?yún)f(xié)同和表達協(xié)同。對傳統(tǒng)基于GUI交互過程進行建模,根據(jù)輸入/輸出的形式構(gòu)成交互指令,在此基礎上形成指令樣本數(shù)據(jù)集,結(jié)合基于表示學習的文本和地圖信息的聯(lián)合嵌入方法,實現(xiàn)多模態(tài)信息有效整合,根據(jù)提示工程和AI代理在制圖過程中進行自適應交互。
(3)提示工程引導下的交互。用戶制圖意圖會在交互過程中不斷完善和變更,因此基于提示工程引導下的交互旨在準確掌握交互過程中用戶的制圖意圖,并引導用戶表達出清晰制圖意圖以優(yōu)化地圖的表達。包括:交互過程中的用戶意圖感知和引導,通過強化學習在交互上下文中學習用戶的行為模式和反饋信號,完成對交互過程的管理。結(jié)合感知的用戶意圖和情境以及多種輸入信息,構(gòu)建多模態(tài)提示生成方法與時空信息提示庫,在交互過程中進行基于提示工程的引導;由獲取到的用戶意圖和情景信息,根據(jù)提示工程生成用戶制圖指令。
地圖學家們早已認識到地圖制圖是一種需要高級智能的活動,而智能化是實現(xiàn)制圖全自動化的必然途徑。歷史上,每當人工智能領(lǐng)域出現(xiàn)新技術(shù),地圖學界總是積極響應并探索其應用潛力。然而,傳統(tǒng)人工智能技術(shù)并不能為地圖制圖提供充分的智能支撐。與此相對,當前被譽為準通用人工智能的大模型標志著實用人工智能技術(shù)的到來,其將帶來一場深遠的顛覆性變革。
為此,本文倡議建立一套基于大模型的智能化地圖表達理論與方法體系,旨在突破現(xiàn)行“預設情境下”數(shù)字制圖面臨的自動化程度上的技術(shù)天花板,目標是推動“開放情境下”的自主式智能制圖技術(shù),以實現(xiàn)更高層次的自動化和智能化。該理論與方法將使制圖系統(tǒng)能夠在實時掌握現(xiàn)實世界動態(tài)的基礎上,積極響應制圖需求、持續(xù)回應用戶指令、精確理解用戶意圖、充分顧及用戶偏好、恰當運用制圖形式、即時生成精美表達從而實現(xiàn)新一代智能化制圖的愿景。希望在不遠的將來,情境化表達系統(tǒng)能變成智能手機中的一項常用應用。用戶只需提出需求,系統(tǒng)便能理解并制作出所需的地圖;若用戶有新的修改要求,系統(tǒng)也能夠迅速響應并進行調(diào)整。盡管當前的研究成果與這一目標尚有差距,但通過不懈的努力和研究,這一愿景終將實現(xiàn)。
智能化制圖是智能化測繪的重要部分之一。當前,智能化測繪領(lǐng)域尚處于初期發(fā)展階段,相關(guān)研究比較零散,系統(tǒng)性理論框架和方法論仍在構(gòu)建之中。盡管如此,相信隨著研究的深入和技術(shù)的進步,未來智能化測繪將展現(xiàn)出其獨特的價值和潛力,我們將看到智能化測繪帶來的各種新景象。