新闻中心

AI-GIS应用:从非结构化数据生成空间数据

行业资讯 2018-03-28 15:55

  背景


  纽约市有59个社区委员会,每个委员会都包含居住在纽约区不同地理区域的居民,这些委员会连接着公民与城市机构的就带,同时社区会员会与市政机构沟通的一种方式就是进行预算请求。

AI-GIS应用

  这种预算请求每年10月提交,意在改善社区的设施以及其他投资清单,这些清单被提交给预算办公室,并审核后分发给各自市政机构。这些预算请求通过电子表格(Excel)与市政机构分享,但是最困难的是,这里面都是通过文字表达,而市政机构希望在地图上以更确切的位置去查看请求,问题来了,提交的预算请求不包含空间数据(坐标信息),就无法创建地图,接下来该怎么办呢?


  生成空间数据


  为了对这些预算请求进行地理定位,我们使用了三种方法:自动地理配准,模糊字符串匹配和手动数据创建。


  在社区委员会提交预算申请后,计划协调小组的同事将通过Excel电子表格收到请求。这些请求中偶尔会包含地址,并且通常包含可以与某个位置相匹配的描述性信息,但又不包含空间数据。


  自动地理参考


  对于具有自由表格地址,交叉口或从(to-to-from)信息的记录(例如在第42街和第48街之间的第5大道),我们利用城市规划的地理编码器,其WebAPI被称为Geoclient。Geoclient返回地址或交叉点的纬度和经度(lat/long),以及任何街道段的开始和结束纬度/长度。


  使用GeoclientAPI返回的lat/long数据,我们创建了空间数据!这个方法得到了一些请求映射,但有更多的请求去。


  模糊字符串匹配


  这种方法可能是最有趣的。对于无法通过上述方法自动进行地理参考的记录,我们必须具有创造性,因为我们需要从所请求项目的描述中解密位置信息。下面是一些示例说明:


  BuildtheGreenOutlook,RiversidePark(DPR)


  BedfordBranchLibraryneedsanewboilerandwindowrestoration


  UpgradetheFDNYEngine307kitchen.


  P.S.125Playground


  HandicapAccessibilityinFrontofthe46thPrecinct.


  现在,您(可能在Google的帮助下)可以看到“HandicapAccessibilityinFrontofthe46thPrecinc”,并知道项目应该映射到哪里。诀窍是让计算机知道将地图“HandicapAccessibilityinFrontofthe46thPrecinc”映射到NYPD的第46区站房屋。站点名称模式不一致,例如46PCT。与第46分区相比,增加了基于描述自动化项目映射的挑战和复杂性。


  考虑到这些因素,我们开发了一系列SQLLIKE语句和模糊字符串匹配算法,将描述中的单词与其他空间数据集中的地名进行匹配。我们用来比较的两个参考数据集是城市规划的设施数据库,该数据库将纽约市各地的+36k政府设施或计划地点以及NYCParksProperties(纽约市公园属性)映射到所有1,969个纽约公园的多边形几何形状。这两个数据集涵盖了纽约市大部分的建筑或公园固定资产。


  该过程通过在ParkProperties数据集中将“BuildtheGreenOutlook,RiversidePark(DPR)”与“RiversidePark”匹配,并在设施数据库中将“UpgradetheFDNYEngine307kitchen”转换为“Eng307,Lad154”。


  手动创建数据


  如果没有过度设计我们的解决方案,我们无法自动映射所有请求,例如:


  ProvidefundsforimprovementstoareasunderandsurroundingtheBrooklynBridge,includingrebuildingactiverecreationspaceunderneaththebridgeaswellasrepairstothestaircaseonFrankfortStreet.


  所以我们不得不做一些手动工作。预算请求分为两类:资本和费用。一般来说,资金申请是用于基础设施的大规模投资并影响建筑环境,而费用请求则用于资助项目和政府服务的其他重复成本。此外,预算请求分为两种影响类型:特定于网站和非特定网站。非地点特定请求适用于未必与分立固定资产绑定的项目,例如:


  Increasefundingforemploymentprograms,particularlyfortech-industryopportunities.


  而网站特定请求可以与已知位置相关联,如:


  RavenswoodPlayground:Repaving&Resurfacing


  我们将我们的手动映射工作集中在网站特定资金请求上,为了映射这些记录,我们使用了一个简单的LeafletDrawGeoJSON创建器,由我们的同事ChrisWhong构建,它输出一个geojson文件的代码。该工具对于大多数人来说足够简单,无论GIS技术如何,都可以创建空间数据。


  结论


  最终,我们映射了所有网站特定记录的95%,我们在城市员工当前可访问的在线地图上发布了这些记录。使用此地图,来自所有城市机构的规划人员可以过滤和搜索请求,以探索全市社区委员会要求的项目。


  扩展


  其实这种情况非常常见,对于从事GIS相关专业人员来说很容易理解,但是非专业认识,他们并不懂得坐标的概念,他们最习惯的表达就是“xxx小区”,“XX商场斜对面”,“***路向东200米”等,在实际行业业务中,对这种需求的不再少数。例如在公安行业中,经常会有一些110报警,报告人一般都是通过这种非结构描述传达过来,但是对于公安GIS系统来说,希望能够落在图上,当然不管是非结构文本,还是语音解析(自然语言处理)都是一个概念或者意思,其实这都可以理解为人工智能GIS的范畴,或者简单应用。




本文转自GIS源 并不代表江苏启飞立场

上一篇:倾斜摄影下三维模型的诞生与行业应用
下一篇:海洋信息化 | GIS在水文数据中的应用