首页

即使你不爱数据,也要知道的一个人

陈正祥1922—2003世界著名的地理学家,被国际学术界称为“中国地理第一人”。早年曾在多个国家留学,获日本东北大学(TohokuUniversity)博士学位。其后在祖国大陆、台湾和香港任教近40年,1979年辞去教职,前往日本讲学,后移居意大利,主导国际地理学会的世界土地调查项目,主持编辑出版了五大卷《世界农业地图集》。陈正祥是位非常高产的学者,著作等身,一生绘图无数,但只有极少数得以在中国大陆出版。

在1850~1880年,欧洲和美国相继出现了很多经典的数据可视化作品。借助简单的图形来表达数据,中国当然古已有之,但数据可视化是更高层次的寓数于图,不仅要有数据,还要有设计,要蕴含美学和艺术的元素。在这方面,中国比欧美落后一大截,类似的作品直到20世纪40年代前后,才开始在中国的民间萌芽,而其中能称得上优秀的更是凤毛麟角、少而又少。

上海第五纺织厂工人年龄分布

注:这幅图出自1948年上海第五纺织厂厂长吴德明先生编撰的厂志。从图中可以看出,该厂员工最大的年龄群体为21~25岁,其次是16~21岁,再次是26~30岁,而且每一个群体的男性都是女性的2倍还多。该图虽然比较朴素,但已经体现了巧妙的设计。

中国在数据可视化方面的先驱人物,是地理学家陈正祥。陈正祥在国际地理学界享有崇高的声誉,但因为种种原因,墙里开花墙外香,他的作品和贡献,尤其是在数据可视化方面的贡献,并不为中国大众所知。

陈正祥一生致力于绘图,他主张用地图说话、用地图反映历史,利用地图对政治、经济、文化、生态、环境等现象进行描绘和阐述。陈正祥认为,“有些长篇大论说不清楚的现象,用地图来表示却可一目了然”,这些思想,正是数据可视化的目的和精髓。直到今天,他的不少作品还被世界各国的专家视为精品,被称为数据可视化的经典之作。

以其作品《中国文化地理》为例,这本书堪称用数据和地图谱写的中国文化史。陈正祥在这本书中提出,中国的经济、文化中心经历了由北向南迁移的过程。为了证明这个观点,他首先引用了大量的数据,其中有各个朝代的人口数据,例如在西汉元始二年(公元2年),南方户数仅占全国总户数的10.3%,但到明朝隆庆六年(1572年)已经上升为65.4%;还有政治领袖籍贯分布的数据,如唐朝共有369人担任宰相职务,其中的90%为北方人,但北宋中叶之后,宰相的高位多被南方人占据,到了明朝,共有宰相189人,其中南方人占2/3以上,和唐朝相比,分布形势完全逆转;他还统计了明朝期间的状元、榜眼、探花以及会元的人数和籍贯分布,在244名文魁当中,南方人有215位,北方人只有29位。

除了用数据说话,陈正祥还针对汉朝至清朝的人口分布、人口密度、交通、盐业以及三公九卿、诗人、进士、状元的籍贯分布绘制了18幅地图。这些地图华美精致,色彩鲜明,浓缩了上百年的历史,一图在手,胜过千言万语的解释,即使最普通的读者也可以一眼看出中国文明的兴衰和转移。

唐朝2 625个诗人的籍贯分布(公元618~907年)

宋朝2 377个诗人的籍贯分布(公元969~1279年)

明朝3 005个诗人的籍贯分布(公元1368~1644年)

清朝2 079个诗人的籍贯分布(公元1644~1911年)

注:红点的直径大小分别代表人数的多少。可以清楚地看到,唐朝期间,中国的诗人主要来自黄河流域,而到来宋朝,中国的诗人主要出自长江流域,这一点到了明朝则更为明显。(图片来源:An Historical and Cultural Atlas of China, Tokyo, 1981, map No. 36. 50. 62. 82)

类似于各朝代诗人分布的中国文化历史地图,陈正祥一共绘制了268幅。1981年,这些地图收集成册,在日本、香港地区出版发行,大受欢迎。要统计几千名诗人的籍贯,虽然烦琐,但毕竟有数可查,只要愿意花上时间,用上“笨”功夫,就一定可以完成。陈正祥在绘图过程当中,遭遇的最大困难还是没有数据。为了绘出一张有参考价值的好图,他曾经四处奔走。这些寻找数据的经验,他后来进行了总结,为中国的历史文化研究开拓出了一条新路径。

20世纪60年代,联合国农业气象委员会、国际地理学会等几个国际组织都先后向中国索要蝗虫灾害分布的地图,但陈正祥发现,中国从来没有这样的地图,也没有现成的资料可以编制这样的地图。他回忆说,“就我个人说,只要回封航空信或电报,老实告诉他们,便可推得一干二净”,但是,一想到“将来的研究报告出版,在中国的空白上势必按上‘没有数据’(No Data)的记号”,他就不忍心拒绝,因为“‘没有数据’是专用于落伍地区的可耻记号,我看了就脸红”,所以他决心为中国编制这样一份地图。然而,没有数据,又不能凭空捏造,这个问题常苦得他“夜半绕室彷徨”。

陈正祥最后想出的方法,是利用中国各地的方志。中国历史上闹蝗灾的地方通常都会供蝗神、建蝗神庙,这类庙宇被称为八蜡庙。若没有蝗虫灾害,农村绝对不会劳民伤财去建造这类庙宇,因此可以肯定,这类庙宇越多的地方,蝗虫灾害就越严重。而在中国的历史方志中,对于这类庙宇的建立,都有详尽的记录。他于是开始一心一意查阅方志,“白天找到一批,晚上就把它们按到地图上去,从台湾大学找到南港的历史语言研究所,最后又找到东京、京都和天理”,他一共翻阅了3 000多种方志,花了8个月的时间,最终制出了中国的蝗虫灾害分布图。

中国蝗神庙的分布

注:从这幅图中,我们明显可以看到:黄河下游的河北、山东和河南三省上面,黑点密布,这表明这几个地区建有大量的蝗神庙,蝗灾当然很多;华中以南,蝗灾渐少;到了东南沿海,几乎完全没有。再在这幅图上叠加上平均温度线,陈正祥又发现,就蝗神庙的分布而言,其南部界线同春季及年平均80%的相对湿度等值线吻合,和年降雨量1 200毫米的等雨线也很接近。其中的原因是,蝗虫喜干燥,潮湿的地方自然就少。(图3–14、图3–15图片来源:陈正祥,《中国文化地理》,三联书店,1983年)

除了确定蝗神庙的地点与分布,陈正祥还针对华北平原这个蝗灾高发的地区,做了更细致的数据分析。他把方志中关于蝗灾的记录按地区和年代分门别类,计算出各地灾害发生的频率。在把数据标上地图之后,陈正祥惊喜地发现,蝗灾发生的频率也和地理位置存在关系。根据各地灾害发生的频度大小,陈正祥在地图上做出了两条等频率线,其中A线包围的地区,平均相隔不到10年就可能爆发一次蝗灾,在A、B两线之间的地区,平均每隔10~15年发生一次。例如,河北省大名县位于A区,该县从宋代到清代的736年间,一共发生蝗灾73次,平均每10年一次。

蝗灾频率和地区的关系

除了在历史文化和环境生态两个领域的贡献,作为一名地理学家,陈正祥还针对中国的城市化进程、工业发展、人口迁移、气候变化、交通港口建设以及各类物产资源的分布等主题,绘制过更多的地图,但可惜的是,这些地图大部分都没有在中国大陆出版。

在陈正祥大量绘图的时代,计算机还远没有普及。在那个时代,要绘一幅好图,其资料的收集、数据的统计,需要很长的时间不说,绘图的过程也非常烦琐,陈正祥也曾经在其书中谈过这个过程中的甘苦:“经过约莫二十年的岁月,很多地图都成熟了。我选择已经熟透了的,张贴在书房最着眼的墙壁上,一有闲暇就细心观察它,看看是否合理,或加以必要的订正。直到认为满意了,才分批开始精绘,我自己也参加精绘工作。不少已经精绘的地图,因为发现了重要的新资料,经过修改,又得重绘。一幅地图精绘两三次,是常有的事。利用此一方法编制地图,要花费很多的精力、时间和金钱,而所得的结果,仍不免有所欠缺。但这却是目前唯一可行的办法!”

20世纪50年代,中国大陆和台湾正处于紧张的对立状态,两岸隔绝,陈正祥绘图需要的大量数据和资料都无法获得,他因此辞去自己在台湾大学的教职。他写道:“我下决心要离开台湾,否则无法完成我的中国研究。”

1964年,他经欧洲辗转来到香港中文大学,出任首位华人讲座教授,这才圆了他的中国绘图梦。陈正祥也坦承,之所以不懈努力,是因为中国在这一领域的作品极其匮乏,很多空白甚至是由外国人来填补的:“中国的历史如此悠久,文化遗产如此丰富,有许多历史和文化事项,皆可形之于图,换言之,都可以用地图来表示。但是奇怪得很,中国学术界却始终没有能够系统化地编制历史和文化地图。日本同欧美的学者,虽个别有人下过功夫,但似乎受到文字修养和史料来源的限制,对中国很多古老的事项不能彻底了解……难以触及比较深刻和更有意义的部分。这些事实增加了我的志趣和勇气。”

斯人已逝。今天翻开他给我们留下的几百张图形瑰宝,子沛不禁思绪万千。100多年来,相较于西方发达国家,中国确实在许许多多方面明显落后,别人有的,我们没有,但是,如果别人有的,我们其实也有,只是不为人所知、不受人尊重,这算不算是一种更令人感到遗憾和难过的落后?

摘抄自:涂子沛《数据之巅》

 

End.