Tip:
Highlight text to annotate it
X
有一句来自谷歌首席经济学家 Hal Varian 的话我很喜欢
我觉得它说明了我们在团队研究中
想尝试的和正在处理的问题:
把数据拿到手,理解它,
处理它,从中提取价值,将它形象化,
传达它……的能力,
将要成为未来十年中
至关重要的技能。
因为现在我们真的拥有了
本质上开放的、无处不在的数据,
而这就使得
另一种资源相对稀缺,
那就是有效利用数据的能力。
无论是数据的数量
还是存取数据的方式
都在爆炸性增长,
而且非常新。在 data.gov 上
你可以看到联邦政府
在用一种原始格式的方式发布数据,
他们不试图用任何形式来组织这些数据。他们会说
“就是这些数字,随便你们用吧”。
这很有趣,
我们在试图探索如何在此基础上做些有意思的事。
很明显我们遇到了一个重大的数据问题,
而且没法解决。
你知道,我们可以跑数据,
可以进行复杂的统计操作,
可以做数据挖掘,所有的事情,
但是无法模拟
人类……
而那正是事情的乐趣所在。
在媒体界,我们总是很高兴看到
《纽约时报》所做的事情。
他们在挑战极限,
他们确实在做
一些相当复杂的可视化,
我们能看到他们将一切
追溯到学术界,
这真是太好了。
我是说,图表也是可视化,
所以我们和其他人
已经做了很久的数据可视化。
我们现在所做的事情
和作为一个学科的可视化
是有点在进化和成长的。
这跟我们过去做的事情有点不同。
他们给经济的方方面面做了 Voronoi 图,
这让我很感动。
数据天生就是有层次的。有食物、肉、不同种类的肉——
相对于“通货膨胀”这个奇怪的抽象概念,
这些是你容易想到的东西。
从数据的结构来看,树形图明显是一个好的解决办法,
现在有一些软件能做出方的树形图。
这看起来有点不友好或让人不满意,
所以我开始找那些有不同做法的人。
Michael Balzer 当时在德国读博士后,这正是他研究的内容,
所以我向他寻求了帮助。
Amanda,我忘了是谁了,可能是某个博客的作者或者在上面评论的人,
说她是“信息可视化界的女王”,
这很好笑,但我认为这是真的。
Amanda 在本科学习统计学,
她让统计系更加关注数据,
并带来了惊人的
数据处理能力。
你知道,我不会成为一个好的学术研究者,
于是我开始思考我想要做什么,
然后开始申请各种东西,
看看来自哪里的拒绝会让我感到失望。
其中之一就是,
我寄出了在《纽约时报》图形部门的实习的申请。
你知道,我认为她最近的作品非常巧妙,
展现四年内财政赤字预测的历史。
我相信这个她称为
“豪猪图”的创意是由她原创的,
图中主要的线是
联邦赤字的实际情况,
在不同的时间点上,
在做出预测的时候,
她创建了一条线
来表示预测的赤字。
通常你会发现
——我认为,她说——
70%的情况下,
预测都比实情要乐观,
你可以在图表中看到,
这是一个很重要的主题,
这也是加入历史背景的很有趣的方式。
很多时候,可视化的一大好处就是
将数据放到背景中——
我可以看到90年代的政府开支出现了一个峰值,
这正是经济向好
因而税收达到峰值的时候。
像这种描述性的注解,
它并不在开支数据本身上显现,
但对正确理解发生了什么是至关重要的。
最近,Amanda 做了一件作品
来帮助读者了解
不同种类人群的失业率。
可能美国的每一种报纸
都用了图表来展现失业率
这个数值已经升至10%
其实你会发现,失业率
在不同人群中变化非常大。
如果你是一个年龄在25到44岁之间的、
受过大学教育的女性白人,
这个人群的失业率
只有3.5%;
但如果你是一个高中没毕业的
黑人男青年,
失业率几乎有50%。
对我来说,我想最高的目标就是
改变你理解世界的方式,
拿一些你已经知道的事情,
让你第一次
重新思考它。
我很希望能够雇一个统计学家或
者精于计算机的记者。
我们现在有许多位置,
我很想把这些位置
适配给那些真正有才能的人。
“数据就是这些,
而我们想要在这些数据上如此如此形成一个故事”。
我们改变了我们团队的焦点,
集中更多精力在基于数据新闻上。
我们找来了有数据方面专长的人,
我们找来了懂地理信息系统软件的、
比大多数设计师
更会操作电子制表软件的人,
希望我们在那个层面上有所提升。
我们差不多是一年前开始的,
现在我们就快要有一个
精于数据的记者了。
我们用经济刺激资金跟踪器不少尝试,
它是一个我们与 OnVia 合作的
数据繁杂的项目。
OnVia 在收集所有
关于政府签订的合同的数据,
政府合同是作为
投放刺激资金的结果被发布的。
我们将所有这些数据绘制到地图上,
让人们可以根据产业类型
进行分拣、过滤,
最终的目标
是将这种数据与
“谁投票给了刺激资金”
等等结合起来。
过去的一年里我们对车祸数据做了可视化。
我们的记者
完成了一个超大的项目
——获得整个英国的车祸死亡数据。
这份数据在其他任何地方都没有,
所以要把握它是一个相当了得的挑战。
然后我们把它们绘制成地图和图表,
以期从中找到一些故事,以及任何趋势、任何交通事故多发地段。
我们有一个不断更新的阿富汗意外事故数据库
和一个伊拉克意外事故数据库,
它们记录着不同战场上的死亡人数
以及相关人员的人口统计资料,
这对人们来说是一个很情绪化的课题。
我想我们仍然处于早期阶段。
我想很多艺术家和记者
都还在探索数据可视化的能力,
包括传达内容的能力
以及传播叙事元素的能力。
我们也遇到了像其他人那样的挑战,
关于如何从数据中得到故事,
如何真正去质询数据,
如何用最好的方式向观众展示。
当你把大量的数据摆在那里、
让人们去质询它的时候,
我们测试了观众的反应。
总体来说,他们挺喜欢这个,
但他们想要更好的故事。
他们想知道重点是什么,
他们想知道为什么他们要看这个。
现在我们的大部分做法
是给你展示数据
然后让你自己得出结论。
在某种程度上,这很好,
但这也要求许多用户方面的努力。
如果用户感到困惑,
如果数据太多,
他们就会疑惑“我为什么要这么做”,
这就背离了我们想要的目的。
是的,我认为编辑工作是非常、非常、非常重要的。
我反对那种做法,
找一个网页模板,
做一个实例,把空位填上。
我认为很重要的一点是
首先看看你的数据
然后决定扔掉其中一些。
我们做了这个非常漂亮的可视化,
是财富500强的数据可视化。
这些黄色的圆形……
用来显示所有公司的
利润和税收。
非常漂亮的花朵,
但其中没有故事。
这很微妙。我认为我们在纠结:
在线的数据可视化
是不是需要叙事?
我想,
当你看见一个可视化的时候,
你可以按任何一个按钮,
然后会出现一个句子,
这些句子本身很好,它们有信息量,
但是它们不会产生更深的解释,它们互相之间也没有关联。
我想这一定程度上是因为,
当你可以按任何按钮的时候,这件事就比较难。
我认为现在“数据可视化”
这个短语的意义过于简单了。
它所做的就是单纯的反映数字,
而这似乎就是现在大多数信息图表的本质。
现在数据可视化似乎意味着将大量的数据形象化,
这导致了一个我认为是
毁灭性的趋势。
因为你可以用电脑做许多好看的东西、
许多看起来非常棒的数据,
但它们都让人完全无法理解。
不好的可视化确实是那样。
现在有许多劣质的可视化,
就像有很多劣质的信息图形一样。
我认为这个领域里技巧很重要,
如果你做错了,
就会得到非常坏的结果,好比许多写得不好的故事。
可视化做得不好的时候,
整个数据可视化的趋势都让我感到担忧。
因为现在的情况是,
有几个非常好的作品在博客等载体上到处出现,
然后所有人都开始涉足。
当然这总是有风险的,
因为我们一直以来应用的图形学的原理还是要被用到,
你不能就从数据里提出一些胡乱的东西,
我们还是应该
有一个清晰的叙事