数字社会｜我们应该怎样做大数据史？

6月前

有竞争的思想，有底蕴的政治

本文经授权翻译自David Beer, “How should we do the history of Big Data?”, Big Data & Society, January-June 2016: 1-10. 戴维·比尔，英国约克大学社会学系教授，主要关注技术和媒介的变化对文化和社会的塑造，数据与度量的政治，社会思想的历史与未来，著有《算法思维的张力：自动化、智能与认识的政治》（The Tensions of Algorithmic Thinking: Automation, Intelligence and the Politics of Knowing），《社交媒体与记忆的自动生产：分类、分级和对过去的整理》（Social Media and the Automatic Production of Memory: Classification, Ranking and the Sorting of the Past）等。

文｜戴维·比尔

译｜王立秋

戴维·比尔，英国约克大学社会学系教授

大约25年前，在一篇为影响力很大的文集《福柯效应》（The Foucault Effect）而修订的论文中，伊恩·哈金（1991）提出了“我们应该怎样做统计史？”这个问题。这是一个看起来直接的问题，却可能引出一些复杂的回答。在这里，我想做的是参考“大数据”的出现，来重提那个问题。[1]简言之，我想问：我们应该怎样做大数据史？再一次地，这个问题看起来直接，但在提这个问题的时候，我想说的是下面两件事情。首先，我想论证，我们需要把我们对大数据的理解放进社会统计的历史去考虑。也就是说，我们需要把大数据放进各种类型的社会数据的谱系中去考虑。其次，我想论证，我们应该以这样的方式切入这个历史，即同时把大数据当作一个物质现象和一个概念来考虑。事实上，在这里，我的核心论证是，我们需要从历史的、政治的和社会学的角度来探索大数据的概念。这很重要，因为“大数据”是这样一个概念，在知名度和生命力上，很少有其他概念能和它相提并论。如此，我们需要拆解、理解它的影响。我们需要理解这个强大、流行的概念做的工作。

首先，我提议，在谈论大数据的时候，我们需要这样思考它的历史，即要认识到，大数据的历史和一种特殊的思维方式密切相关。其次，我们需要思考这种思维是怎样在特定基础设施的发展中、在数据分析产业中起作用的。也即，把大数据看作一种现象和一个概念的纠缠。因此，我们可以把大数据本身——就其通过被存档、被分类的个体化数据来追踪生活而言——放进现代国家的谱系中去理解（Beer, 2016）。在这个意义上，我们可以说，我们已经有大数据的历史了：在关于用统计来认识和治理人口的历史的叙述中，就可以找到这样的历史（例见Desrosières, 1998; Foucault, 2007; Hacking 1990; MacKenzie, 1981; Porter, 1986, 1995; Elden, 2007）。类似地，我们也有能够让我们理解这些不断积累的，关于人和人口的数据中权力的动力机制的社会学资源（有启发的例子见Espeland and Sauder, 2007; Espeland and Stevens, 2008; Rottenburg et al., 2015）。我们甚至有关于在历史著作中使用大数据的讨论——这个讨论提出了历史学家应该怎样用大数据来收集或存档资料的问题（Manning, 2013）。哈尔彭（Halpern 2014）在一篇与本文目标相近，但主要聚焦于数据美学的文章中提供了关于自1945年起数据出现的历史叙述。虽然有了这么多的文献，但从历史和社会学的视角来看，有一个问题依然有待探索，那就是，“大数据”这个概念做的到底是什么工作。也就是说，我们还是不了解这个概念本身，它来自哪里，它怎样被使用，它被用来干什么，它怎样赋予权威、验证、正名和许诺。换言之，现在，我们需要提出一种关于这个问题的详细叙述，即什么可以被认为是大数据的诞生。

再重申一遍，这一系列工作不涉及数据本身，而涉及围绕数据的、使数据融入社会世界的话语、术语和修辞。这不是说，大数据具体的物质属性就不重要了，相反，如果我们要形成一种关于那些数据的社会含义的更加详细的理解的话，那么，我们也需要认真对待这个问题，即，这些数据是怎样在特定的合理性化话语中形成的。可以说，从很多方面来看，大数据的权力动力机制既可见于标记和描述那些数据的方式，也可见于实际的数据本身。的确，考虑到数据获取的困难和分析大数据所需要的技术和计算技能，可以说，大数据这个概念的影响范围，比大数据这个物质现象本身还要广。无论大数据可能产生多么深远的物质影响，那些合理性——我们通过这些合理性来理解大数据——的影响都可能更加深远。本文致力于开启这一系列的工作，并试图发展出一种更加注重语境的对大数据概念的叙述，因为如今大数据早已嵌入了组织的、政治的、社会的、文化的和日常的生活。

数的“雪崩”

在前面提到的哈金的那篇关于统计史的、导向他关于同一个话题的其他更具实质性作品的论文中，他讨论了他所说的“数的雪崩（the avalanche of numbers）”的一些特征。在这里，我们可以开始把所谓的大数据革命放到更长期的历史语境中去考虑。考虑到哈金论文的写作日期，显然，在提到这个数的雪崩的时候，他并不是在谈论数字技术、智能手机、可穿戴设备或社交媒体的兴起。事实上，他实际上是在谈论大约在1820年到1840年，随一种新的“对数的激情”和一个越来越大的数据收集的组合体（assemblage）的出现而发生的“数的雪崩”。在其他地方，哈金说，在这同一个时期，人们体验到了数的“爆炸”。就像波特（Porter, 1986）观察到的那样，“使统计这个术语变得不可或缺的‘数的大爆炸’发生在19世纪二三十年代”。这个数据的“爆炸”或“雪崩”是在“民族-国家重新清点自己的臣民，给他们分类，把他们列成表格”的时候发生的。换言之，这种感觉——即我们正在面临一场关于人的数据的洪水——并不完全是新的，事实上它有着悠久的历史。数据的类型和对它的分析可能变了（比如说转向商业和算法形式的分析等等），但连续性是一目了然的。当然，当前的数据时刻的特征从某些方面来看是新的，但指出这点依然是有趣的，即，这种“社会数据正在形成巨大规模”的想法，这种“我们正在面临深不可测的社会数据洪流”的感觉本身是有历史的。“雪崩”的概念给人一种不断增加的数据资源很“重”的感觉，和数据突然变“大”了的想法给人的感觉很像。这两种说法都基于这样一种感觉，那就是，关于人的数据突然且不可阻挡地涌来，数据汇集形成以往不可想象的规模。因此，这两个数据现象都和它被想象的方式交织在一起，在这里，关键的差别在于，哈金的术语是建立在这一观察——19世纪，度量（metrics）的作用变得越来越重要了——的基础之上的；而大数据则是这样一个术语，在日常话语中，人们通常用它来指此时此刻发生的数据现象。大数据是一个和与之相关的数据和方法一样有“社会生命”的概念（Savage, 2013）。回顾19世纪，哈金总结说，“在人类研究的领域中，几乎没有哪个没有受到被我称作‘数的雪崩’、‘对决定论的侵蚀’和‘对偶然的驯化’的事件的影响”。在这里，我们也看到，人们已经感觉到，对数据的收割正在蔓延至整个社会世界，分析那种数据中的模式、处理概率问题的新方法也随之而出现。

让我们通过说明，再次回到哈金关于我们应该怎样做统计史的论文。在那篇论文中，哈金指出“数的雪崩至少部分是工业化和人从农村涌入城镇的结果”。随着工业化的发展和大部分国民人口向城市环境的集中，对人的统计也迅速扩大了。哈金认为，与随这些基础设施变化而来的可能性相伴的，是一种“崇拜数的，十足的拜物教”和与“新的清点”或“新的计数”相关的文化转变。社会、技术和文化变化的这一结合导致了哈金所说的“数的雪崩”。人们在以新的方式清点人口的同时，也通过分类来给他们排序。就像哈金解释的那样，“在数的雪崩开始的时候，分类也变多了，因为这就是这种新话语的形式。”随着新度量的出现，人们也开始用新的方式来给人分类，而这又对人们感知和对待个体和集体的方式产生重大影响。这种新型的社会排序是随管理不断积累的关于人的数据的需求而出现的。在这里，哈金指出“许多我们用来思考人及其活动的现代范畴，都是在收集数据（numerical data）的过程中出现的。”因此，新的范畴出现了，人们通过它们来收集、分析这些新的数据，而这又引出了各种各样的“分类斗争”(Tyler, 2015)。

哈金提出，与这些飞快增加的数相关的力量，部分在于这些数显然的客观性。哈金称，统计数据“具有某种表面上的中立性”。正是这个中立的表象，给了它们一种权威的感觉，使它们获得如此巨大的权力。与这种中立性相关的是这样一种能力，即人们能用数和范畴来定义被看作正常的东西和因此被看作不正常的东西。就像哈金指出的那样，“还有一些统计的元概念，其中最值得注意的是‘常态’。”因此，这些不断积累的数据变成人们用来认识和治理人口的核心手段，在这些数据中，各种理解和期待，和被强加的规范一起被生产出来。简言之，哈金观察到的，是“对人口的统计……形成了工业国家不可或缺的一部分”。工业现代性带来了庞大的，关于人口的数据档案（Featherstone, 2000）。

这一切的结果，是统计变成治理的一个重要成分。哈金的论证是，基于这些类型的数据的规范和分类使社会事实得以存在。哈金认为：

统计帮助决定了关于社会的法律的形式和社会事实的性质。它生成了人文学科内的概念和分类。并且，统计资料的收集也至少创造出一个巨大的官僚机构。这个机构可能以为自己只是在提供信息，但它本身就是现代国家中权力技术的一部分。

《算法思维的张力：自动化、智能与认识的政治》（The Tensions of Algorithmic Thinking: Automation, Intelligence and the Politics of Knowing）书封

统计数据因此也被纳入了国家治理的基础设施和模式本身——在过去20来年里，我们可以把公司和商业数据也算进去。结果，围绕这些数据的推理范畴和模式，也变成了国家正式法律结构的一部分，直接影响了国家对待人的方式（一个与移民相关的例子见Schinkel, 2013），再一次地，用哈金的话来说，“统计官僚机构不但通过创造行政裁决，也通过决定人必须在其中思考自身及其可能采取的行动的分类来施加自己的强制力”。这些新出现的数很快就定义了人们看待自身、看待别人的方式，也定义了限制和约束行动和机会的方式。所以，我们可以把大数据放到社会统计的这一悠久历史中去，但我们还可以指出，随着历史的发展，特别是随着商业机构进场，与国家联手增强数据的基础设施、范围、积累和部署，数据的规模变得越来越大了(Ajana, 2013; Beer, 2016; Kitchin, 2014)。

这表明，把哈金的这篇文章放进统计发展的历史中去考虑很重要，但这么做也开始把我们带入超出该文范围的领域。我想从这篇文章中接过来讲的一点是，数据和度量的扩张，和近代史上一个特殊的时刻分不开。这样的感觉——数据在发挥着强大的排序功能——已经有一段时间了，对这样的认识——现代化的进步带来了铺天盖地的信息洪流——来说也一样。在这里，我想做的，是先把这个特殊的历史语境放到一边，我们还可以到其他地方去探索现在被称为大数据的那个东西的谱系史（与大数据相关的社会统计史概述参见Beer, 2016, chapter 2）。相反，在意识到这个数据的基础设施、技术和文化史的时候，让我们把注意力集中到大数据这个实际的概念或术语的相对较短的历史上。我们需要进一步的工作来限定当前这种社会数据采取的形式的特殊的物质和本体论属性——比如说，基钦在做的工作（Kitchin 2014; Kitchin and McArdle, 2016）——但眼下，让我们先把注意力转向另外一个地方。大数据这个概念的历史很短，它是一系列长得多的、横跨成百上千年的历史发展的一部分。在下文中，我想论证的是，我们需要关注大数据这个特殊概念在做的工作，特别是，如果我们要继续尝试更加全面地理解今天数据产生的影响的话。如此，重点在于，我们可以通过那些社会统计史著作来追溯作为一个现象的大数据的历史——哪怕我们还是需要更多得多的工作，才能发展出一部更加全球的、更加“关联的”（Bhambra，2014）统计史——但我们却几乎不理解大数据作为一个概念的诞生及其生命的历史。而需要追溯、剖析和考察的，正是这个概念。事实上，本文的目的，就在于制定一个我们为充分理解大数据的政治而必须完成的工作计划。

追溯作为概念的“大数据”

在这里，我希望我们能够摆脱数据本身，开始历史地思考，人们是怎样把这些数据概念化的。通过承认关于人和人口的数据的积累的悠久历史，我们可以开始研究在历史上，人们是怎样在概念上以不同的方式来呈现数据的，并因此而更加清楚地认识到把大数据当作一个物质现象和流通概念的交织来研究这个计划的重要性。

伊恩·哈金和斯图亚特·艾尔登都指出，要真正理解概念的力量和影响，唯一的方式是把它们放到它们的历史语境中去看。哈金的立场是，我们需要“在历史现场探索概念之间的联系”。类似地，艾尔登认为“概念的历史很重要，因为它强调了术语和意义与名称之间的联系；语境主义的进路至关重要，它强调把文本放到它们的写作情景中去读的重要性”。联系领土这个概念，艾尔登认为“领土是一个词、一个概念和一种实践；我们只能从历史来把握三者之间的关系”——这就是艾尔登在他的书《领土的诞生》（The Birth of Territory）中详细展开的研究计划。这里的重点在于，我们只能通过特定社会现象的话语和概念表述来理解它，并且我们也只能通过历史地思考这些概念表述来理解它们。哈金和艾尔登都把概念放到了其历史分析的核心。

哈金进一步解释了他的立场：

我们的概念的组织，和由此而来的哲学难题，有时和它们的历史起源有关。在观念要么通过演化、要么通过突变发生根本性变化的时候，我认为，无论是什么使那个变化得以可能，都必定会在后续的推理上留下印记。

我们可以总结说，概念是其历史起源的产物，但之后它们也会产生自己的社会影响力。因此，我们的概念的组织，处在社会变革的核心——观念的变化力量强大。哈金指出，这些概念和引出这些概念的变革会在未来的推理上留下印记。它们会影响人们理解社会世界和对之做出行动的方式。如果我们在追踪大数据概念的时候把这点牢记于心，那么，我们就不只要考察这个概念在其生命周期中产生的影响，还要考察它可能对未来的推理产生的影响。我们还需要考察注入大数据这个概念的话语框架和推理模式。因此，像大数据这样的概念的谱系，旨在把一个概念的出现，当作向过去和未来延伸的推理的历史脉络的一部分来把握。一个概念的出现是一个时刻，但在这个时刻中，我们可以揭露某种更加长期的东西。
我们当然可以看到在哈金和艾尔登的进路中有福柯的影响在回响。我们可以通过转向福柯一个相对更加著名的、最初发表于1980年的访谈，来放大这些回响。这个访谈聚焦于方法问题。在访谈中讨论的福柯进路的多个方面中，有一个主题和概念在塑造社会现实上的作用有关。在这里，福柯描述了他在自己作品中使用的一些方法，并特别强调了他对这点的关注，即，我们需要探索社会世界形成中的概念过程。他着重谈到了自己对理解人们通过实践生产“真”的不同方式的关注。就像福柯解释的那样：

把话说清楚：我的问题是要看到人是怎样生产“真”（我再次重申，我说的生产“真”，指的不是生产真的言辞，而是说建立这样的领域，其中人们可以把真假实践变得有序、有关）来治理（自己和他人）的。

这里不寻常的是，如此重要的东西，竟然被藏进了括号。福柯感兴趣的是探索人生产“真”的不同方式，通过这个探索来发现那些“真”是怎样限定理解、行动和实践的。他的意图，是用事件和时刻来撬开这些“真”的机制，理解这些“真”的机制是怎样激活实践的。就像他说的那样，“把单个实践群（singular ensembles of practices）事件化，使我们可以把它们当作不同的‘管辖’和‘验真’机制来理解：用极其野蛮的话来说，我想做的就是这个”。因此，他的意图是把握转化为管辖边界和界限的实践，并同时看到“真”是怎样以不同的方式得到验证的——值得注意的是，他在其他地方也论证过，市场是“验真的场所”。通过这么做，他的目标是“重新把‘真’的生产放到历史分析和政治批判的中心”。在其他地方，福柯把这种特定“真”的机制的生产或表现，描述为一个“做真（alethurgy）”的过程——也就是说他把“‘真’的表现”理解为权力结构构造的核心。因此，我们可以在围绕特定实践的话语中发现这些“真”的机制及其有限权力。

在这点上，福柯的注意力转向了“规划（programmes）”，以便用这个例子来说明和解释这些更广泛的目标。可以这样解读，在福柯谈到规划的时候，他说的是这样一套实践，“真”的机制在这套实践中被想象并因此而变得可能。在这里，他谈论的是这样的，对活动的规划：这样的规划不总会成为现实，但我们可以用它们来探索观念是怎样被投射到社会世界上的。在访谈中，福柯被问到这样一个问题，即怎样看待这些规划与实际上发生的现实的分离。福柯的回应是强调理解世界怎样被想象的重要性，因为只有这样，我们才能理解世界是怎样展开的。就像他解释的那样：

边沁的全景敞视监狱并不能很好地描述19世纪监狱中“真实生活”。对此我的回答是：的确，如果我想描述监狱中的“真实生活”，我不会去看边沁。但这个“真实生活”和理论家的架构不是一回事这个事实并不说明这些架构因此就是乌托邦的、想象的等等。只有对实在缺乏理解的人才会这么认为。对这些架构阐述，首先就对应着一系列多样的实践和策略。

这里福柯指的显然是他为1975年的《规训与惩罚》做的工作。他认为，像全景敞视监狱那样的概念中把握到的各种类型的规划或想象的可能性很重要。这些类型的概念以不同方式织入现实，在融入管辖、边界的时候，在验证、授权和选择将存在的东西的时候，它们也就变成了实践的一部分。因此，概念或规划可以以不总是显而易见的方式，在实践中得到说明。把它们和现实分开是错误的。因此，我们不能认为，大数据只是一种存在于实际使用数据的实践之外的规划。类似的，大数据也不必然是一个很好的，用来看日常生活“现实”的概念；但它是一个很好的，用来理解这点——对当代数据的各种看法是怎样被纳入对生活的想象，对“真”的生产和控制社会世界的阈限工作的——的概念。大数据无疑是当代策略和实践的一部分。这里的重点是，我们可以把大数据当作一种需要以这样的方式来分析的思想规划来理解。

福柯进一步扩展了这点。他补充说，这些“规划会在实在中引起一系列的效果（这当然不是说它们会取代实在）：它们会结晶为制度，它们会影响个体的行为，它们会起到‘网格’的作用，限制人们对事物的感知和评价”。这样，想象的规划和概念的构造就转化成了“真”的机制。也就是说，它们固化为实践、组织、制度和行为。把这应用到大数据上，我们就可以想象，何以大数据这个概念也携带着“限制人们对事物的感知和评价的‘网格’”。也就是说，不但应用大数据本身会产生评价，而且，作为一种规划的推理模式，大数据这个概念本身就带来了为评价或判断提供手段的价值和规范。不但数据会提供判断，而且，大数据这个概念本身也会塑造关于价值的决定、判断和观念——因为它带来了这样一种看法，即我们可以通过特定类型的计算或数，来了解个体、群体和社会世界。在大数据这里，这些东西通过各种关于大数据的规模和它能够根除错误和低效的观念变得合法化了（关于大数据中规模和准确性的讨论参见Boyd and Crawford, 2012）。大数据的这些规划是带着使一切变得可测量的欲望而来的。

对福柯来说，这些想象的规划是否充分实现不一定重要，重要的是那些想象的规划在塑造实践上的影响，以及它们反映出来的那种更加广泛的合理性。在大数据这里，我们可能看不到它的计划或它想象的潜能充分实现的情况，但从很多方面来看，大数据这个概念的影响力已经远远超越了数据本身的影响。因为规划从来不会充分实现并不意味着它们就不重要了，尤其是在规划变得备受瞩目——就像当前的大数据运动那样——的时候。相反，我们应该看到那个规划是怎样实施的，想象的成果是怎样成为实践和策略的一部分的，或它们是怎样叙述或概括一种更广泛的治理术、政治经济或流行的合理性和推理形式的。根据福柯：

这些对行为的规划，这些管辖和验真的机制不是为创造现实而弄出来的，失败的架构。它们是现实的碎片，它们在实在中引起了这样的特殊效果：它们是隐含在人“引导”、“治理”和“指导”自己和他人的方式之中的真假区分。

在这里，作为名词的规划变成了作为动词的规划，变成了“为社会生活建立准则”，而这些概念上的框架，也变成了现实的碎片。对福柯来说，这样的规划碎裂为现实。他感兴趣的，正是把这些碎片拆开。福柯对真假的使用看似直白，但他指的，是这样的规划设定严格限制的强力方式。因此，对福柯来说，这样的概念规划“引起效果”并使事情发生。它们是治理的一部分，它们起到了通过对那些影响行为中的“真”的机制做出贡献来塑造行为的作用。就像他进一步解释的那样，我们需要关注“领域和对象的互相关联的形成和……与之相关的可验真、可证伪的话语；我感兴趣的不只是它们的形成，还有它们在它们连接的实在中产生的效果”。一旦我们认识到这样的架构对社会世界现实的行为来说的重要性，我们面临的挑战就变成了思考这个问题，即怎样探索它们的出现和效果。

框定大数据

最近我们已经看到一些开始思考或指出需要思考今天围绕数据的概念和话语的作用的尝试。比如说，罗伯·基钦指出，我们需要考察大数据的政治和经济框架。他指出，我们应该考察“人们是怎样发展出一套强大的合理性，来支撑对大数据技术和方案的推出和采纳的”。基钦在指出这套合理性是一个更广泛的计划的一部分的同时，把他的讨论聚焦于其四“大任务”，即“治理人”“管理组织”“撬动价值”和“生产资本”。

对基钦来说，我们需要探索这些支撑大数据的合理性，因为它们在大数据向更广泛社会结构和秩序的融入上起重要作用。这些合理性必须到大数据的话语机制中去找，因此，我们需要详细、细致地关注这些机制，这样我们才能理解大数据权力的动态变化。关注这些机制的一种方式是考察织入大数据运动的逻辑。就像基钦说的那样：

我们可以通过思考反论点来说明正在被建构起来的话语机制的力量——如今，我们很难说缺乏智慧和洞察力、生产力、竞争力、效率、效能、可持续性、安全性是一种可取的情况了。如果说大数据提供了所有这些好处，那么，（其话语）机制认为，不发展大数据系统就没有道理了。

在这里，思考那些支撑大数据的强大合理性的含义，揭露了话语的效力。大数据带来了一种让人服从的力量和一种很难批判或抗拒的合理性。我们可以认为，这里面的核心处有一种新自由主义的推理或合理性，一种建立在以这样的方式——把数据当作在整个社会世界推广市场模型的机制——来使用数据的基础上的推理或合理性（相关的讨论参见Beer, 2016）。这些思考让基钦得出这样的结论：“当下需要通过具体的案例研究来完成的工作，是更加详细地测绘和解构正在被建构起来的、正在展开的话语机制”。无疑，基钦的建议和我在本文开头提出的计划有相似之处。基钦给了我们一个起点，让我们可以通过这个起点，来给我们从福柯、艾尔登和哈金作品中得出的那类观察一个出口。就像基钦指出的那样，“考虑到数据的效用，我们亟须从哲学和概念的角度来研究它们”。因此，我们需要的，是使我们能够发展出更加丰富的，对于大数据的话语和合理性的理解的概念和历史资源。我们也得出了这点。现在，我们需要想办法扩展这些洞见、落实这一进路。我的建议是，我们应该把注意力主要集中在大数据这个术语本身上，并开始从历史和概念的角度来探索它。这将为我们提供一个回应基钦更普遍呼吁的聚焦点。这么做在一定程度上要求我们不只要质疑或反驳，更要去仔细地拆解“支持者宣称大数据有积极破坏效果的话语”。我们需要通过说明围绕大数据概念的修辞轨道来关注的，就是这个正在展开的话语机制。无疑，大数据不只是它的话语机制，它还有使它成为大数据的物质属性，但这种话语框架的特殊性塑造了那些物质在场和大数据向更广泛社会结构和秩序的融入。

在其他地方，也有其他一些罕见的场合，在这些场合下，此类话语的力量已经得到了承认。对图书馆信息科学家罗纳德·E.代伊（Ronald E. Day）来说，这种话语以一套特殊的主张为核心。对代伊来说，这里发生的，是从指某种灵活的、被告知的“信息”概念，向某种更加死板的东西的转变。根据代伊，“最近，关于‘数据’的话语——这种话语把数据构想为某种自动产生影响的在场或‘事实’——已经取代了‘信息’的修辞。”因此，这个转变转向的，是这样一种想法，即认为数据等同于事实，它因此也就抛弃了对信息的更加开放的看法。对代伊来说，这是一个重要转变，它使当代的数据观念在社会构造中变得更加强大了。他继续论证说，这些

主张认为知识是直接作为“事实”呈现出来的，而不是通过技术、技艺、方法的方法找出来的，或通过理论或先验概念阐释出来的。数据说……数据向我们展示……我们只对数据感兴趣（而不对证明/借口/你的意见/你的经验感兴趣）……；现在，大数据及其挖掘与可视化为我们提供了一个重新看待世界的宏观视角——这些和类似的措辞和比喻使空气中弥漫着一种据说是一种新形式的知识和一种新的治理工具——据说它们优于过去和当下其他所有的知识和工具——的东西。(强调部分是原来就有的)

对代伊来说，就理解那些数据的强大作用而言，这种把数据呈现为事实的做法至关重要。就像在基钦那里那样，代伊也探索了人们是怎样以有说服力的，甚至是不容抗拒的方式呈现数据的。在上面的段落中，代伊为这种类型的话语框架在实践中是怎样起作用的提供了一些说明。在这些表述中，数据被看作客观的、中立的、显露真相的——数据不是可以质疑或质问的东西，毋宁说，它是一个社会事实，行为都应该以它为中心。数据被看作一个不能用主观意见来质疑或对抗的治理工具。在这种构造下，数据，就它对社会世界的全景观测而言，被看作不容置疑的、准确的和无所不包的。

《社交媒体与记忆的自动生产：分类、分级和对过去的整理》（Social Media and the Automatic Production of Memory: Classification, Ranking and the Sorting of the Past）书封

这些立场提供了一些有启发性的洞见，可实际上，我们也只是做到这种程度而已，即只是承认，需要思考伴随这些数据的概念和话语框架。在一定程度上说，这个计划的确亟需关注。现在，我们需要持续关注这点，即在这些洞见的基础上建设，复兴——请允许我做这样的假设——福柯如果要观察大数据的出现或诞生的话会采取的那种谋划。

如果我们从大数据概念的历史的角度来探索大数据的历史的话，那么，我们应该努力理解这个概念为塑造实践和行为、为限制管辖和为建立“真”与可取的结果而做的工作。简言之，我们应该探索织就大数据这个术语的、大数据这个术语激发的世界观或见解。也就是说，要这样理解到大数据这个术语是在验真的张力中被建造出来的，要看到它怎样授权特定的行为、行动和结果。要看到它支持什么关于“真”的见解和观念。要看到它是怎样引入一套偏好和欲望，并在之后把这套偏好和欲望变得合法的。也就是说，要看到大数据这个概念本身就带有政治目的，因为它就是来给价值划界的。我们当然可以从思考这个概念是怎样通过它表面上的客观和中立属性，引出特定信任感的开始。简言之，大数据的概念框定并补足了数据本身。记住这点，我们需要去考察这个概念做的是什么类型的工作，它是怎样使我们看到那些数据的，以及，这个框架是怎样和看待那个社会实际的特定方式交织在一起的。在这方面，大数据概念对数据的框定尤其厉害，它不但决定了我们从数据得到什么，也决定了单是把这两个词（即“大”和“数据”）一起说就已经带来的各种可能性。

这一进路需要我们跨越不同领域来考察人们是怎样使用大数据这个术语的。它将考察它在商业的、政治的、经济的和组织的话语中的部署方式，以及它在这些领域做的是什么类型的工作。聚焦于此将有望开启更加广泛的政治母题，因为它们也渗入了日常治理和社会排序的语言。

在这些讨论的基础上，我将在下表中总结扩展这一计划所需要的核心分析要点。下表为探索大数据概念做的工作提供了一个分析框架。表格左栏是分析要点，右栏是那些分析点提出的各种类型的问题。希望这些分析上的出发点能揭示大数据这个概念隐而不露的动力机制，并因此而使我们能够把它当作一种对活动的规划和一种在社会世界的限制和实践中实现的思维方式来分析。这个框架是启发式的，我们可以用它来指导和塑造我们的分析，但我们也需要对它进行调整。这里我要指出的是，我们可以用下表提供的框架来探索大数据这个概念是怎样在不同社会领域的数据构建中起作用和得到落实的。简言之，这是一个分析框架，它适用于一切谈论大数据的场合。

用于建构对“大数据”概念所做之工作的分析框架

结论

作为总结，我想指出，我们已经对——用哈金的话来说——数据怎样“造人”有一个相对明确的理解了，但我们对概念怎样造出那些数据的理解还相对贫乏。这不是说，当前的数据时刻的特殊物质属性就不重要了，显然，我们也需要进一步研究这些物质属性，这样我们才能理解这些属性是怎样把它们和更广泛的社会统计史联系在一起，或怎样使它们不同于以往的数据的。不过，本文想说的是，我们需要仔细研究大数据概念的轨迹和影响。我们需要问，这个术语做的是什么工作以及它已经做了什么工作。我们需要研究大数据概念是怎样在组织、拨款机构、政治和政策界的话语中，在新闻中，在社会评论中，在其他各个领域中站稳脚跟的？我们需要考察这个强大概念的出现，理解人们是怎样在使用它的过程中塑造和重新塑造它的。我们还需要理解大数据这个术语是怎样产生数据，给数据生命，使数据变得强大而重要的。

这种进路的支点，是这样一种追求，即更加细致地理解大数据作为一个概念是怎样再造价值和意义观念的。大数据的概念看似不重要——它可能会被当作“生意”人或“管理”人员的夸夸其谈而打发过去，可能会被当作一时的流行风尚，也可能会被当作当代媒介文化中无意义的废话的一部分——但这个术语被使用的规模表明，事实可能并非如此。大数据这个术语做了很多工作，在拨款、管理、决策、“人力资本”和生产与消费的日常实践中，它是一个有说服力的存在。我们需要关注大数据这个概念做的工作，尤其是因为概念做的工作，往往比实际的数据本身做的还要多。的确，我们可以用大数据这个术语来揭示那种在日常的、组织的和社会的生活中引入数据和度量引导的过程的思考和推理方式。这个概念起的作用，在一定程度上和它给被重视的或被认为有价值的东西划界的不同方式有关。这个术语会给一些决定信心、权威和客观性，然后，这些决定就会通过数据本身得以实现。这也就给了这个特殊的术语一种极为强大的社会存在，而我们需要拆解的，正是这个存在。因此，我们需要到人们使用这个术语的历史中去寻找线索。

这一切需要我们理解人们是在怎样的看法中，通过怎样的看法来传达大数据观念的。我们需要看到大数据是怎样被唤起的、而它又激起了何种结果和感受力。大数据的力量不只在于数据本身，也在于人们想象和展望数据及其潜能的方式。理解大数据的力量、影响和波及范围需要我们在理解物质数据的施为影响的同时，关注框定物质数据的概念。我要指出的是，迄今为止，我们实际上把所有的注意力都集中到了现象上，而几乎不怎么关注定义、制定、引出那些表面上的大数据的强大概念。

回顾一些重要历史叙述，我们很快就能看到，大数据最新的地方，倒不一定是数据的快速积累——虽然这点是一套已有的漫长谱系线索中的一个重要部分或重要时刻——而在于大数据这个概念在商业、组织和经济上具备的巨大力量。出于这个原因，我想建议，现在，我们需要给这个强大、重要的概念一些关注，尤其是在它以如此之多的方式定义着当代生活的情况下。已经有学者论证过，在思考我们的生活是怎样被测量的时候，我们需要思考伴随那个测量的思想模式和风格，而不只是把注意力集中在技术的基础设施上（参见Elden, 2006: 139-148; Hacking, 1990; Porter, 1986, 1995）。对大数据来说肯定也是这样。对大数据的追求，和统计测量人口的追求一样，既和一种推理方式或一种思维方式有关，又和它生成的那个组合体有关。

研究这些思维方式或推理风格的方法，是拆解和说明大数据这个标签在形形色色社会领域中所起的作用。当然，任何把大数据的物质现象和大数据的概念分开的做法都具有误导性，因为二者是一起发生作用、密切交织在一起的。在这里，我的重点是，我们需要思考大数据展开的历史语境，我们需要把它看作对人和人口的测量的一系列长期发展的一部分。不过，在追求更加注重语境的理解的同时，我们也需要考察大数据这个概念和对这个术语的使用所包含、概括的那种数据思维。在度量的基础上理解社会世界的进路的漫长展开中的这个特殊时刻有一些东西值得说道，在那段历史上，这个特殊的时刻有很多在物质上独特的地方，但这些需要说道的东西也要求我们在理解这些表面上新的数据形式的同时，也关注它们在围绕、渗透它们的话语中被包装、呈现和推出的方式。这可能是也可能不是社会统计度量史上的一个重要时刻，但它无论如何都是这样一个时刻：此刻，一个特殊的概念正在流行，并且，这个概念的力量值得反思。只有通过分析大数据的物质性和大数据这个概念（我们正是通过这个概念来理解这些物质转变的）之间的互联，我们才能以一种在历史上知情且批判的方式来理解大数据。也许，关于那段漫长历史上的这个时刻的最有趣的地方也正在于，我们有大数据这样一个流行且显眼的概念，它以这样的方式向我们呈现这个现象，仿佛它是那个历史中一个突然出现的、独一无二的时刻。

注释：
[1] 在本文中，我没有定义“大数据”本身。原因有二。首先，有学者在其他地方已经提供过这样的定义了，如罗伯·基钦(2014)对大数据的权威概述（该书包含一个详细概述大数据的章节，见Kitchin, 2014: 67-79）。其次，我在本文中概述的进路旨在研究与“大数据”这个术语相关的意义的合理性。如此，它旨在研究与这个特殊术语相关的各种定义，而不把它当作一个固定的实体来对待。实际上，本文旨在把大数据这个术语当作探索这些定义陈述与理解的一种方式——从一开始就把它定义得太死的话会妨碍本文的推进和展开。

参考文献：
Ajana B (2013) Governing Through Biometrics: The Biopolitics of Identity. Basingstoke: Palgrave Macmillan.
Beer D (2016) Metric Power. London: Palgrave Macmillan.
Bhambra GK (2014) Connected Sociologies. London: Bloomsbury.
boyd D and Crawford K (2012) Critical questions for big data: Provocations for a cultural, technological and scholarly phenomenon. Information, Communication & Society 15(5): 662–679.
Day R (2014) Indexing it All: The Subject in the Age of Documentation, Information, and Data. Cambridge, MA: MIT Press.
Desrosie`res A (1998) The Politics of Numbers: A History of Statistical Reasoning. Cambridge, MA: Harvard University Press.
Elden S (2006) Speaking Against Number: Heidegger, Language and the Politics of Calculation. Edinburgh: Edinburgh University Press.
Elden S (2007) Governmentality, calculation, territory. Environment and Planning D: Society and Space 25(3): 562–580.
Elden S (2013a) How should we do the history of territory? Territory, Politics, Governance 1(1): 5–20.
Elden S (2013b) The Birth of Territory. Chicago: Chicago University Press.
Espeland WN and Sauder M (2007) Rankings and reactivity: How public measures recreate social worlds. American Journal of Sociology 113(1): 1–40.
Espeland WN and Stevens ML (2008) A sociology of quantification. European Journal of Sociology 49(3): 401–436.
Featherstone M (2000) Archiving cultures. British Journal of Sociology 51(1): 168–184.
Foucault M (1991) Questions of method. In: Burchill G, Gordon C and Miller P (eds) The Foucault Effect. Chicago: The University of Chicago Press, pp. 73–86.
Foucault M (2007) Security, Territory, Population: Lectures at the Collège de France 1977–1978. Basingstoke: Palgrave Macmillan.
Foucault M (2008) The Birth of Biopolitics: Lectures at the Collège de France 1978–1979. Basingstoke: Palgrave Macmillan.
Foucault M (2014) On the Government of the Living: Lectures at the Collège de France 1979–1980. Basingstoke: Palgrave Macmillan.
Hacking I (1990) The Taming of Chance. Cambridge: Cambridge University Press.
Hacking I (1991) How should we do the history of statistics?. In: Burchill G, Gordon C and Miller P (eds) The Foucault Effect Chicago: The University of Chicago Press, pp. 181–195.
Halpern O (2014) Beautiful Data: A History of Vision and Reason since 1945. Durham, NC: Duke University Press.
Kitchin R (2014) The Data Revolution: Big Data, Open Data, Data Infrastructures & their Consequences. London: Sage.
Kitchin R and McArdle G (2016) What makes big data, big data? Exploring the ontological characteristics of 26 datasets. Big Data & Society 3: 1–10.
MacKenzie D (1981) Statistics in Britain: The Social Construction of Scientific Knowledge. Edinburgh: Edinburgh University Press.
Manning P (2013) Big Data in History. Basingstoke: Palgrave Macmillan.
Porter TM (1986) The Rise of Statistical Thinking 1820–1900. Princeton, NJ: Princeton University Press.
Porter TM (1995) Trust in Numbers: The Pursuit of Objectivity in Science and Public Life. Princeton, NJ: Princeton University Press.
Rottenburg R, Merry SE, Park SJ, et al. (eds) (2015) The World of Indicators: The Making of Governmental Knowledge Through Quantification. Cambridge: Cambridge University Press.
Savage M (2013) The ‘social life of methods’: A critical introduction. Theory, Culture & Society 30(4): 3–21.
Schinkel W (2013) The imagination of ‘society’ in measurements of immigrant integration. Ethnic and Racial Studies 36(7): 1142–1161.
Tyler I (2015) Classificatory struggles: Class, culture and inequality in neoliberal times. The Sociological Review 63(2): 493–511.

投稿邮箱：[email protected]

本文责编：朱凡。

本期微信编辑：朱凡。

本文为思想市场原创内容，点击“阅读原文”进入澎湃新闻网站阅读更多精彩内容。

微信扫码关注该文公众号作者

来源：澎湃思想市场

数字社会｜我们应该怎样做大数据史？

相关新闻