量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、金融科技、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业40W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。
Two Sigma | Claudia Perlich
前言
即使现在大火的LLM和其他机器学习模型,其有效性还是最终依赖于开发和使用它们的群体的的理解和直观的洞察力。
机器学习任务的一个主要挑战是选择合适的数据,结合正确的算法,得到有效的解决方案。既然这样,那问题要么来自数据的质量,要么来自研究人员对任务的初步概念化。在这些情况下,人类的直觉是至关重要的,这有助于评估现有数据是否能够支持创建一个可靠和稳健的机器学习模型,可以代表人类作出决策和有效行动。
机器学习失效的情况是多种多样的,但是,正如前言提到的,它们通常归结为数据——即使有很多数据,最终没有形成模型成功学习的“必要条件”。
在学术上,大家可能都在IID(独立同分布)的假设中去研究,而在现实世界中往往不会遵守这些假设。
在这种情况下,最好的做法是意识到机器学习可能不是唯一解决问题的办法,可以寻找其他解决方案。
有时候,世界上所有的数据都是不够的!
在某些情况下,没有可供学习的适当数据。选举、自然灾害和其他特殊事件只是过去的例子,未必能为未来提供准确的参考。在这种情况下,类似的事件以前从未发生过,预测此类事件比较好的方法是由人类专家利用大量的经验和直觉来完成。
数据集的有效大小比你想象的要小得多!
例如,在2017-18年冬季,纽约市住房管理局报告称,其约143.5万套公寓中,多达80%的公寓出现了供暖中断。考虑到每间公寓都代表了一系列相关信息(租户人口统计、使用模式等),这似乎是构建一个可以预测供暖中断发生的模型的完美场景。事实证明,停电实际上不会发生在公寓层面。相反,大约100个老化的锅炉为整个建筑供暖,所以要学习的数据集的有效大小不是1435000行,而是100行。例如,研究人员试图创建一种早期预警指标,预测非洲农村等主要农业地区的作物损失。在一次尝试中,对Malawi进行了为期一年的卫星图像和地面调查,该国面积小,年度气候条件相对均匀,因此几乎不可能建立一个可靠的局部预测模型。
在其他情况下,限制因素不在于可用特征的可变性或相关性,而是一个简单的事实,即任务本身就很难预测。对于金融市场的走势/波动来说,情况也是这样。一个好的模型所需的数据量、模型可用特征数量和数据中的信号量之间存在一个内在联系。有了强信号,就可以在具有相对较大特征集的少数实例上构建模型。但当信号较弱时,要么需要更多的数据,要么必须大幅减少特征的数量。当一个预测可能包括你决定采取行动的影响时,谨慎也是至关重要的。在那一刻,你正在跨越相关性和因果关系之间的鸿沟。例如,预测earnings surprises:无论研究人员预测或做什么,都不太可能影响意外发生的可能性。但建立一个交易执行模型可能是一个非常不同的故事,因为一笔足够大的交易本身可能会影响金融工具的价格。在给定的市场状态下,预测哪种策略可能成本最低是一个因果关系问题。有时,准确预测效果是可能的,有时则不然。还有一种情况是,你的模型不太可能比历史平均水平做得更好:比如纽约的交通事故(模型可能“解释”,但不能预测)。需要找钉子的时候,你只有一把锤子
有时,人类的直觉可以在数据的固有局限性周围找到创造性的解决方案,或是虽然结果看起来有效,但实际上并非如此。
监督模型与其他机器学的方法相比具有巨大的优势。根据一些基本事实(模型是否正确识别了猫的照片?)客观地评估模型的性能是可能的。因此,一个人也能清楚地认识到失败。事实上,即使是LLM也会在训练中使用这个概念。然而,有时候很难得到这样的基本事实。考虑这样一个案例:一家公司试图为其销售人员预测“best case scenario”销售机会,几乎没人知道这个量。乍一看,这看起来不像是一个监督机器学习问题。但如果研究人员把问题改成:我能预测一个“realistic wallet”吗?也就是说,如果一个给定的客户想要使用我们的解决方案来满足所有需求,我能否预测他们在我们公司的最大消费金额?有些客户肯定已经与品牌建立了深厚的关系,但公司无法仅凭每位客户的销售数据来判断他们是哪些客户。事实上,知道这些信息对于一个定义良好的监督学习任务来说并不是必需的。与其预测一些条件期望值,我们实际上只需要估计一个高条件收入百分位数。要做到这一点,所需要做的就是将损失函数从误差平方和改为分位数损失(加权绝对误差和)。或者在回归树的情况下,不是预测叶子节点中的平均值,而是在每个叶子节点中选择一个接近最大值的客户收入数。决定哪个“错误”的问题是正确的
有时研究人员知道我们要解决什么问题,但我们没有足够的理想数据来解决它。在这些情况下,直觉可以帮助我们找到一个合适的proxy,它有更多的数据,无论是在例子方面还是在标签方面。
假设一名研究人员想要对缺乏可靠经济数据的地区进行建模。也许在夜间测量一个地区的亮度可以很好地反映经济活动。虽然测量一个地区夜间的亮度可能是衡量经济活动的一个很好的指标,但斯坦福大学的一项研究旨在提供对其他结构性指标的洞察。因此,在白天拍摄的图像中,夜间亮度被用作目标变量,它增加了一些有趣指标,比如游泳池的存在或用于屋顶的材料类型。考虑一个假设的案例:根据公开的面部照片,为美联储主席杰Jerome Powell建立一个情绪模型。
面部情绪模型需要大量的训练实例,这远远超过Powell面部照片的数量。然而,几乎所有人的脸上都有一个反映情绪的一致的生理机制,,而不仅仅是Powell。因此,与其从头开始构建模型,不如在从公开可用的数据源中提取的快乐和不太快乐的人脸数据构建初始模型。下一步可以建立一个更具代表性的样本(男性,穿着正式,年龄相仿)来训练初始模型。这是一个明确地从错误的数据开始,并试图将从中学到的知识转移到手头实际问题的例子。实际的“转移”将在第二轮训练中进行,因为模型将使用Powell本人手工标记的图像样本进行微调,这些样本要小得多,但更相关。这两种方法都说明了直观的、人为的指导对于机器学习技术在困难问题上的有效应用是必不可少的。当“正确”的模型预测错误的事情时
在研究人员要求预测什么的问题上时,预测模型绝对没有常识。一个模型将优化训练数据中提供的任何东西,使其尽可能“好”(根据研究人员的定义),即使它的输出显然是荒谬的。
因此,模型的创建者需要确保指定的任务是正确的。指定这一点可能比人们想象的要困难得多,并且对模型的事后分析可能会有意想不到的结果。例如,下面的图表显示了根据机器学习模型,哪种类型的移动应用最有可能吸引用户点击广告。有趣的是,这与广告的目的或用户感兴趣的内容无关。最能预测高点击率的是广告所处的环境。事后看来,手电筒应用脱颖而出的事实可能一点也不令人惊讶。研究表明,大量的广告点击是偶然的。事实上,当使用手电筒应用程序时,人们在黑暗中摸索并不小心点击广告的可能性非常高——如果你是人类,这种几率也非常可预测!毫不奇怪,这些点击与购买意图毫无关联。事实上,为预测点击而创建的模型(这些模型确实能很好地预测点击)在预测后续购买方面往往不比随机模型好。撇开点击模型到底有多有用的问题不谈,我们可以从这个例子中学到一个非常重要的教训:模型是“懒惰的”,喜欢专注于容易预测的东西!再一次让我们意识到:人类的常识和直觉是绝对必要的!模型倾向于“简单”预测的一个非常重要的含义是:在预测范围的两端都可能引入偏差。就广告而言,这可能意味着大多数广告针对的是非常偶然的情况(如手电筒应用的用户)。再考虑一个模型,它的目的是预测谁可能会出现在机场,并可能买东西。如果研究人员缺乏足够的直觉,那么得分最高的人很可能不是挥霍无度的旅行者,而是飞行员、空姐和大批机场工作人员。模型倾向于以这种方式做出“简单”的预测,这为偏见打开了大门。问题是,今天我们看到这样的模型被用来推荐工作候选人等等。虽然总体证据表明,与人类相比,机器学习模型在公平性方面往往做得更好,但保持警惕对于确保训练数据的公正至关重要!即便如此,这样的做法可能无法防止模型在不经意间基于最容易预测的东西而产生的偏见。数据科学家可以尝试消除他们数据的偏差,他们也应该这样做。但是这样做并不能免除一项责任,即确保一个模型在其预测中不会仍然存在偏见。把道德责任委托给技术从来都不是一个好主意。在这里,人类的判断真的很重要。人类直觉的主要应用之一是提供一种感觉,即一个模型可能执行得如何。换句话说,研究人员必须以一种计算机无法做到的方式持怀疑态度。如果一个模型的性能比预期的要好得多,也许值得仔细研究一下!
有时候,知道什么时候应该持怀疑态度是很容易的:预测资产收益是很难的,即使只是比随机情况好几个百分点,也能带来令人难以置信的成功投资策略。但如果比这好得多,就应该总是触发深入分析,以确保没有意外未来函数潜入数据集。弄清楚这一点可能需要好的直觉和判断。在其他情况下,可能还有其他原因在起作用。例如,一家广告技术公司的数据科学家曾经注意到,在短时间内,预测各种在线行为(注册试用、下载白皮书、访问品牌主页等)的几个模型的预测性能中值显着提高。是什么导致了这种变化?研究人员发现,这是新一代广告欺诈算法的数据足迹。这些机器人不仅仅是产生虚假点击,实际上,它们设计目的是通过采取品牌希望人们采取的行动。当你不清楚你的模型是否可以泛化,或者泛化多少的时候一家医疗设备制造商希望通过创建一个模型来帮助乳腺癌检测,该模型可以根据来自四个不同设施标记的灰度乳房X光检查图像来预测癌症的概率。
该模型似乎表现良好。但研究人员发现,令他们担心的是,当(可能是随机的)患者识别码添加到模型中时具有很强的预测性。人们通常不会期望患者ID包含与模型相关的信息(也就是说,ID 通常不会表明谁患有癌症,谁没有) ,但在这种情况下,它们确实包含了——这个事实揭示了一个隐藏的关于数据的故事。数据是从四个不同的乳房X光检查设备中收集的,每个设备都在不同的设施中。每家医院的患者身份号码都有不同的数字范围。数据清楚地显示了这些ID块,但它也显示了它们之间的癌症发病率差异很大。为什么会这样呢?病人ID如何“预测”癌症发病率?答案是,一个街区来自筛查中心,另一个街区来自治疗机构,后者的癌症发病率自然会比前者高得多。如果该模型仅用于这四家机构中的一家来预测癌症的概率,它可能还可以。但是这个模型可以在任何有这类设备的设施中使用吗?只有对数据进行更深入的研究,才会发现答案是“可能不是”。原因是这些图像本身带有关于它们来自的位置的隐含信息——可能源于这些位置的特定乳房X光检查机器的校准,以及每个机器产生的平均灰度的微小差异。换句话说,这些信息“吸收”了不同的癌症发病率。一个地点的乳房X光检查设备的灰度与地点1相似(癌症发病率接近36%),平均而言,总是比地点4相似的地点产生更高的概率,而地点4的癌症发病率几乎为零。尽管存在这些扭曲现象,但该模型能可靠地对患者进行排名:分数越高仍然表明患癌症的几率越高。但是,这就足以将模型投入实际中吗?这个案例说明了做出这样的判断是多么困难,以及为什么人类的直觉和经验对于有效地使用机器学习模型是如此重要。最终,只有对训练数据的特殊性和对用例的理解都有深入了解的人才能进行调用。在使用前沿的机器学习模型我们应该深刻的意识到: 它们的有效性不仅依赖于算法,而且严重依赖于人类的直觉。创建者对模型及其数据非常熟悉,因此发挥着不可替代的作用。从应对挑战和选择适当的数据到确保合规的使用,人类的判断是至关重要的。随着机器学习的进步,人们的洞察力和技术的结合将继续是成功的基础!