你的AI离实际应用还有多远？

作者：格雷戈里·维亚尔（Gregory Vial），江璟璐，塔尼娅·詹尼利亚（Tanya Giannelia），安－弗朗西丝·卡梅伦（Ann-Frances Cameron）

北美一家大型医院为人工智能（AI）赋能系统提高病患护理质量的前景而欢欣鼓舞。

然而，当它打算从概念升级到原型构建时，却发现建立和运行系统所需的数据分散在20个传统系统中，检索起来非常复杂。最后，它只好放弃该项目。

高级分析技术和AI有望帮助企业保持竞争优势。它们在这方面的能力很大程度上取决于能否获得优质的数据，但有时候，组织偏偏没有能让AI发挥作用的数据。

最近，我们研究了企业如何将AI项目从实验室研发环境转至生产环境，以及在此过程中它们遇到了哪些问题。为此，我们采访了六家北美公司的AI主管和信息提供者。

一个关键发现是，尽管许多人在评定数据质量时，主要依据的是其准确度和完整性，但是数据可被机器访问的程度（数据质量的一个维度）似乎才是更大的挑战。更重要的是，我们发现数据可访问性通常仅被当作IT问题来处理。实际上，这是一个管理问题。

什么是优质数据？

数据质量包含四个维度：

内在质量（准确度）
情境质量（完整性）
表达质量（可解读性）
获取质量（可用性或易于快速检索）。

能满足所有四个维度要求的数据才能算是优质数据。

AI利益相关者在数据可访问性方面的差异

大部分数据可访问性问题的核心是，AI项目会牵涉各种各样的参与者群体。对于数据可访问性的性质和作用，他们有不同的兴趣、观点和影响力。

例如，业务主管通常会参与流程的启动和收尾工作，帮助界定AI的用例，并利用最终产品，但他们往往并不会考虑数据的访问方式。

“业务部门的人总是以为自己有AI需要的数据。”一家AI咨询公司的产品交付副总裁说。“他们想快点开始，然后，当我们掀开盖子时，”他笑着说，“我们得到了PDF文件、Excel电子表格，接着我们要收集所有这些东西，再用光学字符识别技术来处理。这从来都不是一件容易的事情。”

另一方面，开发、测试并维护模型的数据科学家会重点关注获取模型开发所需的数据。与业务部门的利益相关者一样，他们对数据可访问性的兴趣也不大。

数据工程师负责构建基础设施，以生成数据，供数据科学家的模型使用。他们会适当关注一下数据的可访问性。但他们常常认为，从操作系统中提取出来用于原型开发的数据，也可以直接用于生产。这种看法有时并不正确。

数据可访问性问题对于软件工程师来说更重要一些。他们负责将AI打包到产品或服务中，这些产品或服务必须能够在生产环境中获取数据。

虽然IT部门的成员很少被视为AI项目的主要参与者，但他们要为AI所需的技术基础设施（包括数据）提供支持。

上述每一类利益相关者都各自发挥着重要作用。同时，他们对数据可访问性的看法也受其直接职责所限。

AI生命周期削弱数据可访问性

除了各类利益相关者兴趣不同的问题之外，AI项目的典型生命周期也会促使团队专注于模型的快速迭代开发。于是，关于数据可访问性的重要对话，尤其是与AI在组织中实施相关的对话，迟迟没有开展。

我们在研究的六个组织中发现，典型的AI生命周期都是分为五个阶段。为了弄明白数据可访问性为何经常被忽视，我们需要逐一分析这几个阶段。

| 第一阶段：构思

构思阶段相当于一个过滤器，用于找出AI在组织中的潜在高级业务用例。

在这个阶段，大多数对话都是在管理人员、商务顾问和科学顾问之间进行的，其目标是为商业和科学创造一个会谈空间，由此催生出来的业务用例应该看起来前景良好、切实可行。

在AI咨询公司，这个关键第一步的作用是向客户科普AI的潜力。不过，这个阶段的重点是数据的存在，而不是数据可访问性。讨论的核心话题是业务目标以及应用AI模型解决组织当前的问题。

| 第二阶段：蓝图

出于优先级别、资源限制或缺乏潜在价值等原因，构思阶段产生的用例并不能全部被选中在一定时间内实施。

蓝图阶段会生成一个综合用例，其中包含一些细节，例如清晰且可衡量的业务目标、列出具体AI技术的行动计划，以及应当准备好提供给AI的数据要素。

在蓝图阶段，评估数据可访问性仍然以数据的存在为唯一指标，因为组织会着眼于流程的下一个阶段，即构建工作原型。其背后的假设是，只要数据存在就足够了，因为这样团队就可以继续向前推进。

| 第三阶段：概念验证

在概念验证阶段，数据科学家构建一个或多个模型来实施商定的用例。

大部分工作的重点是以迭代方式创建、训练和测试模型，衡量比较它们各自的性能，并检验输入新数据的AI是否达到了预期效果。数据从源系统中被提取出来，由数据工程师进行转换，使其符合在建模型的格式和精度要求。

解决方案最终可能是通过一个装有用户界面的应用程序交付，或者紧密集成在组织的业务流程中（比如说，用于修改银行的信贷申请流程），但在概念验证阶段，这些工作通常还不是重点。

同样，团队主要关心的是获取数据来推进他们的短期工作，几乎不会考虑AI进入生产阶段后，数据访问最终会采取何种形式。

| 第四阶段：最简可行产品（minimum viable product, MVP）

一旦概念验证的某个版本表现出足够的价值，就可以被优化为MVP。

此时，数据科学家和数据工程师便功成身退，下一步工作由软件工程师接手，因为如果AI适于应用，最终就会走出实验室，被部署在组织的基础设施中，并与其他生产系统集成。

在先前几个阶段，模型开发是大家密切关注的问题，由此产生的一个意外结果是，对生产中数据可访问性的考虑已退居次要地位。

当软件工程师和IT人员深入讨论待交付解决方案的规格和集成时，就可能会从数据可访问性相关问题中发现，模型使用的某个关键功能需要大量计划外的工作。

| 第五阶段：生产

在最后这个阶段，包含AI的改进版MVP被投入生产，现在必须向其输入直接从生产系统中获取的数据。数据可能需要从多个系统中提取并进行转换，从而生成模型所需的输入项来支持生产中的业务用例。

无论这一工作是实时进行还是批量进行（例如，频繁反复训练和测试模型），与AI集成相关的真正问题总是会在这一步浮现出来，尤其是涉及组织数据基础设施的问题。

如果自主系统无法按照要求的数量或速度提供、提取并集成数据（比如受传统系统所限），AI就可能会失去全部的潜在价值。

关于AI数据可访问性的四个误解

除了弄清AI开发的不同作用和阶段及其对数据可访问性的影响之外，了解人们对数据性质的一些主要误解，以及许多组织如何看待数据的性质，也会有所帮助。

| 误解一：数据可访问性是个技术问题

数据可访问性其实是一个涉及技术的管理问题。在设计AI解决方案之初就必须明确认识到，哪怕是完整、准确、及时的数据，如果无法实现快速方便的检索，也没有任何价值。

数据存在于大量数据库和电子表格中的某个位置，未必就意味着它是可以访问的。有时，之所以出现数据可访问性问题，是因为数据治理或安全政策限制了访问。

| 误解二：数据只是运营的副产品

虽然运营系统（例如ERP和CRM）消费并生产数据，但没有人了解这些数据对AI的潜在价值。

如果分析团队或AI团队想要使用运营产生的数据，只能自己去检索并加以利用，这与传统数据仓库团队做了多年的工作并无太大区别。

| 误解三：数据可访问性问题可以等到AI生命周期的后期阶段再解决

若想让AI赋能的系统为组织增值，就必须将其打包为可以同组织基础设施集成的产品或服务。集成问题常常是在生命周期的后期阶段解决。于是，软件工程师和IT人员就成了公布坏消息的人。

如果公司不尽早解决数据可访问性问题，最终往往就会付出始料未及的额外成本。此外，当其他利益相关者（通常是IT人员）的优先次序被意外打乱以解决数据可访问性问题时，项目可能会停滞下来。

| 误解四：实验室数据和实际运营数据是一样的

在生产阶段，AI必须连接到多个即时系统，这些系统会检索AI工作所需的输入项，有时以实时方式进行。需要提取的这些数据可能具有相同的特征，但其访问和检索方式千差万别。

例如，运营对数据量和速度的要求，或许与反复训练模型的要求相差甚远。

如何管理AI的数据可访问性

数据可访问性问题会影响AI在组织中的成功。为了解决这一问题，我们提出三条建议，以帮助组织更好地管理AI的数据可访问性：

让利益相关者将数据可访问性理解为业务问题，认识到组织数据对AI的价值，在AI的整个生命周期中始终考虑数据可访问性。

宣传数据可访问性时，首先强调它是业务问题，其次才是技术问题。

AI项目的所有利益相关者必须对数据可访问性形成统一认知，将其视为数据质量的必要组成部分，不仅影响IT，还影响运营，因此在AI的整个生命周期内都要予以关注。

从技术层面来解决数据可访问性问题或许很简单，但可能要经过漫长的审批流程，而且安全政策可能也会导致数据无法访问。

在这些情况下，技术手段是行不通的，唯一可行的解决方案就是认真地讨论一下，看看能否适当放宽安全政策来支持AI团队的工作，当然，前提是构思阶段形成的业务用例能支持这一方案。

任何数据都可作为AI的潜在备选数据。

组织面临的许多问题，都会有各种不同的AI解决方案，这意味着任何数据都有可能成为AI项目的宝贵输入项。

改进整个组织的数据可访问性，一个关键因素就是跳出“数据只是运营的副产品”这一思维框架。换言之，某些数据即使在执行特定流程的有效生命周期结束时，仍可作为AI的输入项继续创造价值。

在我们研究的一个案例中，供暖、通风和空调系统多年来例行收集的运行日志，如今已成为创建预防性维护模型的输入项。

传统上，旅行社会根据客服人员的工作日志来监督他们的生产率，并确保其完成客服电话指标。但是，如果组织能获取关于客服电话类型和持续时间的既往详细数据，就可以将其用作AI的输入项，从而根据员工的专业知识，对排班进行优化和个性化调整。

在AI项目启动之初解决数据可访问性问题。

在我们研究的一些案例中，蓝图阶段就让软件工程师和IT人员参与进来，从而使嵌入AI的最终产品或服务的高级参数广为人知，对数据可访问性的担忧也能相应地被提出来。

更重要的是，这将确保组织在流程后期尽量减少意外的同时，也考虑到今后将AI集成到组织基础设施中的问题。

为此，我们建议管理者将两项任务明确区分开来：一是获取数据以构建AI，二是在生产中实现数据可访问性。

这种方式的一个重要好处是，部分工作可以同步进行。例如，可以鼓励数据工程师及早同IT人员展开讨论，以制定数据路线图。

到AI生命周期的MVP阶段，大部分数据工程管道都会做好接入生产基础设施的准备。

另一种可能的模式是与数据可访问性、数据工程和各种迭代建模相关的交错式任务，类似于在数据密集型项目中提出过的那一类任务。

在这种模式下，各项活动可以同步推进，同时又容许一定程度的滞后，以便在必要时加以调整。

数据是企业的一项关键资产。领导者普遍期望使用这些数据的AI系统能为企业带来新的竞争优势。但决定成败的往往是实施中的细节。

所有利益相关者对数据质量的维度缺乏全面了解，AI项目同运营脱节，自行其是，这些都可能会削弱AI项目的效果或使其彻底失败。

那些从AI中获益最多的企业明白，为了让AI走出研发阶段，将其集成到运营当中，就不仅要看重数据作为输出项的价值，还要看重数据作为输入项的价值，并对数据可访问性给予应有的重视。

作者简介：格雷戈里·维亚尔，蒙特利尔高等商学院（HEC Montréal）信息技术学助理教授。

江璟璐，纽约州立大学宾汉姆顿分校（State University of New York at Binghamton）管理信息系统学助理教授。

塔尼娅·詹尼利亚，蒙特利尔高等商学院信息技术学博士生。

安－弗朗西丝·卡梅伦，蒙特利尔高等商学院信息技术学副教授。

本内容有删节

原文《什么阻碍了AI走出实验室》

刊登在《商业评论》2022年5/6月号

如果组织不能让数据更容易访问，AI成果将永远停留在实验室中。

2022-12-02 14:32

你的AI离实际应用还有多远？

全部评论 (0)

9万家咖啡馆的定制需求，如何同时满足？

VUCA时代，新一代企业战略

来，讲一个变废为宝的故事

股价上涨8000%，英伟达靠什么自我颠覆？