你的AI离实际应用还有多远?

 

作者:格雷戈里·维亚尔(Gregory Vial),江璟璐,塔尼娅·詹尼利亚(Tanya Giannelia),安-弗朗西丝·卡梅伦(Ann-Frances Cameron)

 

北美一家大型医院为人工智能(AI)赋能系统提高病患护理质量的前景而欢欣鼓舞。

 

然而,当它打算从概念升级到原型构建时,却发现建立和运行系统所需的数据分散在20个传统系统中,检索起来非常复杂。最后,它只好放弃该项目。

 

高级分析技术和AI有望帮助企业保持竞争优势。它们在这方面的能力很大程度上取决于能否获得优质的数据,但有时候,组织偏偏没有能让AI发挥作用的数据。

 

最近,我们研究了企业如何将AI项目从实验室研发环境转至生产环境,以及在此过程中它们遇到了哪些问题。为此,我们采访了六家北美公司的AI主管和信息提供者。

 

一个关键发现是,尽管许多人在评定数据质量时,主要依据的是其准确度和完整性,但是数据可被机器访问的程度(数据质量的一个维度)似乎才是更大的挑战。更重要的是,我们发现数据可访问性通常仅被当作IT问题来处理。实际上,这是一个管理问题。

 

什么是优质数据?

 

数据质量包含四个维度:

 

  • 内在质量(准确度)

  • 情境质量(完整性)

  • 表达质量(可解读性)

  • 获取质量(可用性或易于快速检索)。

 

能满足所有四个维度要求的数据才能算是优质数据。

 

AI利益相关者在数据可访问性方面的差异

 

大部分数据可访问性问题的核心是,AI项目会牵涉各种各样的参与者群体。对于数据可访问性的性质和作用,他们有不同的兴趣、观点和影响力。

 

例如,业务主管通常会参与流程的启动和收尾工作,帮助界定AI的用例,并利用最终产品,但他们往往并不会考虑数据的访问方式。

 

“业务部门的人总是以为自己有AI需要的数据。”一家AI咨询公司的产品交付副总裁说。“他们想快点开始,然后,当我们掀开盖子时,”他笑着说,“我们得到了PDF文件、Excel电子表格,接着我们要收集所有这些东西,再用光学字符识别技术来处理。这从来都不是一件容易的事情。”

 

另一方面,开发、测试并维护模型的数据科学家会重点关注获取模型开发所需的数据。与业务部门的利益相关者一样,他们对数据可访问性的兴趣也不大。

 

数据工程师负责构建基础设施,以生成数据,供数据科学家的模型使用。他们会适当关注一下数据的可访问性。但他们常常认为,从操作系统中提取出来用于原型开发的数据,也可以直接用于生产。这种看法有时并不正确。

 

数据可访问性问题对于软件工程师来说更重要一些。他们负责将AI打包到产品或服务中,这些产品或服务必须能够在生产环境中获取数据。

 

 

虽然IT部门的成员很少被视为AI项目的主要参与者,但他们要为AI所需的技术基础设施(包括数据)提供支持。

 

上述每一类利益相关者都各自发挥着重要作用。同时,他们对数据可访问性的看法也受其直接职责所限。

 

AI生命周期削弱数据可访问性

 

除了各类利益相关者兴趣不同的问题之外,AI项目的典型生命周期也会促使团队专注于模型的快速迭代开发。于是,关于数据可访问性的重要对话,尤其是与AI在组织中实施相关的对话,迟迟没有开展。

 

我们在研究的六个组织中发现,典型的AI生命周期都是分为五个阶段。为了弄明白数据可访问性为何经常被忽视,我们需要逐一分析这几个阶段。

 

| 第一阶段:构思

 

构思阶段相当于一个过滤器,用于找出AI在组织中的潜在高级业务用例。

 

在这个阶段,大多数对话都是在管理人员、商务顾问和科学顾问之间进行的,其目标是为商业和科学创造一个会谈空间,由此催生出来的业务用例应该看起来前景良好、切实可行。

 

在AI咨询公司,这个关键第一步的作用是向客户科普AI的潜力。不过,这个阶段的重点是数据的存在,而不是数据可访问性。讨论的核心话题是业务目标以及应用AI模型解决组织当前的问题。

 

| 第二阶段:蓝图

 

出于优先级别、资源限制或缺乏潜在价值等原因,构思阶段产生的用例并不能全部被选中在一定时间内实施。

 

蓝图阶段会生成一个综合用例,其中包含一些细节,例如清晰且可衡量的业务目标、列出具体AI技术的行动计划,以及应当准备好提供给AI的数据要素。

 

在蓝图阶段,评估数据可访问性仍然以数据的存在为唯一指标,因为组织会着眼于流程的下一个阶段,即构建工作原型。其背后的假设是,只要数据存在就足够了,因为这样团队就可以继续向前推进。

 

| 第三阶段:概念验证

 

在概念验证阶段,数据科学家构建一个或多个模型来实施商定的用例。

 

大部分工作的重点是以迭代方式创建、训练和测试模型,衡量比较它们各自的性能,并检验输入新数据的AI是否达到了预期效果。数据从源系统中被提取出来,由数据工程师进行转换,使其符合在建模型的格式和精度要求。

 

解决方案最终可能是通过一个装有用户界面的应用程序交付,或者紧密集成在组织的业务流程中(比如说,用于修改银行的信贷申请流程),但在概念验证阶段,这些工作通常还不是重点。

 

同样,团队主要关心的是获取数据来推进他们的短期工作,几乎不会考虑AI进入生产阶段后,数据访问最终会采取何种形式。

 

| 第四阶段:最简可行产品(minimum viable product, MVP)

 

一旦概念验证的某个版本表现出足够的价值,就可以被优化为MVP。

 

此时,数据科学家和数据工程师便功成身退,下一步工作由软件工程师接手,因为如果AI适于应用,最终就会走出实验室,被部署在组织的基础设施中,并与其他生产系统集成。

 

在先前几个阶段,模型开发是大家密切关注的问题,由此产生的一个意外结果是,对生产中数据可访问性的考虑已退居次要地位。

 

当软件工程师和IT人员深入讨论待交付解决方案的规格和集成时,就可能会从数据可访问性相关问题中发现,模型使用的某个关键功能需要大量计划外的工作。

 

| 第五阶段:生产

 

在最后这个阶段,包含AI的改进版MVP被投入生产,现在必须向其输入直接从生产系统中获取的数据。数据可能需要从多个系统中提取并进行转换,从而生成模型所需的输入项来支持生产中的业务用例。

 

无论这一工作是实时进行还是批量进行(例如,频繁反复训练和测试模型),与AI集成相关的真正问题总是会在这一步浮现出来,尤其是涉及组织数据基础设施的问题。

 

如果自主系统无法按照要求的数量或速度提供、提取并集成数据(比如受传统系统所限),AI就可能会失去全部的潜在价值。

 

关于AI数据可访问性的四个误解

 

除了弄清AI开发的不同作用和阶段及其对数据可访问性的影响之外,了解人们对数据性质的一些主要误解,以及许多组织如何看待数据的性质,也会有所帮助。

 

| 误解一:数据可访问性是个技术问题

 

数据可访问性其实是一个涉及技术的管理问题。在设计AI解决方案之初就必须明确认识到,哪怕是完整、准确、及时的数据,如果无法实现快速方便的检索,也没有任何价值。

 

数据存在于大量数据库和电子表格中的某个位置,未必就意味着它是可以访问的。有时,之所以出现数据可访问性问题,是因为数据治理或安全政策限制了访问。

 

| 误解二:数据只是运营的副产品

 

虽然运营系统(例如ERP和CRM)消费并生产数据,但没有人了解这些数据对AI的潜在价值。

 

 

如果分析团队或AI团队想要使用运营产生的数据,只能自己去检索并加以利用,这与传统数据仓库团队做了多年的工作并无太大区别。

 

| 误解三:数据可访问性问题可以等到AI生命周期的后期阶段再解决

 

若想让AI赋能的系统为组织增值,就必须将其打包为可以同组织基础设施集成的产品或服务。集成问题常常是在生命周期的后期阶段解决。于是,软件工程师和IT人员就成了公布坏消息的人。

 

如果公司不尽早解决数据可访问性问题,最终往往就会付出始料未及的额外成本。此外,当其他利益相关者(通常是IT人员)的优先次序被意外打乱以解决数据可访问性问题时,项目可能会停滞下来。

 

| 误解四:实验室数据和实际运营数据是一样的

 

在生产阶段,AI必须连接到多个即时系统,这些系统会检索AI工作所需的输入项,有时以实时方式进行。需要提取的这些数据可能具有相同的特征,但其访问和检索方式千差万别。

 

例如,运营对数据量和速度的要求,或许与反复训练模型的要求相差甚远。

 

如何管理AI的数据可访问性

 

数据可访问性问题会影响AI在组织中的成功。为了解决这一问题,我们提出三条建议,以帮助组织更好地管理AI的数据可访问性:

 

让利益相关者将数据可访问性理解为业务问题,认识到组织数据对AI的价值,在AI的整个生命周期中始终考虑数据可访问性。

 

宣传数据可访问性时,首先强调它是业务问题,其次才是技术问题。

 

AI项目的所有利益相关者必须对数据可访问性形成统一认知,将其视为数据质量的必要组成部分,不仅影响IT,还影响运营,因此在AI的整个生命周期内都要予以关注。

 

从技术层面来解决数据可访问性问题或许很简单,但可能要经过漫长的审批流程,而且安全政策可能也会导致数据无法访问。

 

在这些情况下,技术手段是行不通的,唯一可行的解决方案就是认真地讨论一下,看看能否适当放宽安全政策来支持AI团队的工作,当然,前提是构思阶段形成的业务用例能支持这一方案。

 

任何数据都可作为AI的潜在备选数据。

 

组织面临的许多问题,都会有各种不同的AI解决方案,这意味着任何数据都有可能成为AI项目的宝贵输入项。

 

改进整个组织的数据可访问性,一个关键因素就是跳出“数据只是运营的副产品”这一思维框架。换言之,某些数据即使在执行特定流程的有效生命周期结束时,仍可作为AI的输入项继续创造价值。

 

在我们研究的一个案例中,供暖、通风和空调系统多年来例行收集的运行日志,如今已成为创建预防性维护模型的输入项。

 

传统上,旅行社会根据客服人员的工作日志来监督他们的生产率,并确保其完成客服电话指标。但是,如果组织能获取关于客服电话类型和持续时间的既往详细数据,就可以将其用作AI的输入项,从而根据员工的专业知识,对排班进行优化和个性化调整。

 

在AI项目启动之初解决数据可访问性问题。

 

在我们研究的一些案例中,蓝图阶段就让软件工程师和IT人员参与进来,从而使嵌入AI的最终产品或服务的高级参数广为人知,对数据可访问性的担忧也能相应地被提出来。

 

更重要的是,这将确保组织在流程后期尽量减少意外的同时,也考虑到今后将AI集成到组织基础设施中的问题。

 

为此,我们建议管理者将两项任务明确区分开来:一是获取数据以构建AI,二是在生产中实现数据可访问性。

 

这种方式的一个重要好处是,部分工作可以同步进行。例如,可以鼓励数据工程师及早同IT人员展开讨论,以制定数据路线图。

 

到AI生命周期的MVP阶段,大部分数据工程管道都会做好接入生产基础设施的准备。

 

另一种可能的模式是与数据可访问性、数据工程和各种迭代建模相关的交错式任务,类似于在数据密集型项目中提出过的那一类任务。

 

在这种模式下,各项活动可以同步推进,同时又容许一定程度的滞后,以便在必要时加以调整。

 

数据是企业的一项关键资产。领导者普遍期望使用这些数据的AI系统能为企业带来新的竞争优势。但决定成败的往往是实施中的细节。

 

所有利益相关者对数据质量的维度缺乏全面了解,AI项目同运营脱节,自行其是,这些都可能会削弱AI项目的效果或使其彻底失败。

 

那些从AI中获益最多的企业明白,为了让AI走出研发阶段,将其集成到运营当中,就不仅要看重数据作为输出项的价值,还要看重数据作为输入项的价值,并对数据可访问性给予应有的重视。

 


作者简介:格雷戈里·维亚尔,蒙特利尔高等商学院(HEC Montréal)信息技术学助理教授。

江璟璐,纽约州立大学宾汉姆顿分校(State University of New York at Binghamton)管理信息系统学助理教授。

塔尼娅·詹尼利亚,蒙特利尔高等商学院信息技术学博士生。

安-弗朗西丝·卡梅伦,蒙特利尔高等商学院信息技术学副教授。

 

本内容有删节

原文《什么阻碍了AI走出实验室》

刊登在《商业评论》2022年5/6月号

 

评论

如果组织不能让数据更容易访问,AI成果将永远停留在实验室中。
2022-12-02 14:32

相关内容

本内容为作者独立观点,不代表商业评论网立场。

原创内容未经允许不得转载,授权事宜请联系微信“零售君”(lingshoujun2018)或“商评小微”(xmi8607)。