【杂谈】-当人工智能“知识”步入知天命之年:不容小觑的合规风险
在当今商业环境中,企业对生成式工具的应用日益广泛,而由此引发的虚假人工智能洞察问题已然成为亟待解决的紧迫难题。尽管大众对人工智能满怀热忱地加以应用,但批评的声音也随之高涨。批评者频频指出,人工智能输出的内容里存在着看似随机且难以预估的错误,这不仅折损了其自身价值,更可能在关乎人类安危的关键领域,如医疗保健与交通运输等,造成实质性的伤害。从理论层面来讲,这些虚假输出可能引发诸多严重后果,轻则开错处方
当人工智能“知识”步入知天命之年:不容小觑的合规风险
在当今商业环境中,企业对生成式工具的应用日益广泛,而由此引发的虚假人工智能洞察问题已然成为亟待解决的紧迫难题。尽管大众对人工智能满怀热忱地加以应用,但批评的声音也随之高涨。批评者频频指出,人工智能输出的内容里存在着看似随机且难以预估的错误,这不仅折损了其自身价值,更可能在关乎人类安危的关键领域,如医疗保健与交通运输等,造成实质性的伤害。从理论层面来讲,这些虚假输出可能引发诸多严重后果,轻则开错处方药,重则导致火车相撞等灾难性事件。
此类不准确性往往被归结于人工智能的“幻觉”现象——即人工智能会自行生成一个它认为的“最佳猜测”答案,并以与给出“真实”答案时同等的自信程度呈现给用户,却全然不提及自身在知识储备或能力方面的欠缺之处。初看之下,这种“幻觉”或许较难被察觉,然而还有一个更为隐秘、同样严重的隐患,其隐蔽性使得人们更难发现它的存在。
1、数据质量隐患:人工智能的阿喀琉斯之踵
当人工智能系统依据过时、残缺不全或者存在偏差的数据进行提取操作时,便极有可能产生错误的输出结果,且这些错误起初并不容易被及时发觉。举例而言,若你请求人工智能识别某种疾病的症状表现,它所给出的答案竟源自一篇发表于50年前的学术论文,而非基于最新的科研成果。在这种情况下,虽然不太可能出现那种显而易见、荒诞可笑的错误,但这种看似合理的表面现象,实则给患者以及医疗服务提供者都带来了切实的风险。
事实上,各个行业均面临类似状况——一旦输入到人工智能模型中的数据包含了陈旧、过时或是不完整的信息,那么得出错误结论的风险便会急剧上升。随着越来越多的企业将人工智能深度融入核心业务流程之中,因数据管理不善而导致从错误数据中推导出错误结论的可能性也与日俱增。
2、监管层面的精准考量
这绝非仅仅是日常运营过程中的小问题,而是一项重大的合规性挑战。为应对人们对人工智能准确性不足的担忧,相关监管要求正迅速迭代更新。例如,早期已有一系列针对人工智能的监管举措相继出台;特别是意大利出于隐私保护方面的考量,曾一度禁止使用ChatGPT;欧盟数据保护委员会也专门组建了一个工作小组,负责统筹协调针对ChatGPT的潜在执法行动。
其中最引人瞩目的监管变革当属《欧盟人工智能法案》的颁布实施,该法案堪称全球首个全面规范人工智能领域的法律框架。此法案依据人工智能系统的风险等级设定了相应的义务条款,涵盖了从被严格禁止使用的具有“不可接受风险”的系统,到那些在透明度、数据质量、治理结构以及人工监督等方面需满足严苛标准的“高风险”系统。
《欧盟人工智能法案》的重要意义不仅体现在其宏大的目标愿景上,更在于其所树立的标杆示范效应。监管机构态度鲜明地表示,人工智能必将受到具有强制力且可有效执行的规则约束,各组织必须将人工智能使用的合规性与透明度视为应用过程中不可或缺的组成部分,而非事后补救措施。
该法案适用范围极为广泛,势必会对相当一部分人工智能的发展进程产生影响。其核心要义在于确保人工智能的安全性,同时充分尊重基本人权与价值观。在这个全新构建的原则性生态体系中,有必要深入诊断可能导致人工智能不准确的源头因素,包括输入模型的数据及数据集情况、模型自身的不透明性和访问权限设置,以及系统的设计与使用方式。毕竟,人工智能解决方案是由上述三者共同作用而成——其中任何一个环节出现问题都可能引发负面效应。而且,用于人工智能设计、模型开发、部署及运行的数据大多来源于业务记录,而这些业务记录本身亦受到各类合规要求的严格约束。
换言之,围绕人工智能的监管环境正朝着愈发严格的方向发展——无论是数据输入端还是输出端均是如此,尽管后者目前受到了更多的关注目光。
3、助力AI合规:提供高质量数据的五步攻略
为应对这一双重挑战——既要保证数据处理符合法规要求,又要确保高质量的输入以实现优质的输出效果——企业必须牢牢掌控训练和推理所用数据。遗憾的是,当下仍有许多企业在这方面的管控尚显不足。
企业至少应当将其更为宽泛的合规与治理规划延伸至AI项目之中。它们需要着手捕捉并妥善保存相关记录,涵盖提供给AI模型的数据详情、模型及系统的设计理念与架构,以及通过AI生成的各项决策与内容信息。
不过,对于企业而言,更进一步的关键举措是确保自身能够完全掌控所有可能应用于AI部署场景的数据(无论是用于初始训练阶段还是后续的“实时”工作环节)。这离不开高质量的数据管理和存储策略作为支撑,以保证所有相关数据都能得到智能化的收集、清洗、存储、分类以及授权管理。为实现这一目标,组织需重点考虑以下四个关键步骤:
1)追溯数据脉络与来源
在整个数据生命周期内,详细记录数据的源头、起始点、所有权归属以及元数据的变更情况(如有)。同时,还需维护丰富的元数据资源以及所有衍生元数据的底层文档或相关工件资料。
2)保障数据真实性
为所有数据建立清晰的监管链条,以原始形态存储各类对象,并对接收的对象进行哈希处理,以此证明数据未被篡改。此外,组织必须针对每个对象以及与之相关的所有变更操作和事件,完整地保留审计历史记录。
3)精准数据分类
明确界定数据集或数据类型的属性特征至关重要。组织应具备管理结构化数据、半结构化数据以及非结构化数据集的能力。通过为不同类别赋予独特的模式标识,可使组织在管理多样化数据集时避免采用一刀切式的固定本体结构——从而减少不必要的数据操作干预,防止数据陷入僵化的固定格式之中。
4)统一数据规范
确立元数据的通用定义和标准格式对于分析和人工智能解决方案而言意义重大。清晰明确的模式定义是基础要素之一,同时配备能够实现数据转换或映射功能的工具也必不可少,借此可维护相关数据的一致性和规范化视图。
5)细化数据权限
企业需基于用户或系统的配置文件实施精细化的权限管控机制,包括针对对象级别和字段级别的权限设置。这意味着只有获得授权的用户和系统才能访问和使用正确的数据资源,而无权访问者则会受到严格限制。
凭借以上关键要素的有效落实,企业将更有能力确保供给人工智能模型的数据既具备高质量特性又完全符合合规要求。唯有如此,人工智能才能真正推动各行业实现改进与效率提升——而这一切的基础便是坚实可靠的数据根基。
更多推荐
所有评论(0)