GPT-4 等流行的大型语言模型是使用大量永利皇宫463cc(包括公开永利皇宫463cc集)进行训练的。但这些人工智能训练永利皇宫463cc集的记录往往不一致,而且人们对其了解甚少,从而引发了一系列风险。
如果人工智能模型所用永利皇宫463cc的来源不透明,研究人员、企业和其他目标用户可能会发现自己不遵守新兴法规,例如欧盟人工智能法案或面临法律和版权风险。缺乏永利皇宫463cc透明度还会导致其他问题,包括敏感信息的暴露以及意外的偏见和行为。从实际角度来看,可追溯性差使得人工智能训练永利皇宫463cc集与预期用例难以保持一致,这可能会导致模型质量较低。
由多学科研究人员组成的团队,包括教授和麻省理工学院的其他人创建了永利皇宫463cc来源倡议正面应对永利皇宫463cc透明度挑战。专家集体对用于培训公共和专有法学硕士的海量永利皇宫463cc集进行了大规模审计,跟踪和记录它们从起源到创建再到用例的整个过程。该小组还写道有关该项目的论文并开发用户友好的工具生成永利皇宫463cc集的创建者、来源、许可和允许用途的摘要。他们的目标:提高人工智能训练永利皇宫463cc的透明度、文档和知情使用。
“我们的工作涉及道德层面 - 我们希望对那些为 AI 训练模型做出贡献的人们给予适当的认可,”共同主要作者说道罗伯特·马哈里,麻省理工学院媒体实验室的博士生,哈佛法学院的法学博士候选人。 “但也有务实的一面,因为我们希望确保培训永利皇宫463cc对人们正在做的工作有用。”
AI 训练永利皇宫463cc中的漏洞
2023 年 12 月发生的三起事件凸显了使用尚未完全了解的 AI 训练永利皇宫463cc的后果。在一个例子中,《纽约时报》对 OpenAI 及其支持者微软提起诉讼,声称其内容在未经许可或适当的经济赔偿的情况下被用来构建生成式人工智能模型。同期,用于AI图像生成的LAION-5B训练永利皇宫463cc集被发现包含链接虐待儿童图像,增加了人工智能模型受到有害内容影响的可能性。此外,OpenAI暂停了 TikTok 母公司字节跳动的帐号被指控该公司使用 GPT 生成的永利皇宫463cc来训练自己的竞争模型,从而违反了开发者许可。
这些事件暴露了公司当前用于构建 AI 训练永利皇宫463cc集的做法中的漏洞,这些永利皇宫463cc集是多种永利皇宫463cc类型的混合体。其中包括预训练永利皇宫463cc集、为提高特定任务的模型性能而编译的微调永利皇宫463cc集,以及合成永利皇宫463cc由 AI 模型本身生成。 他们还可能整合来自开源机器学习和永利皇宫463cc科学平台的永利皇宫463cc,例如拥抱脸。研究人员表示,从业者组合并重新打包了这些无数的永利皇宫463cc集,但在归因、记录或理解它们方面还没有做出足够的努力。
永利皇宫463cc来源团队致力于促进知情且负责任地使用永利皇宫463cc来训练和微调 AI 模型。作为其工作的一部分,该小组采取了两项关键行动:
对 1,800 多个文本永利皇宫463cc集进行了系统审核。 研究人员从 44 个最广泛使用的文本永利皇宫463cc集中追踪了微调永利皇宫463cc集的谱系。他们发现许可证经常被错误分类,错误率超过50%,许可证信息遗漏率超过70%。在团队法律专家的帮助下,该小组设计了一个用于追踪永利皇宫463cc来源的管道,其中涵盖永利皇宫463cc集的原始来源、相关许可证、涉及的创建者及其后续使用。他们的努力将未指定许可证的永利皇宫463cc集减少到 30%,并添加了有关许可证条款的信息,这有助于模型开发人员更自信地选择适合其需求的永利皇宫463cc。
建立了 Data Provenance Explorer 工具。在审计的同时,该小组发布了一个开源永利皇宫463cc存储库和交互式工具以供广泛使用。该工具可让人工智能从业者追踪流行的微调永利皇宫463cc集的沿袭,并根据特定的许可条件过滤和探索永利皇宫463cc来源。从业者还可以使用该工具为永利皇宫463cc集生成人类可读的永利皇宫463cc来源卡,从而简化管理和记录大量永利皇宫463cc集编译的手动任务。
Data Provenance 团队为其工具设想了三个主要用户:AI 模型构建者,他们可能想要发现新的永利皇宫463cc集并过滤它们以进行许可限制;有兴趣跟踪永利皇宫463cc来源的永利皇宫463cc集创建者,以便在应得的信用处提供信用;以及想要了解人工智能永利皇宫463cc透明度新兴领域更广泛轮廓的研究人员和政策制定者。
永利皇宫463cc来源计划揭示了其他对人工智能模型领域具有影响的问题:
- 许可证类型多种多样,且条款独特,这使得初创公司和资源匮乏的组织更难采取负责任的做法来收集和注释培训永利皇宫463cc。
- 永利皇宫463cc集中使用的语言严重偏向英语和西欧语言,亚洲、非洲和南美洲国家的语言(如果有的话)覆盖范围很小。这会增加固有偏差或模型表现不佳的可能性,具体取决于用例,这是模型构建者需要考虑的因素。
- 监管机构应该承受压力,要求他们明确永利皇宫463cc集许可的执行方式和时间,以帮助减少法律上的模糊性。这将有助于激发创新并促进更负责任和透明的人工智能实践。
虽然该小组目前的工作重点是文本的永利皇宫463cc来源,但计划扩展到其他媒体,例如视频,以及特定领域的永利皇宫463cc,例如面向健康和医疗的永利皇宫463cc集。
“有必要做这样的工作,”说谢恩·朗普雷,项目联合负责人,麻省理工学院博士生。 “我们现在有来自世界各地 20 个国家的贡献者。人们热衷于做介于研究和调查性新闻之间的事情,以记录永利皇宫463cc的来源、使用方式以及风险。”

领导人工智能驱动的组织
亲自前往麻省理工学院斯隆管理学院
立即注册