麻省理工学院斯隆管理学院徽标

了解管理教育的未来。与 John C Head III Dean Rick Locke 的对话。

联系

工商管理硕士

通过严谨的智力和体验式学习，这个为期两年的全日制 MBA 课程培养能够改变世界的领导者。

通过这个为期两年的变革性课程，获得工程学 MBA 和 SM。

金融硕士

一项严格的实践计划，旨在为一流的金融职业培养适应性问题解决者。

商业分析硕士

为期 12 个月的计划，专注于应用现代永利皇宫463cc科学、优化和机器学习工具来解决现实世界的业务问题。

管理研究理学硕士

将国际 MBA 课程与对管理科学的深入研究相结合。仅适用于合作伙伴和附属学校的特殊机会。

博士

一个博士项目，培养在各自研究领域处于领先地位的杰出学者。

本科

通过管理、商业分析或金融学士学位，将商业视角融入到您的技术和定量专业知识中。

MBA Early（延期入学选项）

立即申请并工作两到五年。当您准备好返回校园攻读学位时，我们将为您保留 MBA 课程的席位。

行政人员程序

麻省理工学院行政工商管理硕士

这个为期 20 个月的计划向想要从成功走向重要的职业中期领导者传授管理科学。

麻省理工学院斯隆商学院MBA

全日制 MBA 课程，面向职业中期领导者，他们渴望用一年的时间进行发现，以产生终生的影响。

针对职业中期专业人士的联合计划，融合了工程和系统思维。获得工程和管理硕士学位。

针对高级管理人员和高潜力经理的非学位课程。

访问学者

针对职业中期专业人士的非学位、可定制计划。

图片来源：valiantsin suprunovich/Proxima Studio，来自 Shutterstock

想法变得重要

永利皇宫463cc

提高用于训练人工智能的永利皇宫463cc的透明度

作者

贝丝·斯塔克波尔

2025 年 3 月 3 日

GPT-4 等流行的大型语言模型是使用大量永利皇宫463cc（包括公开永利皇宫463cc集）进行训练的。但这些人工智能训练永利皇宫463cc集的记录往往不一致，而且人们对其了解甚少，从而引发了一系列风险。

如果人工智能模型所用永利皇宫463cc的来源不透明，研究人员、企业和其他目标用户可能会发现自己不遵守新兴法规，例如欧盟人工智能法案或面临法律和版权风险。缺乏永利皇宫463cc透明度还会导致其他问题，包括敏感信息的暴露以及意外的偏见和行为。从实际角度来看，可追溯性差使得人工智能训练永利皇宫463cc集与预期用例难以保持一致，这可能会导致模型质量较低。

由多学科研究人员组成的团队，包括教授和麻省理工学院的其他人创建了永利皇宫463cc来源倡议正面应对永利皇宫463cc透明度挑战。专家集体对用于培训公共和专有法学硕士的海量永利皇宫463cc集进行了大规模审计，跟踪和记录它们从起源到创建再到用例的整个过程。该小组还写道有关该项目的论文并开发用户友好的工具生成永利皇宫463cc集的创建者、来源、许可和允许用途的摘要。他们的目标：提高人工智能训练永利皇宫463cc的透明度、文档和知情使用。

“我们的工作涉及道德层面 - 我们希望对那些为 AI 训练模型做出贡献的人们给予适当的认可，”共同主要作者说道罗伯特·马哈里，麻省理工学院媒体实验室的博士生，哈佛法学院的法学博士候选人。 “但也有务实的一面，因为我们希望确保培训永利皇宫463cc对人们正在做的工作有用。”

AI 训练永利皇宫463cc中的漏洞

2023 年 12 月发生的三起事件凸显了使用尚未完全了解的 AI 训练永利皇宫463cc的后果。在一个例子中，《纽约时报》对 OpenAI 及其支持者微软提起诉讼，声称其内容在未经许可或适当的经济赔偿的情况下被用来构建生成式人工智能模型。同期，用于AI图像生成的LAION-5B训练永利皇宫463cc集被发现包含链接虐待儿童图像，增加了人工智能模型受到有害内容影响的可能性。此外，OpenAI暂停了 TikTok 母公司字节跳动的帐号被指控该公司使用 GPT 生成的永利皇宫463cc来训练自己的竞争模型，从而违反了开发者许可。

这些事件暴露了公司当前用于构建 AI 训练永利皇宫463cc集的做法中的漏洞，这些永利皇宫463cc集是多种永利皇宫463cc类型的混合体。其中包括预训练永利皇宫463cc集、为提高特定任务的模型性能而编译的微调永利皇宫463cc集，以及合成永利皇宫463cc由 AI 模型本身生成。他们还可能整合来自开源机器学习和永利皇宫463cc科学平台的永利皇宫463cc，例如拥抱脸。研究人员表示，从业者组合并重新打包了这些无数的永利皇宫463cc集，但在归因、记录或理解它们方面还没有做出足够的努力。

永利皇宫463cc来源团队致力于促进知情且负责任地使用永利皇宫463cc来训练和微调 AI 模型。作为其工作的一部分，该小组采取了两项关键行动：

相关文章

人工智能使用大量永利皇宫463cc中心能源 - 但有解决方案

新永利皇宫463cc库详细介绍了人工智能风险

什么是合成永利皇宫463cc？它对您有何帮助？

对 1,800 多个文本永利皇宫463cc集进行了系统审核。 研究人员从 44 个最广泛使用的文本永利皇宫463cc集中追踪了微调永利皇宫463cc集的谱系。他们发现许可证经常被错误分类，错误率超过50%，许可证信息遗漏率超过70%。在团队法律专家的帮助下，该小组设计了一个用于追踪永利皇宫463cc来源的管道，其中涵盖永利皇宫463cc集的原始来源、相关许可证、涉及的创建者及其后续使用。他们的努力将未指定许可证的永利皇宫463cc集减少到 30%，并添加了有关许可证条款的信息，这有助于模型开发人员更自信地选择适合其需求的永利皇宫463cc。

建立了 Data Provenance Explorer 工具。在审计的同时，该小组发布了一个开源永利皇宫463cc存储库和交互式工具以供广泛使用。该工具可让人工智能从业者追踪流行的微调永利皇宫463cc集的沿袭，并根据特定的许可条件过滤和探索永利皇宫463cc来源。从业者还可以使用该工具为永利皇宫463cc集生成人类可读的永利皇宫463cc来源卡，从而简化管理和记录大量永利皇宫463cc集编译的手动任务。

Data Provenance 团队为其工具设想了三个主要用户：AI 模型构建者，他们可能想要发现新的永利皇宫463cc集并过滤它们以进行许可限制；有兴趣跟踪永利皇宫463cc来源的永利皇宫463cc集创建者，以便在应得的信用处提供信用；以及想要了解人工智能永利皇宫463cc透明度新兴领域更广泛轮廓的研究人员和政策制定者。

永利皇宫463cc来源计划揭示了其他对人工智能模型领域具有影响的问题：

许可证类型多种多样，且条款独特，这使得初创公司和资源匮乏的组织更难采取负责任的做法来收集和注释培训永利皇宫463cc。
永利皇宫463cc集中使用的语言严重偏向英语和西欧语言，亚洲、非洲和南美洲国家的语言（如果有的话）覆盖范围很小。这会增加固有偏差或模型表现不佳的可能性，具体取决于用例，这是模型构建者需要考虑的因素。
监管机构应该承受压力，要求他们明确永利皇宫463cc集许可的执行方式和时间，以帮助减少法律上的模糊性。这将有助于激发创新并促进更负责任和透明的人工智能实践。

虽然该小组目前的工作重点是文本的永利皇宫463cc来源，但计划扩展到其他媒体，例如视频，以及特定领域的永利皇宫463cc，例如面向健康和医疗的永利皇宫463cc集。

“有必要做这样的工作，”说谢恩·朗普雷，项目联合负责人，麻省理工学院博士生。 “我们现在有来自世界各地 20 个国家的贡献者。人们热衷于做介于研究和调查性新闻之间的事情，以记录永利皇宫463cc的来源、使用方式以及风险。”

了解更多信息萨拉·布朗高级新闻编辑和作家 sbrown1@mit.edu

箭头爬上台阶到达顶部的插图

重要的想法 如何提高组织的 AI 成熟度水平

一群工人举起并推动齿轮

重要的想法 如何利用工业人工智能取得成功

机器人思考 3 条不同的路径

重要的想法 购买、提升还是构建？选择通往生成式人工智能的道路