随着生成式人工智能系统的改进,一个自然的假设是更好的大型语言模型将带来更好的结果。但麻省理工学院斯隆管理学院的几家附属机构的最新澳门永利(中国)官方网站表明,法学硕士的进步只是故事的一部分。
在大规模实验中,澳门永利(中国)官方网站人员发现,切换到更先进的 AI 模型后,只有一半的性能提升来自模型本身。
另一半来自用户如何调整提示(即告诉 AI 模型该做什么的书面指令)以利用新系统。
用户适应对性能的贡献与模型升级本身一样重要,这一简单而有力的见解凸显了企业的一个关键现实:投资新的 AI 工具将无法实现其预期价值,除非员工也改进他们的使用方式。在这种情况下,提示是一项可学习的技能,即使没有指导,人们也可以快速提高。
“人们常常认为更好的结果主要来自更好的模型,”哥伦比亚大学助理教授说大卫·霍尔茨,SM '18,PhD '21,附属澳门永利(中国)官方网站机构麻省理工学院数字经济倡议以及该澳门永利(中国)官方网站的合著者之一.“近一半的改进来自用户行为,这一事实确实挑战了这一信念。”
更好的提示、改进的模型提高了性能
在实验中,近 1,900 名参与者被随机分配到 OpenAI DALL-E 图像生成系统的三个版本之一:DALL-E 2、更高级的 DALL-E 3 或 DALL-E 3,并且用户的提示会在用户不知情的情况下由 GPT-4 LLM 自动重写。
向参与者展示参考图像(例如照片、图形设计或艺术品),并要求通过在人工智能中输入指令来重新创建它。他们有 25 分钟的时间提交至少 10 个提示,并被告知表现最好的 20% 的人将获得奖金,这激励他们测试和改进他们的指令。
澳门永利(中国)官方网站人员发现了以下内容:
- 使用 DALL-E 3 基线版本的参与者生成的图像比 DALL-E 2 用户生成的图像更类似于目标图像。
- 与 DALL-E 2 用户相比,使用 DALL-E 3 基准版本的参与者所写的提示长度要长 24%。这些提示也往往彼此更加相似,并且包含更多描述性词语。
- 图像相似度的改进大约有一半来自改进的模型,而另一半则来自用户如何调整提示以利用改进的模型。
虽然这项澳门永利(中国)官方网站着眼于图像生成,但澳门永利(中国)官方网站人员认为相同的模式也适用于其他任务,例如写作和编码。
提示是关于沟通,而不是编码
澳门永利(中国)官方网站表明,随着时间的推移调整提示的能力不仅限于精通技术的用户。
“人们常常认为,你需要成为一名软件工程师才能很好地提示并从人工智能中受益,”霍尔茨说。 “但我们的参与者来自不同的工作、教育水平和年龄组,甚至那些没有技术背景的人也能够充分利用新模型的功能。”
数据表明,提示更多的是关于沟通而不是编码。 “最好的提示者不是软件工程师,”霍尔茨说。 “他们知道如何用日常语言清楚地表达想法,不一定用代码。”
这种可访问性还可能有助于缩小具有不同技能水平和经验的用户之间的性能差距。马里兰大学助理教授伊曼·贾哈尼,博士 '22,麻省理工学院数字经济倡议的数字澳门永利(中国)官方网站员,澳门永利(中国)官方网站合著者、指出生成式 AI 有可能缩小用户之间的性能差距。
“从[绩效]规模较低端开始的人受益最多,这意味着结果的差异变得更小,”贾哈尼说。 “模型的进步实际上可以帮助减少产出的不平等。”
Jahani 指出,该团队的澳门永利(中国)官方网站结果适用于具有明确、可衡量结果的任务,其中良好结果的上限是存在的。他指出,目前尚不清楚同样的模式是否适用于没有单一正确答案且可能带来巨大回报的开放式任务,例如提出变革性的新想法。
使用生成式 AI 重写提示会导致性能下降
更令人惊讶的结果之一来自使用 DALL-E 3 和生成式 AI 重写提示的小组。虽然此功能旨在帮助用户,但它适得其反,相对于基准 DALL-E 3 组,图像生成任务的性能下降了 58%。
团队发现,自动重写通常会添加额外的细节或改变用户想要表达的意思,从而导致人工智能生成错误类型的图像。
“[自动提示重写]对于这样的任务效果不佳,其目标是尽可能匹配目标图像,”霍尔茨说。 “更重要的是,它展示了当设计者对人们如何使用人工智能系统进行假设时,它们会如何崩溃。如果你将隐藏指令硬编码到工具中,它们很容易与用户实际尝试做的事情发生冲突。”

领导人工智能驱动的组织
亲自前往麻省理工学院斯隆管理学院
立即注册
企业如何释放 AI 价值
结论是,除了选择“正确”的 AI 模型之外,企业领导者还应该专注于支持正确类型的用户学习和实验。贾哈尼说,提示并不是一种即插即用的技能。 “公司需要不断投资于人力资源,”他说。 “人们需要了解这些技术并知道如何很好地使用它们。”
为了利用生成式 AI 带来的成果,澳门永利(中国)官方网站人员为希望使 AI 系统在现实环境中更有效的企业领导者提供了几个优先事项:
- 投资于培训和实验。仅技术升级是不够的。为员工提供时间和支持来完善他们与人工智能系统的交互方式对于实现全面绩效提升至关重要。
- 迭代设计。 鼓励用户测试、修改和学习并清晰显示结果的界面有助于随着时间的推移取得更好的结果。
- 对自动化保持谨慎。自动提示重写可能很方便,但如果它掩盖或覆盖了用户意图,则可能会阻碍而不是提高性能。
该论文也是由麻省理工学院斯隆管理学院博士生共同撰写本杰明·S·曼宁,SM’24;弘一图业,SM’23;和穆罕默德·阿尔斯贝,'16,SM '24;以及斯坦福大学博士生张乔,微软计算社会科学家悉达多·苏瑞,塞浦路斯大学助理教授克里斯托·尼古拉德斯,SM '11,博士 '14。