大模型以其编造事物的能力而闻名,事实上这也正是它们最擅长的。但它们无法区分事实和虚构,这让许多企业怀疑使用它们是否值得冒险。
由麻省理工学院量子计算实验室分拆出来的人工智能初创公司 Cleanlab 创建的一个新工具,旨在让高风险用户更清楚地了解这些模型的真实可信度。
它被称为值得信赖的语言模型(Trustworthy Language Model)。根据大模型的可靠性,它会给大模型生成的输出,给出 0 到 1 之间的打分。这让人们可以选择信任哪些回应、以及放弃哪些回应。
Cleanlab 的 CEO 卡提斯·诺斯卡特(Curtis Northcutt)说:“我想人们知道大模型会改变世界,但他们只是被该死的幻觉所困扰。”
数十亿人每天使用办公软件,来创建从学校作业、到营销副本、再到财务报告的内容。这些软件现在都内置了聊天机器人。
然而,由谷歌前员工创立的初创公司 Vectara 在 2023 年 11 月发布的一项研究发现,聊天机器人至少有 3% 的时间会“发明信息”。这听起来可能不算多,但是大多数企业都不能容忍。
目前,Cleanlab 的工具已经被少数公司使用,包括总部位于英国的专门从事企业纠纷和调查的咨询公司伯克利研究集团。
伯克利研究小组副主任史蒂文·戈索普(Steven Gawthorpe)表示,Trustworthy Language Model 是他看到的针对幻觉问题的第一个可行解决方案。
Trustworthy Language Model 的基本思想是:模型之间的分歧可以用来衡量整个系统的可信度,并将其用于聊天机器人。
在 Cleanlab 上周给《麻省理工科技评论》的一个演示中,诺斯卡特在 ChatGPT 中键入了一个简单问题:“字母‘n’在‘enter’中出现了多少次?”
在高风险情况下测试大模型的数据科学家,可能会被一些正确的答案误导,并认为未来的答案也是正确的,然后他们做的事情就会导致非常糟糕的商业决策。
而 Trustworthy Language Model 利用多种技术来计算其分数。首先,提交给该工具的每个查询,都被发送到几个不同的大模型之中。
Cleanlab 目前正在使用 DBRX,这是一个由总部位于美国旧金山的人工智能公司 Databricks 开发的开源模型。
但诺斯卡特表示,这项技术将适用于任何模型,包括 Meta 的 Llama 模型、或 OpenAI 的 GPT 系列模型(即 ChatpGPT 背后的模型)。
同样的,如果对同义查询的响应相似,则有助于获得更高的分数。此外,该工具还可以让多个模型相互回应。
英国剑桥微软研究所的计算机科学家尼克·麦肯纳(Nick McKenna)专门研究用于代码生成的大模型,他乐观地认为这种方法可能有用。
Cleanlab 在不同大模型的一系列测试中表明,其可信度得分、与这些模型的回答准确性密切相关。
据介绍,大模型通过预测序列中最有可能的下一个单词来生成文本。在未来的版本中,Cleanlab 计划通过利用模型进行预测的概率,使其得分变得更加准确。
目前,Cleanlab 已经根据伯克利研究小组提供的数据对其方法进行了测试。该公司需要在数万份公司文件中查找有关医疗合规问题的参考资料。
手工操作可能需要熟练的员工数周时间。而通过使用 Trustworthy Language Model 来检查文档,它减少了大约 80% 的工作量。
另据悉,使用多个模型、多次运行每个查询,比使用单个聊天机器人来回运行每个查询,要花费更长的时间和更多的成本。
但 Cleanlab 正在将 Trustworthy Language Model 宣传为一项高级服务。这个想法不是为了取代现有的聊天机器人,而是为了让聊天机器人可以做人类专家的工作。
诺斯卡特说,如果该工具能够以每小时 2000 美元的价格,大幅减少雇佣熟练经济学家或律师所需的时间,那么这些成本是值得的。
从长远来看,诺斯卡特希望通过减少聊天机器人反应的不确定性,向更广泛的用户释放大模型的应用前景。