基准测试的一个具体例。
使用 llm 基准来验证您的用例并找到最佳模型是一种简化的方法。
替代基准可能会产生误导
其他基准旨在帮助您了解 llm 的性能和安全性,以及应优先考虑哪些用例。例如,筛选诸如语言模型整体评估 ( helm ) 之类的基准很诱人。然而,这些基准更具学术性而非实用性。它们大多使用合成数据而不是真实业务数据。它们不依靠人工评估,而是依靠自动评估,其中 llm 评估 llm,这会导致结果有偏差。此外,它们不包含您需要的所有业务指标(例如,了解成本),并且很难使用。因此,这些基准对指导您成功采用没有太大帮助,并且它们不是基于真实的 crm 数据。
引导人工智能代理的推出
随着 ai 代理的兴起,这些代理易于实施,并且以agentforce的 crm 数据为基础,我们在基准测试中添加了一个代理用例(选择仪表板左上角的“代理”选项)。请记住,具有推理引擎的代理可以启用基准测试中的任何用例(如服务呼叫摘要)。这个新的、差异化的代理基准测试使用真实数据,考虑必要的业务指标(准确性、成本、速度和信任度),包括领域专家的数万个评估点,并在同一个易于使用的 tableau 仪表 whatsapp 号码数据 板中呈现为任何人都可以使用的资源。
由于大多数 llm 并非为执行推理任务而设计,因此它们作为代理背后的“大脑”会面临更大的困难,而且大多数都达不到标准(例如,它们的准确率低于 3)。代理的准确率指 确保您获得良好的投资 标基于三个子指标:
主题分类:代理在主题或上下文中构建问题的正确程度。
代理如何谨慎地调用正确的技术功能来完成操作(例如“更新支持票的状态”)。
给予用户的响应的质量,可以包括对问题的回答,或者为了更好地了解用户的需求而提出的问题。
除了准确性之外,成本也是投资回报率的一个重要因素,目前只有一个成本低廉的准确模型:由 salesforce ai research 开发的xlam。代理商的信任度和安全性从 60% 到 90% 不等,这是另一个重要的权衡。
基准测试的下一步是什么
为了进一步提升基准的独特价值,了检索增强生成(rag) 用例,这是一种为 llm 提供真实数据上下文的更复杂的方法(例如,通过文档)。基准是一个动态工具,会不断 博目录 更新,包括更多云中的更多用例;更多手动评估、更多 llm,包括微调的 llm 和小型 llm(少于 40 亿个参数);以及上下文窗口,它定义了模型可以容纳多少信息。
为了帮助您采用 ai,请寻找特定行业的基准测试(例如金融服务和生命科学)、更多更新(例如代理基准测试的更细粒度)、更多云以及最新 llm 和更多用例的纳入。基准测试还计划直接添加到 salesforce 中,供您根据用例选择模型。
随着组织继续以惊人的速度采用 ai,llm 基准 crm 提供了急需的指南,以加快实现业务价值并避免痛苦的经历。此资源旨在帮助用户评估和选择正确的用例和理想的 llm — 即使 ai 模型快速发展。有了正确的用例和最佳的 llm 匹配,ai 的采用可以成为一种积极的体验,帮助企业成长和成功。