如何构建对未来Genai的LLM监控

发现如何 langfuse 它提供安全的开源 监视LLM和Genai解决方案。

LLMS型号出现在任何地方,并且可以比以往任何时候都更加访问。我们都以其技能与Chatgpt(或多或少)一起演奏。但是,这种体育馆人工智能的背后(如果您不确定Genai是什么,这是一篇关于环境科学服务中人工智能的精彩文章,以刺激您的记忆力),即图标,一个完整的生态系统会发展出来。开发了新的和复杂的工具,使每个人更容易,更快地测试,经验和创新。

但是,让我们成为现实 – 维护LLMS创建的每个符号的路径,因为它的发展越来越不容易。每增加一层,我们就对已经创建的内容失去了一点清晰度。很难理解错误,您会错过封面下发生的情况的细节,您将无法有效地解决问题。

此外,在LLM上缩短了传统的性能标准。它已将其用途扩展到简单的“聊天机器人”之外,例如分析和自动应用程序等领域 结果和错误很难解释。

在人工智能工程和其他软件的领域中,已经开发了工具来提高轻松和实验。但是在Genai的世界中,我们仍在加入。因此,我们很高兴提供开发LLM工具的最佳实践。

为什么监视LLM非常重要(并且有点头疼)

Genai应用程序很难评估。设置”良好的回应“这不像分类或斜率算法那样清晰。在试图测量路由器或发电系统(RAG)的性能时,请勿缩短通常的标准。

以Rouge和Bleu等标准为例。它是用于评估翻译和摘要的出色NLP工具,但并未使用LLMS进行全部图片。它们没有上下文重要性,创造力和流利性之类的东西。

如果没有明确的性能愿景,则很难开发Genai解决方案。让我们面对现实:我们大多数人都依靠API呼叫,例如OpenAI,进化枝或Mistral。涂上这些电话可能会变得非常无聊,尤其是当创建回答比协调简单的问题和答案更具创造力时。

例如,假设您正在使用抹布来回答文档底部的问题(例如,对我们来说 Techradar 它充满了对现代数据科学的见解!)。

您可以选择以下架构,该体系结构将有关联:
– 通过 包容 向量数据库中所需的所有上下文
– 使用 基于对话的检索系统 对用户的查询进行重新重新制定,这使得在知识底部搜索更加方便,同时允许在问题中重新构图。

如何构建对未来Genai的LLM监控
Tolini工人进行检索的结构:许多用于监视的层

一旦准备就绪,您将能够询问有关MLOPS堆栈或Genai或数据建模上指定的各种问题。有些响应将减少,提供非相关信息或忽略主要技术细节,并且您将不会遇到整个解决方案中的错误。您无法收集用户反应或有效比较不同的经验。

那么,我们如何跟踪进度,比较结果并与我们的团队共享结果? LLM更正可能是真正的痛苦,尤其是在使用高级工具(例如漏洞,兰班链)或添加其他抽象层的教练时。

这一挑战通常会导致创建信息委员会以尝试理解事物。但老实说,我们仍然远离其他数据库中的抛光标准。

输入langfuse

这是Langfuse等监视工具的地方!

快速撤离: 那里有许多精彩的监控工具,例如Langchain团队的Langmith或Pareaai和Phosphoai等新工具。但是,我们专注于这个特定的项目,因为它是开源的,并且可以在任何项目中使用,无论数据灵敏度的程度如何,因为您一直在控制所有内容。

Langfuse旨在通过监视其健康状况来管理LLM应用程序。

Langfuse将使您能够监视主要有价值的量表,例如响应时间,错误率和使用模式。它提供了详细的记录和看法,可帮助您理解和改善Genai应用程序的性能。凭借警报功能,它可以通过实际时间通知您,从而可以快速纠正程序。

Langfuse的前页面页面显示愿景,以帮助监视LLM
langfuse前页面

您将能够获得有关Genai管道中可能错误的准确信息。哪些步骤使它慢:取回零件或产生答案?这个错误的答案是否来自恢复不良背景,幻觉或误导性主张?我的命令是在财务上申请还是一代成本很高?

这些是信息的宝贵部分,通常需要时间来收获和突出您的应用程序的深刻性能。

现在,让我们更深入地了解使Langfuse脱颖而出的原因:

关注:基础

跟踪是监视工具的基本构建块。 它记录了特定任务期间的事件或详细过程,例如LLM呼叫,您可以选择详细信息级别。当使用更改索赔的抽象工具(例如链,代理或违规)时,重叠的效果变得果断。

此外,您将获得有用的信息,例如推理时间,独特符号的数量和发电成本。最好的是,您可以为项目添加标识数据:使用正确的框架,您可以轻松存储用户笔记或准备自定义的警报!

该创始质量是一个强大的多用途工具,可以适应任何位置。多亏了详细的SDK,如果您想要更具体的愿景,也可以自己构建它们,并在用例中直接调整Langfuse的工作。作为软件开发人员,它确实是游戏的变化。

Trace Languse的示例:一代LLM上的许多见解细节。
跟踪languse的示例:许多见解细节。

您会发现很多LLM监控措施,例如 每个模型或用户的成本,创建或创建的独特符号的大小,cumin和专用的描述性数据。 这些量表可帮助您了解如何使用解决方案并发现可能在没有任何人注意的情况下通过的异常!

数据组

它是根据用户界面的效果,在“自定义”选项卡上手动或通过项目中的文本程序自动创建的,数据集允许您在一组测试索赔上测试和监视LLM行为。您可以检查频繁的错误或响应类型。

这是一种有用的行为测试工具,尽管它仍然缺乏单位测试的易度性,该单元测试会积极地将发现的行为通知用户。但是,我们建议使用DVC跟踪和可视化实验结果,如技术雷达中所述!

自我托管:大特征

Langfuse用开源点亮! 与仅提供管理解决方案的许多其他监视工具不同,在处理敏感数据时可能会成为安全问题,您可以自己发布和主持自己。无论您是想在本地工作还是在安全的云上工作,这都很容易且昂贵。如果安全性不是一个很好的问题,您甚至可以使用他们的免费托管服务,直到一定尺寸为止,这使其快速重复。

改进领域:

体育场

这是在Langsmith或Pareaai等其他平台上提供开发舒适度的功能。 LLM应用程序测试使您可以触摸符号,并为非技术团队的成员打开研发。他们可以重复主张,分析回应并了解细微差别 “立即工程。”

当前,访问此功能需要使用托管服务或订阅机构计划。但是,有了一些努力,可以使用stiplelit创建自己的体育场,为那些想要投入时间的人提供灵活的替代方案。

评估

Genai的单位测试仍处于初期。通常有三种测试LLM响应质量的方法:

  1. 人类验证: 一个人手动达到质量。它是准确的,但是需要长时间,昂贵且未开发。
  2. 验证该算法: 测试功能检查响应。它是快速且便宜的,但通常缺乏准确性,尤其是对于语义评估。
  3. LLM作为法官(LLMAJ): 另一个LLM检查了响应的质量并给出结果。它很快,可能是昂贵的,自动的,但质量可能会受到打击或错过。

没有平台提供评估LLM的非常令人满意的方法,这是开发可靠解决方案的重要障碍。没有适当的评估,很难不断监视解决方案的行为。

诸如Giskard或Quortfoo之类的工具具有潜在的解决方案,但它们的成熟度不足以使用该项目。

同样,langfuse允许您手动伸出和释放它们或监视LLMAJ专用管道,这已经有助于大量干预LLM评估。但是,它离我们习惯的测试标准还很遥远,但这真的是评估功能监视工具的目的吗?

结论

总而言之,由于它像LLM一样复杂,因此需要高级监控工具才能在透明和有效的情况下生存。 Langfuse是一个强大的竞争对手通过其自我托管的开源模式提供安全性和灵活性。我们强烈建议它的经验:很容易测试其托管服务的使用,由于我们讨论的所有原因,已经用于许多生产项目!

Langfuse使我们可以简单地跟踪用户请求并改善我们的Genai解决方案。尽管它仍在定期更新中开发,但我们对其未来非常乐观。这也是令人难以置信的 易于实施,在成本方面有效,尤其是在没有服务器的数据库上进行自我启动的准备,并计算GCP等平台。优势很明显 – 它为我们提供了对发展的快速,全面的愿景,我们强烈鼓励它们使用。不要忘记监视Langchain团队的Langmith等其他选项,但Langfuse绝对值得探索。

您在寻找Genai专家吗?请随时与我们联系!



Source link

Similar Posts