Contextual AI
Contextual AI,总部位于美国山景城,致力于通过人工智能改变世界的运作方式。公司提供了一个一站式平台,利用领先的 RAG 2.0技术,帮助构建企业级 AI 应用。
旨在解决挑战:AI 模型的幻觉和时效性
Contextual AI 主要帮助解决财富500强企业在大规模部署 AI 时遇到的关键问题,包括模型幻觉、数据陈旧和数据隐私。大型语言模型(LLM)善于根据其预训练数据生成清晰、连贯的回答,但实际应用中常常缺乏关键上下文和及时信息,这可能导致生成看似合理但实际上错误的答案,这种现象被称为“幻觉”。模型幻觉削弱了模型回答的准确性和可信度,是企业在实际生产中部署 AI 的主要障碍。
RAG 2.0:推动企业级 AI 大规模应用
如今,许多开发者借助“检索增强生成(RAG)”技术,将外部数据添加到模型响应中,以提升大型语言模型的准确性。然而,目前传统的 RAG 系统通常依赖固定的现成嵌入模型、用于检索的向量数据库,以及用于生成的黑箱语言模型,这些组件通过提示或编排框架拼凑在一起的解决方案往往不够稳定,且缺乏领域特定知识,需要大量的提示和持续的维护,容易出现级联错误。因此,这种“拼凑”式的 RAG 系统很难满足企业生产的标准。
Contextual AI 的首席执行官兼联合创始人 Douwe Kiela,早在2020年,就带领团队在 Facebook AI Research(FAIR) 首创了 RAG 技术。如今,他与 Contextual AI 团队正在开发 RAG 2.0,以解决原有 RAG 系统的不足。
Contextual AI 的方法聚焦在两个方面:系统优于模型,专业化优于通用人工智能(AGI)。Contextual Language Models(CLM)通过端到端优化了整个系统,实现企业生产级 AI 应用。通过 RAG 2.0,Contextual AI 将所有组件作为一个单一的集成系统进行预训练、微调和对齐。因此,客户能够从不稳定的通用聊天机器人升级为高精度的专业化 AI 应用,性能相比基准提高了4倍以上。
面临的技术挑战
生成式 AI 工作负载对性能、数据管理效率和计算能力有极高的要求,因此训练和部署这些模型往往非常耗时且资源密集。Contextual AI 最初在谷歌云(Google Cloud)上使用默认的存储服务 Google Filestore,但很快就遇到了规模扩展挑战和性能瓶颈,导致成本上升,并延长了 AI 模型的开发和训练时间。Contextual AI 发现了在元数据处理、检查点和数据预处理种的缺陷,同时,从存储到加速器的数据传输成为团队加快 AI 模型训练的关键考量因素。
数据加载时间过长:“许多小文件(LOSF)” 问题带来了挑战,大多数传统存储架构难以有效应对。在 LLM 训练过程中,模型需要快速迭代查找正确的文件,打开、读取、关闭,然后继续操作。如果加载时间延迟了10到20秒,累计起来会在整个训练周期内对开发者的生产力产生重大影响。
模型检查点写入时间过长:模型检查点对于确保训练周期的韧性至关重要,但这可能会导致 AI 模型在保存检查点时暂停训练。为了让模型训练不中断,关键是要快速地写入几个非常大的模型权重文件。如果模型检查点写入时间过长,意味着训练可能会暂停长达5分钟之久。
“最近,生成式 AI 和企业云的加速应用,引发了客户需求的急剧增长,推动了空前数量的八位数 ARR 交易–考虑到 WEKA 是一家以软件为基础的企业,这是一个令人印象深刻的成就。”WEKA 首席财务官 Intekhab Nazeer 表示。“这是加强我们现金储备的绝佳时机,让我们的投资者能够增加他们在公司的持股比例,同时最大限度地减少员工的股权稀释。”
——WEKA 首席财务官 Intekhab Nazeer
解决方案:WEKA 数据平台
Contextual AI 依靠 WEKA 数据平台来管理其 AI 模型训练的所有数据集,目前数据总量已达100TB。在这个环境中,WEKA 软件在由10台 GCE C2-std-16虚拟机组成的10节点集群上运行,这些虚拟机集群提供了一个基于 NVMe 设备构建的高性能数据层,总闪存容量达50TB。此外,WEKA 的单一命名空间还扩展了额外50TB的 Google 对象存储,为保留训练数据集和最终生产模型提供了一个可扩展且经济的数据湖。
“借助WEKA数据平台,我们现在拥有了支持下一代 GPU 和大规模构建最先进生成式 AI解决方案所需的强大数据管道。它能够快速地将临时存储转化为持久且经济的数据存储,效果堪称魔法。”
——WEKA 的联合创始人兼首席执行官 Liran Zvibel
使用 WEKA 的成果
现在,Contextual AI 已在 WEKA 数据平台上成功完成了数百次模型训练。WEKA 帮助数据性能实现巨大飞跃,大幅提高了开发人员的工作效率,缩短了模型训练时间。
WEKA 数据平台将低成本对象存储和基于闪存的高性能存储结合在单一命名空间内,并在两者之间进行精细的自动数据分层管理。通过单一的数据副本,客户在无需过度配置存储资源的情况下,就能够获得所需的高性能。借助 WEKA 平台,Contextual AI 的模型检查点时间加快了4倍,云存储成本降低了38%,开发者的生产力显著提升。
3倍性能提升:通过大幅提高 GPU 利用率,Contextual AI 在关键 AI 应用场景种实现了3倍的性能提升。
4倍性能提升:消除了模型检查点的延迟,使检查点处理速度加快了4倍,极大提高了开发者的工作效率。
降低38%的成本:相关的云存储成本每 TB 降低了38%。