聊透LLM基础设施！行业领先者Zilliz分享AI时代向量数据库的重要地位与优势

近日，OSC 源创会上海站正式闭幕。据悉，OSC 源创会由开源中国社区主办，是聚焦开源、创新的技术沙龙，聚集了最优质的技术资源与行业案例，对话最优秀的技术领军人物，为广大开发者带来最新开源技术、前沿技术视角以及落地实践经验。

本次源创会以 LLM 基础设施为主题，话题聚焦大模型平台建设与基础设施研发，邀请了来自 Zilliz、百度、VMware 等多位业界专家参与。现场，专家们从向量数据库探讨到自动化编程新范式，从深度学习聊到大模型底座，用多个角度分享了自己在大模型相关技术与应用的见解。

Zilliz AI 云平台负责人陈将受邀参加并进行《向量数据库- AI 时代的信息检索引擎》的主题分享。陈将主要介绍了从传统的信息检索系统到 AI 时代信息检索系统的演化，分享了向量数据库等基础设施在其中的应用和案例。

|Zilliz AI 云平台负责人陈将

陈将表示，今年随着大模型的火爆，向量数据库也开始出圈了。很多人对向量数据库的认知都是从 AI 大模型开始的，因为大模型虽然很强大但往往缺乏领域知识，所以业界流行用向量数据库打造大模型的记忆体。除此之外，向量数据库在信息检索领域还有非常多的应用。

事实上，向量数据库是一种划时代的信息检索引擎。人工智能和深度学习的创新使我们能够创建一种机器学习模型，即 embedding 模型。Embedding 模型将所有类型的数据表征为向量，以捕获其特征和含义。相比之下，传统的全文检索使用的是基于关键词的方式。向量编码能够更准确地捕捉数据的语义信息，提供更准确的搜索结果。例如通过智能手机拍照后搜索相似的图像，而传统的全文检索往往只能通过关键词匹配来进行搜索。向量数据库使用高效的算法和索引结构，如k最近邻(k-NN)索引、分层可导航小世界(HNSW)和倒排文件索引(IVF)，以实现在高维空间中的快速检索。然而，传统的数据库并不擅长于向量搜索，性能不可同日而语。

此外，陈将提到，向量数据库在 AI 时代的信息检索中具有重要的地位和优势。它通过将数据编码为向量，并利用高效的搜索算法和索引结构，提供更精确、快速和准确的搜索结果，在网页搜索、推荐系统、视频图像搜索，检索增强生成等领域助力应用开发者以更强大更优秀的产品体验。

陈将所在的 Zilliz 不仅是向量数据库赛道的领先者，也在大模型时代为 AI 应用开发者提供了非结构化数据检索产品 Zilliz Cloud Pipelines。Zilliz Cloud Pipelines(https://zilliz.com/zilliz-cloud-pipelines) 可以将文档、文本片段和图像等非结构化数据转换成可搜索的向量并存储在 Collection 中，帮助开发者简化工程开发，助力其实现多种场景的 RAG 应用，将复杂生产系统的搭建和维护简化成 API 调用，真正做到降低检索系统搭建门槛，轻松实现 RAG 应用。

聊透LLM基础设施！行业领先者Zilliz分享AI时代向量数据库的重要地位与优势

科技三人行