IBM 的 AI 驱动文本到 SQL 生成器在 BIRD 基准测试中拔得头筹
根据 IBM 研究院的消息,IBM 的生成式 AI 解决方案在 BIRD 基准测试中取得了重大里程碑,获得了处理复杂数据库查询的 AI 系统表现的首位。
IBM 在数据管理方面的创新
随着来自网站点击和销售报告等各种来源的数据呈指数级增长,企业在高效检索和利用信息方面面临挑战。IBM 的最新创新旨在通过使用大型语言模型 (LLM) 来简化这一过程,以编写数据库交互的主要语言—— SQL。
IBM 的文本到 SQL 生成器名为 ExSL+granite-20b-code,利用提取性的模式链接技术来识别数据库组织并检索相关的数据表和列。该解决方案在 BIRD 排行榜上表现优于其他 AI 系统,展示了其解析自然语言问题并将其有效转化为 SQL 查询的能力。
表现和未来前景
尽管在 BIRD 基准测试中的表现最佳,但 IBM 的解决方案正确回答了 68% 的问题,而人工工程师的正确率为 93%。然而,在代码执行速度方面,它表现出色,得分 80 分(满分为 100 分),仅次于人工工程师得分的 90 分。鉴于 LLM 的快速进步,IBM 研究人员对缩小 AI 和人类在 SQL 生成方面的差距充满信心。
这一成就是 IBM 提升企业数据管理工具广泛努力的一部分。公司已经将 LLM 驱动的组件集成到 IBM 知识目录和 watsonx.data 等产品中,这些组件用描述和业务术语丰富了结构化数据,使其更容易找到和使用。
使用生成式 AI 的搜索、定位和比较
IBM 自 1970 年以来一直引领关系型数据库的演变,而生成式 AI 的出现继续推动这一发展。公司设计的文本到 SQL 生成器通过将自然语言问题转化为精确的 SQL 代码来处理复杂查询。这包括三个步骤:模式链接、内容链接和 SQL 生成。
在第一步中,即模式链接,系统将问题中的关键词与数据表和列匹配。第二步,内容链接,涉及生成 SQL 代码以比较相关的 数据列。最后,系统生成一系列 SQL 查询,并选取最准确的一条。
IBM 的解决方案以其提取性的模式链接方法和生成性的内容链接方法为特色,大大提高了速度和准确性。这些创新推动 IBM 领先于 BIRD 基准测试,但实际应用环境仍更为复杂。
增强用户交互的会话式 GUI
除了文本到 SQL 生成器,IBM 还在开发一个会话式图形用户界面 (CGUI),以促进与结构化数据的更好互动。这个 CGUI 将 AI 聊天界面的个人感受与基于 Web 的 GUI 的直观性相结合,使用户能够无缝互动并审查 AI 系统的工作。
通过在聊天框中对齐问题和回答与 GUI 中的视觉结果,CGUI 提供了连贯的用户体验。用户可以完善查询、可视化结果,甚至将数据导出到图表中用于演示,提升了生产力和洞察生成。
IBM 致力于将这些生成式 AI 特性集成到其 watsonx 产品中,彰显了其推动 AI 进入整个数据服务管道的使命,旨在使数据管理变得更加高效和易于访问。
未来展望
IBM 研究人员在不断改进文本到 SQL 生成器和基础语言模型。这些创新的集成将进一步增强企业有效管理和利用数据的能力。
欲了解更多信息,请访问 IBM 研究院博客。
Read More
NVIDIA H100 GPUs and TensorRT-LLM Achieve Breakthrough Performance for Mixtral 8x7B
Jul 03, 2024 1 Min Read
IBM's AI-Powered Text-to-SQL Generator Tops BIRD Benchmark
Jul 03, 2024 1 Min Read
Edgeless Systems and NVIDIA Enhance AI Security with Continuum AI Framework
Jul 03, 2024 1 Min Read
NVIDIA Introduces Checkpointing for CUDA Applications with CRIU
Jul 03, 2024 1 Min Read
Brian Pak Sheds Light on Web3 Security Challenges and Innovations
Jul 03, 2024 1 Min Read