文本到sql解析(英文缩写为text-to-sql),旨在将自然语言指令转换为可执行的sql语句,近年来吸引了越来越多的关注。特别是codex和chatgpt在这项任务中取得了令人印象深刻的结果。然而,大多数基准任务(如蜘蛛和维基sql)专注于数据库表结构的少量数据库内容,导致学术研究和实际应用之间存在差距。
为了弥补这种差距,阿里巴巴联合香港大学等机构推出了 bird( (big bench for large-scale database grounded text-to-sql evaluation)),一个大规模的数据库基准,基于文本到sql任务,包含12,751对文本到sql数据对和95个数据库,总大小为33.4gb,跨越37个职业领域。
作者强调数据库价值,突出了脏数据库内容的新的挑战、自然语言问题和数据库内容的外部知识,以及sql效率,特别是在大规模数据库的背景下。为了解决这些问题,文本到sql模型必须包括数据库价值理解,而不是语义解析。实验结果证明了数据库价值在生成准确大数据库文本到sql语句中的 significance。此外,即使最先进的文本到sql模型(如chatgpt)仅实现40.08%的执行准确性,仍然远远落后于人类的92.96%,证明仍然存在挑战。此外,作者还提供了效率分析,以提供对生成对行业有益的高效sql文本的 insights。相信, bird将促进推进文本到sql研究的实际应用场景。 leaderboard和源代码可在以下httpsurl获得。
米乐app官网下载主页:https://bird-bench.github.io
代码:https://github.com/alibabaresearch/damo-convai/tree/main/bird
来自 bird 的惊喜
bird 缩小了文本到 sql 研究之间的差距和现实世界的应用程序通过探索三个额外的挑战:1)处理大而脏数据库值,2)外部知识推理,以及 3)优化 sql 执行效率。
1. large and dirty values:由于从中收集 bird 的数据库值的真实场景的性质,它们通常保留其原始且经常“脏”的格式。因此,文本到 sql 的解析器必须首先分析这些值以说明它们的非标准格式,然后再进行推理。
2.外部知识: “account.type = 'owner'” 由知识证据可以推断:“贷款条件要求账户类型应该是所有者。”
3. text-to-efficient-sql: bird 是第一个 text-to-sql 基准测试,旨在鼓励语义解析器生成不仅正确而且高效的 sql 查询。这种对效率的强调在现实世界的数据/业务分析环境中尤其有价值。
与现有的相比,bird 提出了更艰巨的挑战基准测试,因为即使是最强大的代码 lm,chatgpt,也明显低于人类表现。 bird 的出现将推动自然语言与真实数据库交互的智能化发展,为面向真实数据库场景的 text-to-sql 技术提供了进步空间,有助于研究人员开发更先进、更实用的数据库应用。
文章来源:https://bird-bench.github.io/