阿里达摩院联合hku推出text-m6米乐安卓版下载

通讯员 1小时前

文本到sql解析(英文缩写为text-to-sql)，旨在将自然语言指令转换为可执行的sql语句，近年来吸引了越来越多的关注。特别是codex和chatgpt在这项任务中取得了令人印象深刻的结果。然而，大多数基准任务(如蜘蛛和维基sql)专注于数据库表结构的少量数据库内容，导致学术研究和实际应用之间存在差距。

为了弥补这种差距，阿里巴巴联合香港大学等机构推出了 bird（ (big bench for large-scale database grounded text-to-sql evaluation)），一个大规模的数据库基准，基于文本到sql任务，包含12,751对文本到sql数据对和95个数据库，总大小为33.4gb，跨越37个职业领域。

作者强调数据库价值，突出了脏数据库内容的新的挑战、自然语言问题和数据库内容的外部知识，以及sql效率，特别是在大规模数据库的背景下。为了解决这些问题，文本到sql模型必须包括数据库价值理解，而不是语义解析。实验结果证明了数据库价值在生成准确大数据库文本到sql语句中的 significance。此外，即使最先进的文本到sql模型(如chatgpt)仅实现40.08%的执行准确性，仍然远远落后于人类的92.96%，证明仍然存在挑战。此外，作者还提供了效率分析，以提供对生成对行业有益的高效sql文本的 insights。相信， bird将促进推进文本到sql研究的实际应用场景。 leaderboard和源代码可在以下httpsurl获得。

米乐app官网下载主页：https://bird-bench.github.io

代码：https://github.com/alibabaresearch/damo-convai/tree/main/bird

来自 bird 的惊喜

bird 缩小了文本到 sql 研究之间的差距和现实世界的应用程序通过探索三个额外的挑战：1）处理大而脏数据库值，2）外部知识推理，以及 3）优化 sql 执行效率。

1. large and dirty values：由于从中收集 bird 的数据库值的真实场景的性质，它们通常保留其原始且经常“脏”的格式。因此，文本到 sql 的解析器必须首先分析这些值以说明它们的非标准格式，然后再进行推理。

2.外部知识： “account.type = 'owner'” 由知识证据可以推断：“贷款条件要求账户类型应该是所有者。”

3. text-to-efficient-sql： bird 是第一个 text-to-sql 基准测试，旨在鼓励语义解析器生成不仅正确而且高效的 sql 查询。这种对效率的强调在现实世界的数据/业务分析环境中尤其有价值。

与现有的相比，bird 提出了更艰巨的挑战基准测试，因为即使是最强大的代码 lm，chatgpt，也明显低于人类表现。 bird 的出现将推动自然语言与真实数据库交互的智能化发展，为面向真实数据库场景的 text-to-sql 技术提供了进步空间，有助于研究人员开发更先进、更实用的数据库应用。

文章来源：https://bird-bench.github.io/

数据库

最后修改时间：2023-06-08 11:01:15

「喜欢文章，快来给作者赞赏墨值吧」

关注

文章

粉丝

浏览量

阿里达摩院联合hku推出text-m6米乐安卓版下载

来自 bird 的惊喜

评论