用DB2 pureXML执行不区分大小写的高效搜索

清单 4 中使用的排序规则名包含两个属性：LEN 和 S2。LEN 是 L（语言）和 EN（英语的 ISO 639-1 语言编码）的组合。第二个属性 S2 指定强度级别，这决定在字符串排序或比较时是否考虑大小写或重音符号。在清单 4 中使用强度级别 2，所以 “PARIS” 和 “paris” 是相等的。下面是其他有效值的示例：

UCA500R1_LEN_S1 导致 "cliche" = "Cliche" = "cliché"

UCA500R1_LEN_S2 导致 "cliche" = "Cliche" < "cliché"

UCA500R1_LEN_S3 导致 "cliche" < "Cliche" < "cliché"

在 DB2 Information Center 中可以找到可以作为 UCA 排序规则名的所有组合（参见参考资料）。

在不区分大小写的数据库中查询 XML 数据

因为此数据库使用排序规则名 UCA500R1 和强度级别 2，所以现在可以简化前面的查询，去掉 fn:upper-case() 函数（清单 5），就像所有数据都是大写的一样。无论搜索字符串是 “Paris” 或 “PARIS” 还是其他任何大小写组合，结果都是相同的。

清单 5. 选择 Paris 的客户

   
SELECT id, XMLCAST( XMLQUERY('$XMLDOC/Customer/city') AS VARCHAR(15)) AS city
FROM customer
WHERE XMLEXISTS('$XMLDOC/Customer[city = "PARIS"]');

图 2. 示例查询的结果

如果通过添加 ORDER BY 子句按提取的 city 值排序，那么结果集仍然是相同的：PARIS、paris 和 Paris 被当作相同的值。

为了高效地查询此数据，尤其是在表中行数很大的情况下，应该用 XPath /Customer/city 创建一个 XML 索引，见清单 6：

清单 6. 创建 XML 索引

  
CREATE INDEX customer_lang_idx ON test (xmldoc)
GENERATE KEY USING XMLPATTERN '/Customer/city' AS SQL VARCHAR(15);

现在，如果用 Visual Explain 或 db2exfmt 解释此查询，就会看到这个不区分大小写的搜索使用了索引：

图 3. 在不区分大小写的数据库中查询 Paris 的所有客户的 Explain Plan

本节介绍的方法有一个潜在的缺点：整个数据库中所有表中的所有列中的所有数据都是不区分大小写的。不可能以区分大小写的方式处理特定的表或列。要么都区分大小写，要么都不区分。

注意，不区分大小写只应用于元素和属性值，而不应用于标记名本身。XML 标记和路径表达式仍然是区分大小写的。例如，XPath 表达式 /Customer/city（小写 “c”）和 /Customer/City（大写 “C”）是不同的。后者不匹配示例数据中的任何元素，因为示例数据中的元素名是小写的。

性能

在数据库中使用定制的排序规则可能影响查询性能，因为在选择更宽松的 UCA 设置时，匹配的字符串数量可能会增加。换句话说，在不区分大小写的数据库中，字符串比较的开销可能会略微增加。为了查明区分大小写的和不区分大小写的数据库之间的性能差异，我们创建了一个常规数据库（区分大小写）和一个不区分大小写的数据库。然后，插入来自 TPoX 基准测试的 20,000 个 CustAcc 文档并在这两个数据库中对各种查询进行测试。

对于只涉及少量到中等数量的行的查询，两个测试数据库之间的性能差异可以忽略不计。我们发现涉及大量行的查询的性能差异比较大，比如对所有 20,000 个 XML 文档进行全表扫描并对每个文档比较字符串。在不区分大小写的数据库中，这种查询花费的时间增加了 5% 到 8%。因此，实现不区分大小写的搜索需要付出的代价并不大。

结束语

以不区分大小写的方式搜索 DB 2 数据有多种方法，比如使用生成的列（请参见参考资料）。尽管这些方法都适合关系数据，但是不适合查询 XML 数据。以不区分大小写的方式处理 XML 数据的最佳方法是用定制的 Unicode 排序规则创建数据库。这使数据库中的所有字符串值比较都采用不区分大小写的方式，避免妨碍使用 XML 索引和关系索引。由于不区分大小写或重音符号，会增加匹配的字符串，但是增加的开销非常低。

2/2 首页上一页 1 2

用DB2 pureXML执行不区分大小写的高效搜索

techsir