Perl正则预编译：让高频匹配快上一倍

发布时间：2026-01-21 11:20:21 阅读：372 次

在写 ref="/tag/2034/" style="color:#2B406D;font-weight:bold;">Perl 脚本处理日志、解析配置或批量改文件名时，你是不是常遇到一个正则反复用几十次甚至上万次？比如从 nginx 日志里抽 IP，或从一堆 CSV 行里提邮箱字段——每次 m// 或 s/// 都得重新编译正则，白白耗 CPU。

不预编译，真会拖慢脚本

Perl 每次遇到未缓存的正则字面量（比如 m/\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}/），都会走一遍词法分析、语法树构建、优化、生成字节码的流程。这个过程在单次执行里不明显，但循环一万次？实测过，纯文本匹配场景下，预编译后耗时能从 800ms 降到 350ms 左右。

怎么预编译？就靠 qr//

Perl 提供了 qr// 操作符，把正则编译成可复用的正则对象：

my $ip_re = qr/\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}/;

之后直接当变量用就行：

while (<STDIN>) {
    if (/($ip_re)/) {
        print "Found IP: $1\n";
    }
}

注意：括号不用额外转义，qr// 里写的 (...) 就是捕获组，和普通正则行为一致。

带修饰符也一样简单

忽略大小写、多行匹配这些，直接跟在 qr// 后面：

my $email_re = qr/[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/i;

后面用 $email_re 匹配时，自动带 i 修饰符，不用再写 /.../i。

实际小案例：批量重命名日志文件

假设有一堆文件名像 app-2024-03-15-14:22:05.log，想统一改成 log_20240315_142205.txt：

use File::Basename;

my $log_re = qr/app-(\d{4})-(\d{2})-(\d{2})-(\d{2}):(\d{2}):(\d{2})\.log/;

for my $old (@ARGV) {
    next unless $old =~ $log_re;
    my ($y, $m, $d, $H, $M, $S) = ($1, $2, $3, $4, $5, $6);
    my $new = sprintf "log_%s%s%s_%s%s%s.txt", $y, $m, $d, $H, $M, $S;
    rename $old, $new or warn "rename $old -> $new failed: $!\n";
}

这里 $log_re 只编译一次，后续每个文件名都直接复用，比在循环里写 m/app-.../ 干净又快。

小提醒：别滥用

如果正则只用一两次，或者模式本身来自用户输入（比如命令行参数传进来的模糊搜索词），那就别预编译——反而增加内存开销，还可能引入注入风险。qr// 的价值，就在「固定模式 + 高频调用」这个组合里。