Rabin-Karp 算法

Published: Sun Feb 15 2026 | Modified: Tue Mar 03 2026 , 3 minutes reading.

Rabin-Karp：数字指纹

算法背后的故事：印章的效率

在古代，如果国王想要验证一封信的真实性，他不会先读完整封信。他会先看信封上的 火漆印章。如果印章与他的印戒吻合，他就能瞬间确认信件的真实性。

1987 年，Michael O. Rabin 和 Richard M. Karp 将这一古老的智慧应用到了计算机科学中。他们意识到，逐个字符地比较字符串是缓慢的，但比较两个数字却是瞬间完成的。

他们设计了一种方法，将任何字符串转换为一个唯一的“数字”（哈希值）。如果数字匹配，那么字符串很可能匹配。这让字符串搜索从一个语言学问题变成了数学问题。

为什么需要它？

Rabin-Karp 在 多模式搜索 和 剽窃检测 中大放异彩。

论文查重： 如果你想检查一个学生是否从 10,000 篇不同的文章中抄袭了一个段落，Rabin-Karp 可以通过比较哈希值，一次性扫描所有文章。
入侵检测： 在单次扫描网络数据包的过程中，同时寻找数千个已知的病毒特征。
滚动哈希 (Rolling Hash)： 它是 rsync 的核心，允许它在不发送整个文件的情况下，快速找出文件的哪些部分发生了变化。

算法是如何“思考”的

这个算法像是一个精通 滚动哈希 (Rolling Hash) 的数学家。

指纹 (哈希)： 它将模式串 apple 转化为一个数字，比如 12345。
滑动窗口： 它在文本上滑动一个长度为 5 的窗口。
- “hello” $\to$ 56789 (不匹配)
- “world” $\to$ 43210 (不匹配)
“滚动”魔术： 这是最核心的秘密。为了计算下一个窗口的哈希值，它不需要重新读取所有 5 个字符。它通过数学方法 “滚出” 第一个字符，并 “滚入” 新字符。 新哈希 = (旧哈希 - 首字符贡献) * 基数 + 新字符。这使得每一步的哈希计算复杂度都是 $O(1)$ 。
最终验证： 如果哈希值匹配，它会进行一次快速的逐字符检查，以 100% 确保没有发生“哈希冲突”（即两个不同的字符串产生了相同的数字）。

工程决策：并行计算的力量

Rabin-Karp 的精妙之处在于它将字符串匹配转变成了 GPU 或 专用芯片 非常擅长的数学运算。

复杂度： 平均情况为 $O(N + M)$ ，但它允许你在几乎相同的时间内搜索 K 個模式串。
权衡： 它对哈希函数的选择非常敏感。如果哈希函数选得不好，会产生太多的“虚警”（冲突），导致速度急剧下降。

实现参考 (Python)

def rabin_karp(text, pattern):
    n, m = len(text), len(pattern)
    if m > n: return -1
    
    # 一个简单的滚动哈希 (多项式滚动哈希)
    base = 256
    prime = 101 # 使用一个素数来减小冲突并保持哈希值在合理范围
    
    p_hash = 0 # 模式串的指纹
    t_hash = 0 # 文本当前窗口的指纹
    h = pow(base, m - 1) % prime # 最高位字符的权重
    
    # 1. 生成初始指纹
    for i in range(m):
        p_hash = (base * p_hash + ord(pattern[i])) % prime
        t_hash = (base * t_hash + ord(text[i])) % prime
        
    # 2. 滑动与滚动
    for i in range(n - m + 1):
        if p_hash == t_hash:
            # 3. 最终验证（排除哈希冲突）
            if text[i:i+m] == pattern:
                return i
        
        if i < n - m:
            # 4. 滚动数学：踢出旧字符 text[i]，加入新字符 text[i+m]
            t_hash = (base * (t_hash - ord(text[i]) * h) + ord(text[i+m])) % prime
            if t_hash < 0: t_hash += prime
            
    return -1

# 使用示例
# print(rabin_karp("AABAACAADAABAABA", "AABA")) # 输出: 0

小结

Rabin-Karp 教会我们：抽象是一种捷径。通过将复杂的数据转化为简单的数字，我们可以以数学的速度处理这个世界。它提醒我们，有时候，了解一张脸最好的方式是查看它的指纹。

Luke Sun