哈希函数(Hash Function,意译为 “散列函数”)是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据计算成摘要 (Digest),使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做哈希值(Hash value,又叫散列值)的指纹。
麦当劳售卖薯饼 (Hash Brown) 早餐,即将一整个马铃薯削成丝状,再将丝状马铃薯重新油炸成一整个薯饼。由于本质上是将原先的一个整体打散再重新组合且过程不可逆,正好符合该类算法的设计思路,于是称该类算法为哈希 (Hash) 算法。
由于哈希算法所计算出来的哈希值具有不可逆的性质,因此可有效的保护密码。
哈希算法的基本性质
出于密码学目的,哈希函数通常需要具备以下特性:
-
确定性输出:给定输入 A(如 "I love cats"),每次哈希 A 都会得到相同的输出。
-
扩散性:输入的微小变化会导致输出的巨大变化。例如,"I love cats" 和 "I love kats" 的哈希值完全不同,无法相互识别。
-
不可预测性:哈希结果应该是完全不可预测的;在生成的哈希值中不应存在可识别的模式。
-
不可逆性:无法通过给定的哈希值重构有效输入,因此唯一验证输入是否对应哈希值的方法是穷举法(暴力破解!)。
-
抗碰撞性:找到产生相同哈希值(或部分匹配哈希值)的两个输入应该非常困难。
Note如果两个散列值相同,两个输入值并非必定是相同的。当两个散列值相同,但两个输入值不同时,这种情况就称为散列碰撞 (Collision),这通常是两个不同长度的输入值,刻意计算出相同的输出值。
不抗碰撞的哈希函数会完全破坏算法。
理论上,一个良好的哈希函数应该是不可碰撞的,但是 MD5、SHA-1 等早期哈希算法已经被证明可碰撞,因此这些算法已经不再推荐用于加密,而是用于验证文件完整性等非加密用途。
大多数哈希算法的输出具有固定长度。由于所有输入本质上都是信息比特流,我们实际上是将任意长度的比特序列转换为看似随机的固定长度比特序列。
下面介绍几种常见的哈希算法。
MD5
MD5 信息摘要算法 (MD5 Message-Digest Algorithm) 是 MD 系列算法的最常见版本。算法会生成一个 128 位的哈希值(长度为 32 的十六进制值)
用伪代码表示为:
1 | // : All variables are unsigned 32 bit and wrap modulo 2^32 when calculating |
不需要手写 MD5 算法过程。主流的加密库早已支持 MD5 加密。
MD5 算法于 1993 年发现 “伪碰撞”,1996 年发现部分碰撞。2004 年,中国的王小云教授宣布发现了 MD5 的完整碰撞,该算法被证明不具有抗碰撞性。
目前破解 MD5 算法的方法就是查字典,比如 CMD5。
虽然 MD5 不再建议用于加密用途,但由于它比 SHA 系列更方便计算,因此仍有很多人将 MD5 用于非加密用途。
SHA-1
破解方法
由于 Hash 几乎无法逆向,因此我们一般使用穷举(爆破)方法解决 Hash 函数。
首先,一些比较简单的 Hash 可以从已有数据库中查询到原文。这是最简单且快速的方法了,如果一个查不到可以试试其他网站,本地也有像 Hashcat 这样的工具。
但对于 CTF 而言,出题者多半不会让你如此无脑得逞。原文可能较长,或者含有特殊字符,基本没有已有工具会破解到这些字符串,这时就需要自己写爆破脚本了。
如果自己写破解脚本,需要通过逆向知道原文的构成规律 —— 个人计算机大概率是无法承受完全穷举的工作量的,所以我们需要有目的、有限制地爆破 Hash。下面举几个例子:
L3HCTF 2025 - TemporalParadox
flag 形式为 L3HCTF{sha1(query string)}
本题需要得到 “上一次的查询字符串 (query string)”,这个字符串的 MD5 是 8a2fc1e9e2830c37f8a7f51572a640aa
,这个 MD5 应该是没有已知数据库有记录的,因此需要我们自己爆破。
如果我们直接运行