齐普夫定律
一个词的排位, 和它词频的乘积, 近乎是一个常数.
比如汉语, 「的」字最常见, 排位第一, 字频约为6%, 于是 1x6%=6%; 第二高频字为「是」, 字频约为3%, 2x3%=6%; 第三是「一」, 字频约为2%, 3x2%=6%.
2/8定律是齐普夫定律的一个特例, 今天, 齐普夫定律被认为是自然界的普遍规律.
齐普夫定律在低频词上有个出乎意料的特点, 词频乘以那个词频的词的数量, 也近乎是一个常数. 比如在一个词汇表中, 大量的词只出现一次, 但是这些词的总数甚至占到词汇表一半左右, 大量出现两三次的词, 总数也不少.