哈希表 - CS101 QA - Udacity

在論壇上關於 hash table 我們有很多很棒的問題一個例子是學生 Baracha 提問： "Python 如何決定當字典成長變大時，要有多少'桶' (bucket) 呢?" 這是一個重要的問題關於 hash table，還有很多、很多有趣的事情但在第五單元我們沒有談到如果記憶體是免費、廉價、而且同樣地快速無論你需要多少你寧願 hash table 愈大愈好，對嗎? 你會想要你的 hash table 裡有數十億個'桶" 然後在每個'桶'內，就不必儲存一個以上的項目但正如我們在第三單元所見，記憶體可能很昂貴速度愈快而且愈接近處理器的記憶體它的費用也愈昂貴所以你的記憶體數量非常有限這是儘量保持 hash table 小的原因這是一個艱難的權衡好的 hash table 實作嘗試為你做了權衡讓你在性能和記憶體使用上，得到適當的平衡他們根據負載因數 (load factor) 來做權衡我們確實在第四單元使用它也就是'項目的數量'除以'桶數' 我們在第五單元有一個問題， "N 除以 B" 在問題中，你看到'桶數'和'項目的數量'變化所產生的影響當你做這件事時，你必須擔心一件事如果你只看著'關鍵字數目'和'桶數' 這是平均的大小，但在許多應用中的問題更重要的是'最壞的大小' (worse size)，即使平均大小是相當小的 '最壞的大小' (worse size) 可能會比這個大得多如果對於最壞情況 (worse case) 的項目做查找 (lookup) 開始變得很糟然後你會想要更多的'桶' 或是以某種方式來改變你的 hash 函式所以，對於一個典型的 hash table 實作通常目標是要讓負載因數 (load factor) 實際上小於 1 對於 Python 的字典實作如果關鍵字的數量超過約 2/3 我認為它實際上剛好是表的大小的 2/3 這是表的大小重新做調整的點表會變成兩倍大這會改變每個字所出現的'桶' 因為我們之前看到 hash table 的結果取決於你所擁有的'桶數' 因此必須要將資料複製到新的 hash table 新的 hash table 有更多的空間，會使得查找速度更快也就是說，如果你在 hash table 有大約 100 萬個項目你會期待有 150 萬個'桶' 但當你增加到 2/3 的門檻值然後你要把'桶'的大小增為兩倍所以你最後會有 300 萬'桶'，如果你在 2/3 的門檻值上多加一個項目所以，如果你比較這個與我們在第五單元所做的你可能會驚訝它的負載因數是如此之低我們做的 hash table 範例 '桶數'非常小每'桶'有許多項目這部分是為了更容易看出到底是怎麼回事因為如果你看到一個 hash table 有上千個空'桶' 那將很難列印出來但其他的原因是我們在第五單元實作 hash table 的方式是，每個'桶'是一個列表使用列表，這是一種相當昂貴的資料結構你得建立這些空列表才能建立你的 hash table Python 字典的實作方式只是一個扁平的列表這意謂著每個 hash 值只有一個空間如果 hash 到一個特定的'桶' 只存在一個空間也就是說，如果兩個物件 hash 到相同的'桶' 你必須去做點別的事情 Python 字典實作如何處理呢你需要另一個多餘的地方來放置它你有方法來決定當第一個'桶'滿了時到那裡尋找下一個這使得查找和添加項目到表中，變得更為複雜這就是為什麼我們沒有這樣做的原因但這也意謂著，使用較少的記憶體因為你不必為這些'空桶' 存放這些空列表 "Beautiful Code" 這本書中有一章很棒談的是所有關於 Python 字典的實作所以，如果你對實際的實作感到興趣我鼓勵你看看這一章