2012/05/16

Wikipedia英語タイトルも格納してみた

Wikipedia英語版のタイトル一覧(2012/4/3版。9,310,564エントリ)も格納して、サイズ測ってみました。
実装配列要素数(base/check等)TAIL配列要素数全体サイズ
OptimizedTailCompactionDoubleArray12,710,31115,699,525162,867,250

各種トライの性能を比較した記事「2011-01-10 marisa-trie 強いな」と比較してみると、エントリ数が1.5倍弱になってることを考慮して、darts-cloneに近いメモリ効率をたたき出してると思う。ただdarts-cloneはTAILをDAWG(Directed Acyclic Word Graph)で保持してるようなので、今のトライ使ったTAIL圧縮だと勝てないかも知れない。あと文字をcharで保持してたり、違いはいろいろ。まぁこっちはJavaなので既に速度的にはだいぶ水開けられてるし(Corei72.5GHzで24秒程度)、元よりあまり有効な比較にはならないかも知れない。構築途中で1.3GBくらいメモリ消費するしねー。
コメントを投稿