not enough memory

i have not enough memory to remember everything i have seen. ku0522a*gmail.com

NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。

これを行うのに次の構成をとったそうだ:PDF変換にiTextを用いる。変換するマシンはAWS上の100インスタンスをHadoopでMapReduce構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。

- wrong, rogue and log - 大規模インフラ個人運用:AWS+Hadoopの成功例 (via abuf)
Page 1