Monday, June 8, 2009

つくづくソフトウェア業界を、従来の枠組みだけで見ちゃいけないと思う。

今月の11日だったかな、New York Timesが、Rubyのライブラリをオープンにしたことを発表した。


New York Timesと言えば、Amazon EC2とS3を使って、過去130年分の記事データを、たった一日でPDF化して、かけたコストが滅茶苦茶安かったと評判になった会社。短時間で終わった理由は、Hadoopを使って100台の仮想サーバーをぶんまわしたから。Hadoopの並列処理機構をつかったので、台数が増えると性能が上がるという訳。聞いたところによると、従来の手法を使ったら、完成に数ヶ月かかったとか。しかも、かけたコストは、20万円もしなかったとか。

しかも開発したのは、たった一人のエンジニア。

そんな経験を活かして、ノウハウをRubyで実装し、オープンソースにしたのが、mrtoolkit。

いわゆる大規模なバッチ処理を、一人で作って。Amazon使って、多分インフラ構成するのに数時間。データ送り込むのに数時間。処理するのに数時間。終わったデータ受け取るのに数時間。

「人月の神話」どころの話じゃないよな。

Groovin’ High: New York Timesが公開したオープンソース

まだ1次情報に当たってないけど… そんな短時間で全記事PDF化したんだ。

(via micamica) (via yamato) (via petapeta)

(via undercurrents)