PHASE: COLLECTION

LEGACY
CODE
ARCHIVE

古いコードは骨董品。絡まった歴史が、今ようやく面白くなる。

Software Antiques Collection — Where tangled history finally gets interesting.

the light is on. come in.

SCROLL
// TODO: fix this before release (2003-04-12) · /* HACK: temporary workaround for IE6 */ · # FIXME: this will break in Y2K · REM KLUDGE: don't ask why this works · ; WORKAROUND: compiler bug in Turbo Pascal 5.0 · // TODO: remove before shipping (1997-08-23) · /* XXX: whoever wrote this, I'm sorry */ · // TODO: fix this before release (2003-04-12) · /* HACK: temporary workaround for IE6 */ · # FIXME: this will break in Y2K · REM KLUDGE: don't ask why this works · ; WORKAROUND: compiler bug in Turbo Pascal 5.0 · // TODO: remove before shipping (1997-08-23) · /* XXX: whoever wrote this, I'm sorry */ · // TODO: fix this before release (2003-04-12) · /* HACK: temporary workaround for IE6 */ · # FIXME: this will break in Y2K · REM KLUDGE: don't ask why this works · ; WORKAROUND: compiler bug in Turbo Pascal 5.0 · // TODO: remove before shipping (1997-08-23) · /* XXX: whoever wrote this, I'm sorry */ ·
01

WHAT IS THIS

90 年代以前のソースコードは、AI が登場するはるか前に書かれた ソフトウェアの骨董品

誰かが手作業で打ち込み、動かし、放置し、忘れられたもの。 死蔵プラットフォームに眠るそれらを、消える前に収集し、 創造的な使い方を探る。

“Clean OSS is edited literature. Legacy code is field recordings.”

まず集める

消える前に、静かに

面白い使い方を探す

創造的に、制約なく

答えはあとから

読み解く時間そのものが価値

02

INTERESTING NUMBERS

27B

unique source files

Software Heritage

220B

lines of COBOL

still in production

30-50%

industrial dead code

nobody understands

50%+

OSS projects die

within first 4 years

6.6yr

code half-life

Linux Kernel

4mo

code half-life

Angular (20x shorter)

3x

more predictable

code vs English

03

COLLECTION SOURCES

AGoogle Code Archive1.4M projects2006 - 2015PRIORITY
ACodePlex Archive108K repos2006 - 2017ARCHIVED
ASourceForge~500K projects1999 - presentACTIVE
BGitHub AbandonedMillions2008 - presentFILTERING
CAcademic Code∞ (74% broken)VariousRICH SPAGHETTI
DGovernment OSS17K+VariousPUBLIC DOMAIN
ERetro / DemosceneCultural heritage1980s - 2000sHISTORICAL
04

WHAT WE MIGHT DO

まだ決めなくていい。集めてから見えてくるものがある。

01

TODO Archaeology

コメントに刻まれた開発者の苦悩の化石記録。誰もやっていない。

NOVELTY 10/10LOW COST
02

Code Archaeology AI

不明なコード片の年代・起源・文脈を推定する骨董鑑定士。

NOVELTY 10/10
03

Software Natural History

パラダイムの興亡を 20 年分のコードで追う。進化の自然史。

ACADEMIC
04

Before / After Pairs

スパゲッティ→きれいの対訳コーパス。眺めるだけで面白い。

FEASIBILITY 9/10
05

Code Sonification

古いコードのリズムや構造を音楽に変換。レガシーの「音」を聴く。

CREATIVE
06

Legacy Whisperer

きれいなコードしか知らない AI に汚いコードを食わせたら?

HIGH IMPACT

☙ FOUND IN: payroll_calc.c — last modified 2003-04-12

// ============================================
// FIXME: this workaround has been here since 1998
// Original author: unknown (left company in 2001)
// Last modified: 2003-04-12
// Nobody knows why removing this breaks payroll
// ============================================
if (month == 2 && day > 28) {
    day = 28; // TODO: handle leap years properly
    // HACK: just... don't deploy in February
}
// See you space cowboy...

こんなコード、眠ってませんか? 読み解くのは、わりと得意です。

05

COLLECTION PIPELINE

01

DISCOVER

API / Archive index

02

CLONE

--depth 1

03

EXTRACT

Metadata + cloc

04

SCAN

Smells + Secrets

05

STORE

Parquet + Raw

06

FAQ

よくある質問

Q01Legacy Code Archiveとは何ですか?+

消えゆく90年代以前〜2000年代のソースコードを系統的に収集・保存するソフトウェア考古学プロジェクトです。Google Code Archive、CodePlex、SourceForge等の死蔵プラットフォームに眠るコードを、消える前に収集し、創造的な使い方を探ります。

Q02どのようなコードを収集していますか?+

主にAI登場以前(Pre-AI時代)に書かれたソースコードが対象です。Google Code Archive(140万プロジェクト)、CodePlex Archive(10.8万リポジトリ)、SourceForge(約50万プロジェクト)、GitHub放棄リポジトリ、学術コード、政府公開OSS、レトロ/デモシーン(1980年代〜2000年代)などから収集しています。

Q03なぜ古いコードに価値があるのですか?+

古いコードはAIの学習データに含まれない「ソフトウェアの骨董品」です。TODOコメントには開発者の苦悩が化石のように刻まれ、コードスメルのパターンは現代のソフトウェア品質向上に活かせます。また、パラダイムの変遷を20年分のコードで追うことは、ソフトウェア工学の自然史として学術的価値もあります。

Q04収集したコードはどのように活用されますか?+

TODO Archaeology(コメントの化石記録分析)、Code Archaeology AI(コードの年代・起源推定)、Software Natural History(パラダイム変遷研究)、Before/Afterペアデータセット(リファクタリング前後の比較)、Code Sonification(コード構造の音楽化)、Legacy Whisperer(汚いコードを理解するAI訓練)など、研究・創作の両面で活用を構想しています。

Q05コードの提供や情報提供はできますか?+

はい。古いコードベースの情報提供、共同研究のご提案、収集ソースの紹介など歓迎しています。お問い合わせフォームから「Legacy Code Archive(ソフトウェア骨董品収集)」を選択してご連絡ください。公開リポジトリで明示的なライセンスがあるコードのみを対象としています。

Q06Software Heritageなど既存の取り組みとの違いは?+

Software Heritageは27B以上のソースファイルを保存する大規模アーカイブです。Legacy Code Archiveは保存だけでなく、古いコードの「創造的活用」に焦点を当てています。TODOコメントの考古学的分析やコードの音楽化など、骨董品を鑑賞し新しい価値を見出すアプローチが特徴です。

GET IN TOUCH

興味を持ったら、話しましょう。

収集や研究の話はもちろん、「このコード、何とかしてほしい」というご相談もお受けしています。

CONTACT US

LEGACY CODE ARCHIVE

骨董品屋の主人は説明しない。

「これ、いいでしょう」と言うだけ。