V červnu 2020 OpenAI publikovalo článek, který přetvořil trajektorii umělé inteligence: „Language Models are Few-Shot Learners." Představil GPT-3, jazykový model se 175 miliardami parametrů — více než 100krát větší než jeho předchůdce GPT-2 — který prokázal úžasnou schopnost provádět úkoly, na které nebyl nikdy explicitně trénován, jednoduše na základě několika příkladů v promptu (Brown et al., 2020).
GPT-3 dokázal psát koherentní eseje, generovat funkční kód, překládat mezi jazyky, odpovídat na trivia otázky, tvořit poezii a dokonce provádět základní aritmetiku — to vše bez jemného doladění pro specifický úkol. Tato schopnost, nazvaná „few-shot learning," znamenala, že jediný model mohl fungovat jako univerzální jazykový nástroj.
Schopnosti modelu se vynořily jako důsledek škály. Výzkumníci pozorovali, že zvětšování jazykových modelů přináší hladké, předvídatelné zlepšení výkonu — „škálovací zákony." GPT-3 ale ukázal něco více: určité schopnosti se vynořily na úrovni škály, které v menších modelech chyběly. Tento objev spustil „škálovací hypotézu" pohánějící masivní investice do stále větších modelů.
Reakce byla elektrizující. Vývojáři vytvářeli aplikace připomínající sci-fi: AI-generované blogové příspěvky klamoucí lidské čtenáře, generátory kódu stavějící webové stránky z přirozeného jazyka. The Guardian publikoval komentář napsaný zcela GPT-3 v září 2020, vyvolávaje globální debatu o AI autorství.
GPT-3 také vykrystalizoval obavy definující následující AI debatu. Trénování modelu stálo odhadem 4,6 milionu dolarů a vyžadovalo výpočetní zdroje dostupné jen hrstce organizací. Model reprodukoval předsudky z trénovacích dat a jeho sebejisté ale někdy divoce chybné výstupy předznamenaly problém „halucinací." GPT-3 byl tak dokonalým ztělesněním hořkosladké povahy AI: mimořádná schopnost propletená s mimořádným rizikem.
Klíčové zdroje
- Brown T.B. et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
- The Guardian (2020). A robot wrote this entire article.
- Kaplan J. et al. (2020). Scaling Laws for Neural Language Models.