4小时写诗,12小时超越GPT-2,AI大牛卡帕西开源“ChatGPT平替”!_每日报道
2025-10-14 17:05:06
来源:
智东西
智东西编译|王涵编辑|漠影智东西10月14日消息,昨夜,前特斯拉人工智能
智东西
编译 | 王涵
编辑 | 漠影
(资料图)
智东西10月14日消息,昨夜,前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西(Andrej Karpathy)开源nanochat,号称可以只用不到100美元(约合人民币711.5元)训练出“简易版ChatGPT”,一经发布在GitHub上就获得了5.6k星。
▲nanochat Github主页(来源:Github)
开源地址:
Github:https://github.com/karpathy/nanochat
与其早期只涵盖预训练的nanoGPT不同,nanochat是一个极简的、从零构建的全栈训练/推理流程,用最精简的依赖代码库实现了“简易版ChatGPT”。
▲安德烈·卡帕西(Andrej Karpathy)推文截图(来源:X)
卡帕西在评论区中回复称,nanochat的基本架构类似Meta的Llama,但有所简化,并吸收了modded-nanoGPT的一些改进。
他还透露,截至指令微调(SFT)阶段,整个训练耗时3小时51分钟,总成本为92.4美元(约合人民币657.4元),“这样我们甚至还能剩下8美元买个冰淇淋犒劳自己。”他开玩笑道。
值得注意的是,由于目前对强化学习(RL)的支持尚不完善,卡帕西称他并未将其计入总运行时间。
也就是说,开发者只需启动云GPU实例,运行单个脚本,只需不到100美元(约合人民币711.5元),最快4小时,就能训练出可进行简单对话、创作故事诗歌、回答基础问题的“简易版ChatGPT”。
训练约12小时,模型即可在评估模型推理能力、知识基础等基础能力的CORE指标上超越GPT-2。卡帕西还透露,当投入提升至约1000美元(约合人民币7114.7元),训练41.6小时后,模型表现还将显著提升,能够解决基础数学/编程问题并通过选择题测试。
例如,深度为30的模型训练24小时(相当于GPT-3 Small 125M的计算量,约为GPT-3的千分之一)后,在多任务的语言理解基准MMLU得分超40分,在简单常识推理任务ARC-Easy超70分,在数学推理能力基准测试GSM8K中获得超20分的成绩。
▲nanochat性能表格(来源:Github)
这个有着8304行代码的项目实现了以下功能:
1、使用新的Rust实现训练分词器;
2、在FineWeb数据集上预训练Transformer LLM,并通过CORE指标多维度评估;
3、使用SmolTalk的用户-助手对话数据、选择题数据和工具使用数据进行中期训练;
4、进行指令微调,在常识选择题(ARC-E/C、MMLU)、数学(GSM8K)、代码(HumanEval)等基准上评估聊天模型;
5、可选使用“GRPO”算法在GSM8K数据集上进行强化学习;
6、通过带KV缓存的引擎实现高效推理,支持简单预填充/解码和工具调用(轻量级沙箱中的Python解释器),可通过CLI或类ChatGPT网页界面交互;
7、生成单页Markdown评估报告,以游戏化方式总结全流程。
在原推文的评论区中,卡帕西还给出了一个nanochat与用户对话的案例。在这个对话中,基础版nanochat已经实现AI聊天机器人的对话功能,并且可以根据要求撰写诗歌。
▲nanochat功能演示(来源:X)
在卡帕西的推文下,网友们发出一致好评,有人称“非常受到启发”,甚至说“这个人(指卡帕西)简直是个传奇。”
▲网友评论节选(来源:X)
还有网友已经做出了nanochat的可交互实时代码图谱,能够更加直观地探索这个代码库:
▲nanochat实时代码图谱(来源:X)
结语:nanochat为AI开发成本控制路径提供参考
nanochat项目的推出,为AI模型开发的成本控制提供了新的参考。该项目证明了,在适当的架构设计和流程优化下,以100美元级别的成本实现基础对话AI功能具备技术可行性。
虽然当前版本在性能上仍与商用大模型存在差距,但其展现的性价比优势,为AI技术在更广泛场景中的应用拓展了可能性。随着开源社区对该项目的持续优化,这种高效开发模式或将为AI技术普及带来新的推动力。
[责任编辑:{haixiayule]
网罗天下
最近更新
-
4小时写诗,12小时超越GPT-2,AI大牛卡帕西开源“ChatGPT平替”!_每日报道
-
争分夺秒阻断“屏幕共享”诈骗,受骗群众12万元血汗钱保住了!-每日播报
-
今日45只个股涨停 主要集中在机械设备、公用事业等行业
-
当前热门:保险产品中的保单利益如何理解?
-
海口美兰区多家单位防蚊不力被处罚 每日信息
-
梦幻联动,世界冠军石宇奇为金铲铲冠军乱斗玩法助威 焦点短讯
-
燃气股震荡走高,国新能源拉升触板 每日热讯
-
捷翼汽车取得一种端子保护装置专利,避免端子未组装到预定位置的时间段发生磕碰而损坏端子质量
-
焦点要闻:零重力两个月内获近7亿元资本加持 A轮融资圆满收官
-
中国经济观测点丨9月新注册经营主体环比增长明显 融资规模加大
-
合锻智能连续5日涨停 公司称生产经营情况正常
-
古城遗韵
-
四季度多家银行公告处置不良资产 “百亿元级减负”在行动_每日精选
-
焦点短讯!提高门槛 完善标准 工信部修订多项汽车领域审查要求
-
南宫市泽硕汽车用品有限公司成立 注册资本10万人民币
-
感受丰收的喜悦 信息
-
最资讯丨新疆双口岸累计通行中欧(中亚)班列突破10万列
-
美股黄金股盘初走高 现货黄金站上4090美元
-
焦点快报!亚锦赛女团1/4决赛:王曼昱孙颖莎蒯曼出战亚锦赛女团
-
医渡科技(02158.HK)10月13日耗资609.20万港元回购103.08万股_焦点快播
-
快消息!中金公司(03908):“20中金12”将于10月20日本息兑付及摘牌
-
中国联通开放eSIM线上预约通道 超6万人已约-每日头条
-
当前热点NF阻垢剂商品报价动态(2025-10-13)
-
每日观点:仙坛股份:9月鸡肉产品销售收入同比增长11.95% 调理品产能释放成助力
-
哈空调:拟公开挂牌转让控股子公司富山川40%股权-当前热议
-
锦龙股份大宗交易成交372.80万股 成交额5319.86万元
-
国家金融监督管理总局大同监管分局核准崔建菊渤海银行股份有限公司大同分行副行长
-
摩比发展(00947)10月13日斥资4271港元回购2.7万股-速读
-
银行的市场研究如何影响投资策略?
-
PriceSeek提醒:中石化丙酮挂牌价降百元