笑不活了,“日本最高性能AI模型”,是DeepSeek V3改了个名?_Rakuten_Apache_config
文 | 字母AI
文 | 字母AI
好家伙……我真的是直接好家伙!
3月17日,楽天(乐天)集团正式发布了Rakuten AI 3.0模型,号称是“日本国内最大规模的高性能AI模型”。官方宣传的参数量为约7000亿,并且日语特化,Apache 2.0开源许可,还拿了日本经产省和NEDO的GENIAC项目补助。
然而就是这样一个日本国民级的AI模型,不到12小时,爆出惊天大雷。
当天下午,有人打开了Rakuten AI 3.0在Hugging Face上的config.json。
第一行配置,architectures(架构)字段,赫然写着一个在中国家喻户晓的模型:DeepseekV3ForCausalLM.
而model_type字段为deepseek_v3。
也就是说,这个日本“国内最大规模的高性能AI模型”,正是DeepSeek V3。
01
事情的发现过程没有任何技术门槛。
Rakuten AI 3.0发布后,模型权重按惯例上传到了Hugging Face的楽天官方仓库。
任何人点进去,切到“Files and versions”标签页,打开config.json就能看到。
这个config.json是每个大模型都有的配置文件,记录着模型的架构信息。
architectures字段写的“DeepseekV3ForCausalLM”,意思是这个模型使用的是DeepSeek V3的因果语言模型架构。
不是“参考”,不是“借鉴”,是直接声明了模型类别。
往下看,hidden_size是7168,intermediate_size是18432,num_hidden_layers是61,n_routed_experts是256,vocab_size是129280。
这些数字和DeepSeek V3的原版配置一模一样。
说实话,真的是演都不演了。而且现在DeepSeek已经更新到V3.2了,V3幻觉太高,其实不怎么好用的。
难怪楽天的Rakuten AI 3.0号称“参数量约7000亿”,因为DeepSeek V3的参数量就是6810亿。
Hugging Face的模型页面上,标签栏里甚至直接挂着“deepseek_v3”的标签。这不是网友后加的,是模型上传时系统根据config自动生成的。
楽天自己的说法是基于开源社区最优秀的模型开发。
这句话写在官方新闻稿里,还写在Hugging Face的模型卡片里,也写在楽天集团的PR Times新闻通稿里。从技术角度讲,这句话没有说谎。
改了个名字确实也算是开发。
DeepSeek V3是开源模型,许可证也允许这么做。楽天在此基础上用自己的日语双语数据做了微调和优化,这个流程在业界很常见。
但问题在于,楽天在所有对外宣传中,从未提及“DeepSeek”这三个字。
新闻稿里没有,模型卡片的描述里没有,接受媒体***访时也没有。
所以当有人把config.json的截图贴到 X(原Twitter)上时,评论区的反应可想而知。
02
最先传播开来的是一张截图:Hugging Face上Rakuten AI 3.0的config.json 页面,architectures字段里的“DeepseekV3ForCausalLM”被蓝框高亮圈出。
截图下面,有人只写了两个词加一个问号:“deepseek V3?”
这条帖子被迅速转发到Impress Watch的报道推文下面。
Impress Watch是最早报道 Rakuten AI 3.0 的日本科技媒体之一,它的推文本来是一条普通的新闻转发,评论区却变成了另一番景象。
一个叫Ryu的用户写道:“日本终于到了用中国AI冒充日本产AI的时代了吗?”
底下的日语评论普遍都是骂街的,中文评论都是看乐子的,在这里我也就不放出来了,大家自行想象一下那个场景就好了。
诚然,严格来说,楽天没有违反任何规则。DeepSeek V3的开源许可允许商业使用和二次开发,在开源模型基础上做微调也是行业通行做法。
可是这事并没有那么体面。
2025年DeepSeek爆火的时候,日本媒体给它起了个名字,叫“AI界的黑船***”。
黑船是 1853 年美国海军准将佩里率舰队强行叩开日本国门的历史***,在日语里专门用来形容外来力量对日本造成的巨大冲击。
把一个中国的AI产品比作黑船,这个措辞本身就说明了很多。
日本***的反应很快。2025年2月初,日本数字大臣平将明公开表态,称在安全疑虑消除之前,日本公务员应避免使用DeepSeek,或者在使用时格外谨慎。
他特别提到了个人信息保护的问题。随后,日本***向各省厅发出警告,要求不要在***设备上使用DeepSeek。
企业层面的动作更直接。
丰田汽车明确禁止员工使用DeepSeek,官方理由是“出于信息安全的考虑”。三菱重工同样实施禁令,即便员工提交内部申请也不会被批准。
软银则限制了公司内部对 DeepSeek 的访问,并禁止员工在工作设备上下载和使用。
可是现在……你怎么让我忍得住不笑啊!返回搜狐,查看更多
同类文章排行
- 微服务api gateway选择tyk还是kong,或者其他方案?
- 理论上flutter性能应该非常高才对,为什么好些flutter应用性能一般?
- 为什么macOS软件生态不敌Windows?
- 山东科技大学2025综合评价招生面试禁用红米手机考试,工作人员回应称「属实」,原因可能是什么?
- 为什么说微软 Win11,有苹果 macOS 的感觉?
- 《诛仙》作者萧鼎于近日修改《诛仙》原作并大量删去碧瑶戏份,如何看待这一行为?
- 前男友醒了不告诉我,是前男友的错还是我无理取闹了?
- 2025年,歼16与美军机50分钟缠斗,为什么知乎上没有任何消息?
- 做客孩子临走时带走几只玩具,我的孩子抗拒并一直哭,要怎么开导?
- 湖南临澧烟花厂爆炸事故已致 9 人遇难 26 人受伤,事故原因可能是什么?厂方要承担哪些法律责任?
最新资讯文章
- 有没有免费的云服务器?
- 你做过最抽象的事情是什么?
- 美国不交房产税会被赶人收房,那所谓的永久产权还有什么意义?
- 独立站怎么阻止别人盗我的产品?
- 牙齿是tooth,医生是doctor,那为什么牙医不是tooth doctor,而是dentist ?
- 能分享一下你写过的rust项目吗?
- 你有哪些对未来的预测?
- 如何看待《三角洲行动》中***配件不能赛保险这一行为?
- DF-41已经可以打击美国本土,这是否相当于古巴导弹危机常态化?
- 如果全球都停止出口粮食,中国能否自给自足?
- 涉密计算机可以用windows10操作系统吗?
- H264和H265谁画质好,求回谢谢!?
- 北京日报点名批评“苏超”过度娱乐化的动机是什么?
- 中国承诺不开第一枪,那如果中美开战,美国直接摧毁北斗卫星,中国该如何反败为胜?
- 《西西里美丽传说》女主角,在当时打扮这么高调,不觉得带给自己很多不便吗?如何理解她的心态?
- 以色列为什么突然敢打伊朗了?不怕被报复?
- 女主播和榜一大哥现实碰面会做什么?
- Golang中有必要实现Async/Await吗?
- 前男友醒了不告诉我,是前男友的错还是我无理取闹了?
- 如何看待日本小学校园餐只有一小块鸡肉?





