就比如狗这个词,与之最相近的就是猫,猪,牛,马等。
而在此之外,还有距离更远一些的词。
当然,它和狗组成有意义的词的概率,就更低了。
这些词的相关性,是基于维基百科的数据统计得来的。
显然,每一个词都会被一堆无意义的词围绕。
那么想让大模型智能化,只能先将数据量堆上去再说。
每个词在大模型的n维空间里,都有自己的位置。
而决定这个词的真正意思,由上下文来决定。
但这个词围绕的量太大了,怎么办呢,在当年最初的时候用了一个变压器transformer。
理解人们说出来这句话的意思,将每个字都向量化。
假设是十个字,那么就生成10个768个数字的数列。
然后喂给transformer,输出后,再输入给第二层transformer,如此重复,不断地深化理解。
一共96层。
简单说就是每个词成为768个数字,穿越96层,每层9216次操作。
但是在后来,一个词的向量从768升级到了12288个数字的数列。
然后重复96次,数据量直接爆炸到人类无法想象的唯独。
其实在了解大模型的时候,楚月已经不相信人脑是自然进化而来的了。
一个12288数列的向量词,在进入第一层transformer之后,中间的隐藏层有49152个神经元。
也就是说,在进入第一层transformer再出去,已经获得了12亿个权重的参数。
可怕吗,这才第一层,还有95层。
最后出来的结果,有1750亿个。
而这,只是一个词。
而大模型就是,在这1750亿个通道里,找到最准确,最符合正确意思同往下一个词。
而恐怖的地方就在于,大模型确实是人类造的,但是至今没有任何一个人或者团队,能理解它到底是如何实现的?
自此,人工智能开始成为一个黑箱。
没有人能知道它究竟是怎么理解人所说的话的,但它就是理解人类了。
传统的人工智能,是程序员编写,根据人类的逻辑去进行运转。
但大模型,完全是自主自发行为,它是自己去找到人们所说的话真正含义。
(说的比较简单,有兴趣可以自己研究一下,不在赘述。)
就像这个游戏一样,或许一开始它是可控的,还是设计师原型师笔下的产物。
可是忽然有一天,它自己进化了。
就像大模型一样,它自己升级自主进化,成了人们完全理解不了的东西。
所以游戏才会失控,所以这里的世界,才会是真实的世界。
因为它早就——
成为真实的世界了。
“叮铃铃。”
楚月的手机响了。
她当下手中的面包,接听了电话。
“您好,我是xx公司的HR,恭喜您通过了最后一场面试。”
“请在明天十点前准时到公司报告,办理入职手续。”
楚月的眼眸微微弯起。
看来很顺利。
“好的,我知道了。”
.
...