UFO中文网

 找回密码
 注册会员
查看: 109|回复: 1
收起左侧

(自问自答) ChatGPT, StableDiffusion等,天花板在哪里?

[复制链接]
online_member 发表于 2023-2-11 07:46:57 | 显示全部楼层 |阅读模式
(自问自答) ChatGPT, StableDiffusion等,天花板在哪里?
online_member 发表于 2023-2-11 07:47:10 | 显示全部楼层
本人背景:
        表面上:某大厂人工智能科学家。
        事实上:AGI独立研究者,民科级,非自嘲,乃自知

本人自答: (2023.01)
      (纯用于个人,五年十年后,验证自己的技术判断力;故结论干脆尖锐,不符合主流.)
1. 结论:
            当前:gpt, diffusion等等一把梭的这种模型:巨大华丽有余<强大的神经网络融合了的隐式的记忆+不错的语言组织+极其有限的概率性推理<没有符号上的确定性硬推理>>,靠谱合理不足。当然基于现在的能力做合适的事情的商业是可以的,甚至很拉风。
            未来:本质上,gpt-1到gpt-3是在做大;gpt-3之后的一切技术动作,都是在弥补一把梭的的根本缺陷。坚持该路线,不能从根本上解决问题,天花板:外行看很高,内行看不高,将来看很低。

2. 民科级瞎扯:
        我们简单的把世界分为三个:
            O.1 (客观)物理世界;
            O.2 (抽象)符号世界<对客观/物理世界的表示和抽象,数学都是>;
            &
            S.1 (模拟/简化/逼近/优化/...)计算世界<我们计算机,AI在干的>。
        chatgpt等在意图搞定符号世界,自由驰骋;封闭的,没有手脚(比如api-call去和物理世界互动,全靠文字输入),限制了信息获取,输出验证,特别是商业化/产品化;全靠数据蕴含的概率,弱推理,导致不靠谱;人类语言表示的知识,恰好需要靠谱,而不仅仅是生成一个看起来完全可以交流的东西。(万精油话痨 vs. 数学家-强推理/小秘书-强调用)
        stable.ai等意图构造物理世界,自由驰骋;可能违反物理事实,而且简单生成的范式,难解。
       ---
       本质上,需要一个"强约束"的"世界模型",其必须具备两点:
1)结构化的表达:
                 NLP:语言的精确形式(比如就几个字等约束);其他结构化数据等;
                 CV: 由.obj等3D模型和.fbx等运动的表示;其他结构化数据等;
2)“准”物理世界的执行.      
                 NLP:数学计算的过程;推理问题的步骤;需要大不同的算法框架,或者从根本上修改gpt/diffusion等。
                 CV:    物理世界的仿真算法,游戏引擎,机器人直接运动,等。

通过1,2来实现强约束。以符合客观世界的关系和(广义)运动。
当然在计算世界,具体的算法设计的时候,比如想实现:端到端+自动化+大模型,可以:A)点2可以设计可微的模块,B)广义无监督/自监督来更自动化。

补充一个例子:
问题:(文字描述)
    设:有一群人,2在1右边,3在2右边,4在3右边,  ...,  1000在999右边。
    问:1000在1的(?)边?
分析:
    1. chatgpt基于训练数据在模型上的训练所得,产品一堆文字:拒绝作答;各种绕;右边;...。
    2. chatgpt不能给出为什么。
    3. 如果有省略号,人类会按照惯例,自动补齐。
    4. 当上述1,2,3...序号打乱,把省略号列举完,可能干扰其给答案。作为人类来说,会忽略具体的序号,而仅仅关注“sequential”序的关系是否被保持。
    5. 当节点数目足够多,人类会抽象/简化,在非常抽象简化的空间思考,一直向右,可能成为2D(直线,圆,螺旋),3D(螺旋)。
    6. 人类(聪明的),会考虑例外,考虑反事实的。会尝试否定;会补全条件;会严谨证明。...
实际:
    1. 在“欧氏空间”中(隐含条件),“当且仅当”,下一个在上一个的xyz坐标系下的零误差“正”右边,最终才能说:“1000”在"1"的右边。
        否则,在xyz方向任意误差,从1到1000到甚至更大序号节点后,自然语言的“右边”误差放大,1000(足够大)点位可以在xyz中任意位置,可以在1的任意方向。
     2. 在“非欧空间中”,更自由。
期望:
     1. 真正的bot,不是chat,chat仅仅是外表,真正的bot,是think。
     2. 具有对上述“客观物理世界”的直接表达,抽象,想象,推理;在不确定性的时候,能够提问交互,最后给出“实际”一节所描述的答案。

还是要看到问题的本质: 符号世界,虽然没有物理那种不合理很容易发现(比如手不能穿过身体),看起来很自由; 但是,本质上,符号世界的“正确性”验证,是很难的一件事。 小到一个名词实体是否可以发出一个动作(张飞可以笑,刘亦菲可以笑,纸人可以笑,但是蚯蚓不可以笑),大到一个现在都没有证明出来的数学猜想比如黎曼猜想,本质也可以是很抽象的符号给几十几百页描述出来。      一个next-token咋可能就知道这个宏大宇宙的是否符合客观的正确性。

做一个会think的bot很难:客观(物理+符号)的表达,抽象,构造,计算,推理...,效果上超过chatgpt的记忆和语言组织和简单推理都有挑战,但这才是正确的路;
在正确的道路上,一旦规模放大后,对chatgpt是降维打击。
正确的路,可能怎么被人走出来的预判:类似deepmind或者靠谱的ai research team,在较小规模下设计好这个机制。 LenCun的在Auto Machine Learning的10 years的paper中,并没有展开如何自动化复杂的world model<个人以为还没有我想的远,走的远>。机制足够精巧完备,然后辅以规模,人类第一个真正意义上的bot w/ super thinking将出现。能力可以直接辅助菲尔兹奖数学家甚至直接升维取代。  乐观估计,也可能10年就出来了;悲观估计,我知道了方向,虽然知道复杂但依旧低估了复杂性,低估了算力要求。但可以肯定,在这些能力上稍微一发力,也对chatgpt形成碾压。

解释很简单,足够。
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

UFO中文网

GMT+8, 2024-5-17 18:09

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表