UFO中文网»UFO社区 › 神秘事件 › 世界之最 › (自问自答) ChatGPT, StableDiffusion等，天花板在哪里? ...

收听	听众	主题

(自问自答) ChatGPT, StableDiffusion等，天花板在哪里?

online_member

发表于 2023-2-11 07:46:57 | 查看: 180| 回复: 1

(自问自答) ChatGPT, StableDiffusion等，天花板在哪里?

收藏0 回复显示全部楼层道具举报

online_member

发表于 2023-2-11 07:47:10

本人背景：
      表面上：某大厂人工智能科学家。
      事实上：AGI独立研究者，民科级，非自嘲，乃自知。

本人自答： (2023.01)
   （纯用于个人，五年十年后，验证自己的技术判断力；故结论干脆尖锐，不符合主流.）
1. 结论：
         当前：gpt, diffusion等等一把梭的这种模型：巨大华丽有余<强大的神经网络融合了的隐式的记忆+不错的语言组织+极其有限的概率性推理<没有符号上的确定性硬推理>>，靠谱合理不足。当然基于现在的能力做合适的事情的商业是可以的，甚至很拉风。
         未来：本质上，gpt-1到gpt-3是在做大；gpt-3之后的一切技术动作，都是在弥补一把梭的的根本缺陷。坚持该路线，不能从根本上解决问题，天花板：外行看很高，内行看不高，将来看很低。

2. 民科级瞎扯：
      我们简单的把世界分为三个：
         O.1 (客观)物理世界;
         O.2 (抽象)符号世界<对客观/物理世界的表示和抽象，数学都是>；
         &
         S.1 (模拟/简化/逼近/优化/...)计算世界<我们计算机，AI在干的>。
      chatgpt等在意图搞定符号世界，自由驰骋；封闭的，没有手脚（比如api-call去和物理世界互动，全靠文字输入）,限制了信息获取，输出验证，特别是商业化/产品化；全靠数据蕴含的概率，弱推理，导致不靠谱；人类语言表示的知识，恰好需要靠谱，而不仅仅是生成一个看起来完全可以交流的东西。（万精油话痨 vs. 数学家-强推理/小秘书-强调用)
      stable.ai等意图构造物理世界，自由驰骋；可能违反物理事实，而且简单生成的范式，难解。
   ---
   本质上，需要一个&#34;强约束&#34;的&#34;世界模型&#34;，其必须具备两点：
1)结构化的表达：
               NLP：语言的精确形式（比如就几个字等约束）；其他结构化数据等；
               CV：由.obj等3D模型和.fbx等运动的表示；其他结构化数据等；
2)“准”物理世界的执行.
               NLP：数学计算的过程；推理问题的步骤；需要大不同的算法框架，或者从根本上修改gpt/diffusion等。
               CV: 物理世界的仿真算法，游戏引擎，机器人直接运动，等。

通过1,2来实现强约束。以符合客观世界的关系和(广义)运动。
当然在计算世界，具体的算法设计的时候，比如想实现：端到端+自动化+大模型，可以：A)点2可以设计可微的模块，B)广义无监督/自监督来更自动化。

补充一个例子：
问题：（文字描述）
设：有一群人，2在1右边，3在2右边，4在3右边,  ...,  1000在999右边。
问：1000在1的（?）边？
分析：
1. chatgpt基于训练数据在模型上的训练所得，产品一堆文字：拒绝作答；各种绕；右边；...。
2. chatgpt不能给出为什么。
3. 如果有省略号，人类会按照惯例，自动补齐。
4. 当上述1,2,3...序号打乱，把省略号列举完，可能干扰其给答案。作为人类来说，会忽略具体的序号，而仅仅关注“sequential”序的关系是否被保持。
5. 当节点数目足够多，人类会抽象/简化，在非常抽象简化的空间思考，一直向右，可能成为2D(直线，圆，螺旋）,3D(螺旋）。
6. 人类（聪明的），会考虑例外，考虑反事实的。会尝试否定；会补全条件；会严谨证明。...
实际：
1. 在“欧氏空间”中（隐含条件），“当且仅当”，下一个在上一个的xyz坐标系下的零误差“正”右边，最终才能说：“1000”在&#34;1&#34;的右边。
      否则，在xyz方向任意误差，从1到1000到甚至更大序号节点后，自然语言的“右边”误差放大，1000(足够大）点位可以在xyz中任意位置，可以在1的任意方向。
   2. 在“非欧空间中”，更自由。
期望：
   1. 真正的bot，不是chat，chat仅仅是外表，真正的bot，是think。
   2. 具有对上述“客观物理世界”的直接表达，抽象，想象，推理；在不确定性的时候，能够提问交互，最后给出“实际”一节所描述的答案。

还是要看到问题的本质：符号世界，虽然没有物理那种不合理很容易发现（比如手不能穿过身体），看起来很自由；但是，本质上，符号世界的“正确性”验证，是很难的一件事。小到一个名词实体是否可以发出一个动作（张飞可以笑，刘亦菲可以笑，纸人可以笑，但是蚯蚓不可以笑），大到一个现在都没有证明出来的数学猜想比如黎曼猜想，本质也可以是很抽象的符号给几十几百页描述出来。    一个next-token咋可能就知道这个宏大宇宙的是否符合客观的正确性。

做一个会think的bot很难：客观（物理+符号）的表达，抽象，构造，计算，推理...，效果上超过chatgpt的记忆和语言组织和简单推理都有挑战，但这才是正确的路；
在正确的道路上，一旦规模放大后，对chatgpt是降维打击。
正确的路，可能怎么被人走出来的预判：类似deepmind或者靠谱的ai research team，在较小规模下设计好这个机制。 LenCun的在Auto Machine Learning的10 years的paper中，并没有展开如何自动化复杂的world model<个人以为还没有我想的远，走的远>。机制足够精巧完备，然后辅以规模，人类第一个真正意义上的bot w/ super thinking将出现。能力可以直接辅助菲尔兹奖数学家甚至直接升维取代。  乐观估计，也可能10年就出来了；悲观估计，我知道了方向，虽然知道复杂但依旧低估了复杂性，低估了算力要求。但可以肯定，在这些能力上稍微一发力，也对chatgpt形成碾压。

解释很简单，足够。

回复显示全部楼层道具举报

手机版|UFO中文网

GMT+8, 2025-8-12 23:42

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表