全网沸腾！GPT-4震撼空降，看图玩梗参加高考、10秒生成网站，太太太强了！

作者｜yy 来源｜极果编辑部

ChatGPT热度还未散去，今天凌晨，ChatGPT开发商OpenAI发布了更强大的GPT-4，堪称“王炸”产品，一石激起了千层浪。

(相关资料图)

比起此前上亿人争相试用的ChatGPT（依靠GPT-3.5模型），GPT-4 这次直接带来了飞跃式提升，不仅文字输入限制提升至 2.5 万字，而且还拥有强大的识图能力，回答准确性也显著提高。

不仅如此，根据OpenAI的说法，GPT-4是其 “迄今为止最先进的系统”，在一些学术和专业基准上具备 “人类水平的表现”，远超其前任ChatGPT。

咱们也不整虚的，看看实测就知道了，对着GPT-4输入一张手绘草图，它能直接生成最终设计的网页代码。

甚至GPT-4在许多专业测试中表现出超过绝大多数人类的水平。

包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试，在这些测试中，它的得分高于88%的应试者，相比之下，GPT-3.5的得分只能排在倒数10%左右。

还有曾是Uber、Facebook 的产品设计师，尝试用 GPT-4 来开发游戏，表示：“GPT-4 是一项令人难以置信的变革性技术。我花了不到 60 秒的时间，重新创建了乒乓球游戏。这还仅仅是我的第一次尝试。这个世界开始变得不一样了。”

这效果给当下不少开发者带来的压力和危机感可不小，有网友当即表示“睡不着了”：“辗转反侧了一个晚上，思考未来 5-10 年我们到底会在哪里。”

GPT-4的能力如此恐怖如斯，难道人类真的要因为AI开始失业了？

据OpenAI介绍，在某些情况下，GPT-4比之前的GPT-3.5版本有了巨大改进，咱们分别来看看。

首先，GPT-3.5的记忆长度大约是8000个单词，折合四到五页书。然而GPT-4的最大记忆约6.4万个单词，折合近50页文字，因此对话具有更强的准确度和上下连贯性。

与GPT-3.5相比，GPT-4在文本对话中最大的进步在于具备了一定的文学创作能力，能根据要求创造出不同文风的歌词、诗篇甚至短句。

更夸张的是，它甚至能押上韵脚。根据指令，GPT-4用26个单词写成一句话概括“灰姑娘”的童话故事。令人震撼的是，这26个单词的首字母恰好是从A到Z的排序。

还有一位AI研究员分别询问GPT-3.5和GPT-4“艾伦人工智能研究所前CEO Oren Etzioni以及企业家Eli Etzioni是什么关系”，GPT-4准确回答出他们是父子关系，而GPT-3.5错误地将他们说成兄弟。

而且GPT-4的幽默感也有所提高。当被要求提供“关于歌手麦当娜的新鲜笑话”时，GPT-4回答“麦当娜为什么要学习几何？因为她想学会如何摆出各个角度的姿势！”在回答的最后，它还“俏皮”地附上了三角尺、跳舞和麦克风的表情符号。

相比而言，GPT3.5的回答就显得平平无奇，并不那么好笑了。

官方还表示，GPT-4将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。

例如，GPT-4在模拟律师资格考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。

对此，英伟达AI科学家Jim Fan点评道：“GPT-4最强的其实就是推理能力。它在GRE、SAT、法学院考试上的得分，几乎和人类考生没有区别。也就是说，GPT-4可以全靠自己考进斯坦福了”…

在测试的26种语言中的24种中，GPT-4优于GPT-3.5和其他大型语言模型（Chinchilla，PaLM）的英语表现，包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。

在情商方面，GPT-4比起GPT-3.5也提高很多。根据OpenAI的描述，用户能够将ChatGPT原本固定冗长的语气和风格，改为更适合他们需要的个性化风格。

具体来说，用户可以要求模型假扮各种角色，比如电视台进行采访的主持人、面对老年用户的基金经理等。根据案例展示，GPT-4还可以熟练切换语言风格适应自己的角色定位。比如在和老年人对话时，使用平和缓慢的语气，而在担任经理下达命令时又采取果断坚决的态度，“赛博”角色扮演可算是玩明白了。

与此前的GPT系列模型相比，GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示，用户同时输入文本和图像的情况下，它能够生成自然语言和代码等文本。

目前图像处理功能还未公开，不过该公司在官网上展示了一系列案例。例如，输入如下图片并询问“这张图片有什么不寻常之处”。

GPT-4能顺利作出回答“这张照片的不同寻常之处在于，一名男子正在行驶中的出租车车顶上，使用熨衣板熨烫衣服。”

OpenAI提供了一个经典示例，输入一张超大的图片，GPT-4还能解读出这张图片搞笑的点在哪里：

OpenAI用下面这张图片演示了GPT-4的推理和识图能力。当发出这张在厨房里拍的照片后，它不仅能辨认出面粉、鸡蛋等元素，还可以迅速给出食谱建议。

询问GPT-4这张图上能做几顿饭，它的回答也非常符合实际。

一夜之间，全球所有验证码都失效了，因为AI已经能读懂图片了。

除了普通图片，GPT-4还能处理更复杂的图像信息，包括表格、考试题目截图、论文截图、漫画等，例如根据专业论文直接给出论文摘要和要点。

用户也可以直接给一张考试题的照片，让GPT-4一步步思考作答。

还有一个示例是让GPT-4解释这张漫画，GPT-4认为它讽刺了统计学习和神经网络在提高模型性能方面的差异。

不过话说来了，与早期的GPT模型一样，GPT-4还是存在一定的局限性。

OpenAI称，它并不完全可靠，可能会出现推理错误，“GPT-4缺乏对绝大多数数据切断后（2021年9月）发生的事件的了解，并且无法从中吸取经验教训……它有时会出现简单的推理错误，它会轻信用户明显的虚假陈述，有时它会像人类一样在难题上失败，例如在它生成的代码中引入安全漏洞。”

基于此，OpenAI提醒，用户在使用语言模型时应格外小心，最好辅助以人工审查、附加上下文、或完全避免在高风险情况下使用它。

值得注意的是，GPT-4虽然于凌晨才正式公开，但早在一个月前，微软的新版搜索引擎必应（bing）就已经在GPT-4上运行。微软表示，“如果您在过去五周内的任何时间使用过新版必应，那么您已经体验过GPT-4的早期版本。

目前GPT-4没有免费版本，仅向chatgpt plus的付费订阅用户及企业和开发者开放。由于仅限于Plus订阅用户使用，当晚，大批新订用户涌入，以至于OpenAI的付款系统被挤爆了。

至于价格方面其为 22 美元一个月（20+2刀手续费），并且限制每 4 个小时只能发 100 条消息。

不管怎么说，也许在并不遥远的未来，一个考试中完全碾压人类“做题家”、模仿“霸道总裁”口吻和员工对话，并能精准解读表情包背后小情绪的强大AI即将诞生。至于这对人类来讲是福是祸，就是个见仁见智的问题了。

标签：