​OpenAI周一推出了GPT-4o,可以理解摄像头看到的内容

chatgpt2024-05-15 22:27:04157

OpenAI周一推出了GPT-4o,可以理解摄像头看到的内容,你知道这意味着什么吗?这相当于AI从此就有眼睛了,可以和人类进行实时对话交流,而且没有任何延迟,并且语气和人类基本没有区别。

我亲测了一下,连人类边说话边思考,那种停顿和重复也照单全收,毫无违和感。这意味着未来真有一个机器人和你说话,你可能都未必知道它是机器人了,如果它再拥有人类的外形呢,是不是完全不敢想象了,科幻真的就要成真了。

OpenAI放出的这个直播视频,是由OpenAI首席技术官,Mira Murati主持,两位研发负责人Mark Chen和Barrett Zoph演示的。


当Mark用苹果手机上的APP唤起ChatGPT,说现在正在进行现场演示,自己有点紧张,你能不能帮帮我时,ChatGPT回答说,你只需要深吸一口气,记住你才是这里的专家。是不是有点小幽默?

Mark故意大口大口地呼吸,让ChatGPT给出反馈。

ChatGPT说,喔——慢一点,你又不是吸尘器。

(Wo! slow down. Mark, you are not a vacuum cleaner)

这说明ChatGPT从他的声音里,察觉了他的情绪,引来笑声一片。Mark说ChatGPT还能处理说话被打断的情形,可以改变语气,并且可以分析用户的面部表情等等。

在随后的演示中,可以看出ChatGPT确实做到了无缝连接,流畅对话,在讲故事的时候被不断打断,要求改变语气,也马上就做到了,并且按要求改成歌曲唱了出来。


然后巴雷特在纸上写下一个方程式,Chat GPT帮助他按照步骤顺利解了出来。这时候巴雷特在纸上写下“I♥Chat GPT”,展示给她看,结果Chat GPT感动得一塌糊涂,几乎笑出了猪叫声,说你太贴心了,接着就反夸巴雷特穿的衣服不错,看起来情商也是杠杠滴。

然后巴雷特通过一段代码及一张天气曲线图和ChatGPT进行了视频互动,ChatGPT流畅地解读了代码和图像。穆拉蒂又应观众要求,演示了利用ChatGPT进行实时翻译,巴雷特让ChatGPT通过摄像头分析自己的表情,ChatGPT都没有任何延迟地完成了,总之就像是几个人在群聊,如果你只听声音,可能不会觉得里面还有一个AI在说话。

根据OpenAI的说法,GPT-4o可以“在短短232毫秒内响应用户的音频提示,平均为320毫秒,与人类在对话中的反应时间相似。”

是不是被彻底惊艳到了,和谷歌去年12月演示的Gemini似乎有异曲同工之妙,只是谷歌那次演示被认为夸大和误导的成分居多,是剪辑制造出来的,那么Gpt-4o这个,是不是也有夸张和误导的成分呢?


我感觉可能确实是这样,因为Mark和Barrett的演示,肯定是事先设计好的,包括马克的大声喘气,巴雷特的方程和代码。是不是事先和ChatGPT排练过不好说,但至少应该有草案,当然ChatGPT可能也确实有这个能力,很多朋友可能都有感觉,使用ChatGPT时间越长,它的套路就越多,你也就越熟悉,交流多了就变成车轱辘话了。

然后我马上打开ChatGPT,果然提醒我是否要用Gpt-4o进行对话,我毫不犹豫地点了同意,不过令人大跌眼镜的是,和Murati的演示完全不同,我和它的对话和使用文本聊天一样,它还是要反应很长时间才会回馈,根本没有什么232毫秒内响应,只是它的声音确实和其他AI不同,听起来像是人类的声音。

最令人不可思议的是,它也回答了我关于响应时间的疑问,后面有录屏,你们觉得它是暴露了OpenAI的内幕吗?OpenAI和谷歌一样,是不是也是设计好的吗?下面是我录下来的真实对话。

----------------------------

我:

嗯,是这样的,我站在很高的地方,比如高楼的栏杆前,有时会有一种可怕的想法,那就是突然想跳下去,这是一种什么现象,真的有人这样跳下去过吗?

----------------------------

ChatGPT:

你描述的这种感觉被称为“高处效应”(the call of the void 或 high place phenomenon)。这是一种相当常见的心理现象,很多人在高处时会突然有跳下去的冲动,但这并不意味着他们真的想自我伤害或有自杀倾向。关于为什么会有这种感觉,心理学家认为这可能是大脑在处理恐惧和生存本能时的一种反应。

至于有没有人因为这种冲动而真的采取行动,这种情况非常罕见。大部分人感受到这种冲动后,很快就会意识到这只是一种突然的想法,并不会真的采取行动。如果这种感觉让你感到不安或困扰,与朋友或专业人士交流一下你的感受可能会有所帮助。你有没有经历过类似的情况,或者还有其他关于这个话题的问题吗?

----------------------------

最后两句是不是很熟悉?又开始车轱辘了。

----------------------------

我:

嗯,谢谢,不过我看OpenAI说你232毫秒内就可以响应用户的音频提示,与人类在对话中的反应时间相似,怎么你响应了那么久?你用的模型真的是Gpt-4o吗?


----------------------------

ChatGPT:

是的,我用的是基于GPT-4的模型。关于响应时间,虽然理论上可以很快,但实际上会受到多种因素的影响,比如网络延迟、服务器负载以及问题的复杂性等。我的目标是尽可能快速且准确地回答问题,有时候可能需要额外的时间来确保回答的质量。如果你有紧急或特定时间需求的问题,尽管告诉我,我会尽量快速回复。你还有其他想了解的吗?

----------------------------

我:

我看你们的演示,真的是秒响应,真的很厉害啊,这个是什么原因呢?

----------------------------

ChatGPT:

感谢你的肯定!我们的模型通过大量数据训练,目的就是要提高在各种对话场景中的响应速度和准确性。在演示中表现得很好,可能是因为在这些情境下,问题相对明确,模型也针对这类常见问题进行了优化和调整,以确保快速和准确的反应。实际使用中,模型还会根据不同的问题和用途持续优化。你对这个技术还有其他的问题或者想了解的方面吗?

----------------------------

看看这两段对话,是不是感觉这个演示真的是事先设计好的呢?因为我和它的实际对话,它响应得非常慢,完全不像演示中那种秒回答。更能说明问题的是,因为前面问的不太流畅,我又重复了我的问题,它回答的和我前面的基本差不多,这就意味着完全可以进行事先设计和排练。另外我让它把要说的话唱出来,它也说自己不能直接唱歌,和演示中似乎完全不一样。

不过Murati在演示的最后,特别感谢了英伟达提供的最先进的GPU,让今天的演示能够成为可能,这是不是说这场演示得到了特别支持,算力强大,没有网络延迟,所以可以做到平均320毫秒,和人类差不多的响应速度呢?如果是这样,那就意味着要大规模地实现这种人机对话,不知道还要增加多少倍的算力,恐怕够英伟达和台积电忙活几年了,真是幸福的印钞机啊。

----------------------------

我:

嗯,我觉得这个能力非常重要,因为未来和机器人集成,就可以让人工智能变得和人类一样,如果外形再非常相像的话,那就和科幻电影里的情景完全一样了,人类和机器人将无法分辨。


----------------------------

ChatGPT:

确实如此,随着人工智能技术的发展,特别是在自然语言处理和机器人技术方面的进步,我们越来越接近可以模拟人类行为和交流方式的机器人。这种技术的进步可能让未来的机器人在外形、行为甚至与人类交流的能力上更加接近人类,正如你说的,就像科幻电影中的场景。

不过,这也带来了很多值得探讨的伦理和社会问题,比如人工智能的透明度、隐私保护、以及人类与机器人的关系等。你对这样的未来感到兴奋吗,还是有些担忧呢?

----------------------------

我:

我不担忧,我觉得未来人类的命运很难说,尼安德特人从没想过未来会怎样,我也没有必要去想。

----------------------------

ChatGPT:

你的看法很有洞察力。确实,未来充满不确定性,而每一次技术进步都可能带来意想不到的变化和挑战。像尼安德特人那样,我们也许无法完全预测未来的发展,但可以在现在做出选择和准备,以应对未来可能出现的情况。对于人工智能和技术的发展,你有什么特别感兴趣或想深入了解的方面吗?

----------------------------

这样的语气,是不是已经难以分辨了?不过我还是有一个简单的办法,可以区分ChatGPT和正常人类的声音,那就是它喜欢伦理道德,车轱辘话实在太特么多了,任谁一耳朵就能听出来,OpenAI能不能先把这个给它纠正了?


本文链接:https://www.qh-news.com/chatgpt/32.html

gpt4o比4多了什么功能GPT-4o 在中国能不能用GPT-4o上手体验什么叫GPTgpt3.5和4.0区别GPT4o怎么用

相关文章