小程序
传感搜
传感圈

ChatGPT 开始入侵物理世界?

2023-10-07
关注

OpenAI,又悄咪咪地放大招了。


当地时间 9 月 25 日,OpenAI 在官网更新博客,宣布 ChatGPT 已经具备看、听、说的能力。这是 GPT-4 大型语言模型推出以来最大的一次功能更新。


从官方放出的应用案例来看,通过手机摄像头和麦克风,ChatGPT 现在已经能帮助人们解决实际问题。例如用手机拍一下共享单车的照片,并且询问人工智能助手如何调节座椅,ChatGPT 就可以看懂图片,并且给出相应步骤。


随着技术的快速迭代,生成式 AI 竞赛正在进入了一个全新的阶段——多模态之争。在这个阶段,各大科技公司纷纷推出了一系列新产品和功能,通过人工智能技术打破传统搜索引擎和聊天机器人的局限性的同时,也为用户带来更加丰富和精准的交互体验。


那么,“升级”了的 ChatGPT,是否能成为“贾维斯”一样的 AI 助理,帮助人们打点生活了而 OpenAI 又是怎么做到的?


一、ChatGPT长了眼睛和嘴巴 


生成式 AI 竞赛的下一个阶段正在来临——多模态之争。


最近,Meta 推出了 AudioCraft,用于通过 AI 生成音乐;谷歌 Bard 和微软 Bing 的聊天体验也已部署了多模态功能;亚马逊也在借助 LLM 的力量来增强其 Alexa 数字助理(为 Echo 系列智能设备提供支持)的功能,9 月 25 日刚刚宣布斥资 40 亿美元投资 OpenAI 的竞争对手 Anthropic,后者是 Claude 2 聊天机器人的制造商;苹果也在试验通过 AI 生成语音,即 Personal Voice。


而在上周发布支持文本和排版生成的最新图像生成模型 DALL-E 3 之后,当地时间周一晚,OpenAI 发布了《ChatGPT 现在能看、能听、能说了》的公告,宣布对 ChatGPT 进行重大更新,使其 GPT-3.5 和 GPT-4 人工智能模型能够分析图像,并作为文本对话的一部分对图像作出反应。


此外,ChatGPT 移动应用程序还将增加语音合成选项,与现有的语音识别功能搭配使用时,将实现与人工智能助手的完全语言对话。


根据官网,ChatGPT 现在已经具备了如下功能:


1. 语音功能


OpenAI 在公告中称语音功能由一个新的文本转语音模型(text to speech)驱动,只需要文本和几秒的语音样本就可以生成类似人声的音频。一方面,OpenAI 与专业配音演员合作创建了语音条,另一方面,OpenAI 还使用了自己开源的语音识别系统 Whisper,可以将用户的语音转录为文字。


ChatGPT 已经有了语音交互能力|OpenAI


该功能推出后,用户可以在应用的设置中选择语音对话,然后从“Juniper”“Sky”“Cove”“Ember”和“Breeze”等五种不同的合成声音中选择一个,说出他们想要的内容,机器人就会使用所选的语音提供答案。例如,人们可以询问睡前故事,或者就餐桌上正在进行的谈话提出问题。


不过,语音对话功能的使用可能面临有一些限制。OpenAI 表示,该模型在转录英文文本方面表现出色,但在一些其他语言,特别是使用非罗马字母的语言中表现不佳。因此,建议非英语用户使用 ChatGPT 来进行此类用途时要慎重。


2. 图像理解


OpenAI 表示,ChatGPT 中的新图像识别功能允许用户上传一张或多张图像,使用 GPT-3.5 或 GPT-4 模型进行对话。


这些模型将其语言推理技能应用于各种图像,如照片、截图和同时包含文本和图像的文档,人们只需点击一张图片,将其添加到聊天中,并提出潜在的问题,ChatGPT 就会根据所附文本分析图片,并给出答案。


它甚至可以围绕该主题进行前后对话。按照 OpenAI 的说法,用户可以上传某物的图片并询问 ChatGPT 相关问题——比如在旅行时拍一张地标的照片,让 ChatGPT 来讲述景点的有趣之处;拍下冰箱和食品储藏室的照片,找出晚餐要吃什么(还可以问一些后续问题,以获得进一步的食谱)。


在官方提供的示例中,一张自行车的照片上传到 ChatGPT 界面,之后询问后者如何将座位调低。ChatGPT 首先询问了自行车的型号,因为座位的调整方式因车型而异。它详细解释了不同车型可能采用的快拆杆或螺栓的区别,并提供了相应的步骤。  


然后,官方制造了一点混淆,拍摄了一张螺栓的照片,并在图中用官方的画图工具突出显示,试图让 ChatGPT 分辨是螺栓还是快拆杆。ChatGPT 很快指出图中所示的是螺栓,并建议用户寻找内六角扳手来解决问题。


接着,官方拍摄了一张工具箱的照片,向 ChatGPT 询问到底是哪一个扳手。ChatGPT 再次表现准确识别出所需的扳手,并清晰地指导用户选择正确的尺寸。这个示例清楚地展示了 ChatGPT 在解决实际问题时的实用性和智能响应。


在去年 3 月 GPT-4 发布时,OpenAI 就已展示了该模型解析文本和图像的初步能力,很快,这些能力将成为 ChatGPT 使用中更常见的存在。


OpenAI 将在未来两周时间里向 Plus 和企业用户推出上述功能。用户可以在 iOS 和 Android 使用 ChatGPT 的语音合成功能,图像识别功能则在网页和 App 端均可用。


二、能力越大,责任越大 


在 ChatGPT 发布近一年来,OpenAI 对其底层模型和界面进行了多次更新。而任何生成式 AI 的进步都需要考虑严肃的伦理和隐私问题。


OpenAI 在公告中声称其目标是开发安全且有益的通用人工智能,“我们相信,逐步提供我们的工具,可以让我们随着时间的推移不断改进和完善风险缓解措施,同时也让大家为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型来说,这一策略越来越重要。”


毕竟,新语音技术能够仅从几秒的真实语音中创造逼真的合成语音,这为创造性应用打开大门的同时,也带来了新的风险,比如恶意冒充公众人物或进行诈骗等。


为降低音频深度伪造的风险,OpenAI 表示它已将语音合成功能的使用范围限制在语音聊天和某些已获批准的合作伙伴关系中。其中包括与流媒体公司 Spotify 的合作——Spotify 正在使用其背后的技术为平台上的播客翻译不同语言的内容。Spotify 个性化副总裁齐亚德-苏丹(Ziad Sultan)在一份新闻稿中说:“通过与创作者本人的声音相匹配,语音翻译让世界各地的听众能够以前所未有的真实方式发现新的播客,并从中获得灵感。”


同样,为了避免图像识别带来的隐私和准确性问题,OpenAI 还限制了机器人对输入图像中出现的人进行分析和直接陈述的能力,其表示已经“采取了技术措施,以限制 ChatGPT 分析和直接陈述个人信息的能力,系统还是应当尊重个人隐私”,但是真正的恶意利用情况还是要在它面向公众推出后才能知道。


这次 ChatGPT 推出的语音交互和图像识别功能,为聊天机器人带来了更强的实用性,让它们从简单的文本处理工具更贴近真实生活。


同时,这似乎也预示着未来 AI 系统的发展方向——不仅要理解抽象的文字世界,还要能感知复杂的语音和图像信息,甚至是物理世界,从而真正进阶达到人机交互的境界。


本文来自微信公众号:极客公园 (ID:geekpark),作者:连冉,编辑:靖宇

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标浮台在线测系统 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

广告

天天炫技

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

这届“科技春晚”,苹果会亮出AI底牌吗?

提取码
复制提取码
点击跳转至百度网盘