微软推出全能型人工智能模型Kosmos-1 可处理文本、音频、图像和视频等内容

2023-03-07 08:00:40 33

$奥比中光-UW(SH688322)$  

微软近日推出了全新的多模式大型语言模型Kosmos-1,这款AI可以通过分析图像的内容,解决视觉难题,执行视觉文本识别,进行视觉智商测试,并理解自然语言的指令等内容。


与之前的ChatGPT相比,Kosmos-1更为强大,能够处理文本、音频、图像和视频等内容,通过构建一个完整的全能型人工智能,像人类一样思考处理任务。

与之前的ChatGPT相比,Kosmos-1更为强大,能够处理文本、音频、图像和视频等内容,通过构建一个完整的全能型人工智能,像人类一样思考处理任务。

研究人员在论文中写道:“作为智能的基本组成部分,多模态感知是实现人工智能的必要条件”。Kosmos-1论文中的视觉实例显示模型可以分析图像并回答有关图像的问题,从图像中读取文本,为图像编写标题,并以22-26%的准确度进行视觉智商测试。

微软表示,他们计划向开发人员提供Kosmos-1,让更多人能够利用这个强大的多模式大型语言模型,尽管该论文引用的Github页面在本文发表时没有明显的Kosmos特定代码,但是这并不影响对这款AI技术的期待和展望。

对于Kosmos-1这款强劲的多模式大型语言模型,他将有望引领下一代智能人工智能的发展。不难想象,在将来,随着技术的不断革新,Kosmos-1等AI的不断推广和应用,将会对人类生产生活带来更加便捷和高效的体验。



2023-03-07 04:50:05 作者更新了以下内容

作为行业领先的3D视觉感知整体技术提供商,奥比中光掌握了3D视觉传感器系统设计与量产关键技术,可实现Femto Mega规模化稳定量产,并使产品持续具备高通用性。

面向全球开发者,赋能3D视觉技术广泛商业应用

奥比中光将通过与微软建立的合作,共同承接全球3D视觉开发者生态,满足开发者在物流、机器人、制造、工业、零售、医疗保健和健身解决方案等应用场景下的不同需求。

微软深度产品总监Jon Yee表示:“奥比中光的Femto Mega将微软在Hololens和Azure Kinect DevKit中使用的深度技术扩展到广泛的工业应用。这款相机是我们团队紧密合作的结果,将成为帮助人工智能开发者将深度感知加入计算机视觉的重要工具。”

新加坡Speedcargo CTO Suraj Nair博士表示:“我们的大规模货物数字化解决方案是使用微软的Azure Kinect和Azure建立的,并在新加坡进行了商业部署。它还在多个国际机场进行飞行能力优化和数字处理的商业试验。奥比中光的Femto Mega使我们能够保持与现有系统的兼容性,同时减少解决方案的尺寸、成本和复杂性。这将使我们轻松地将业务扩展到新的地点。”

Mintt CEO Eric Krzeslo表示:“奥比中光一直是Mintt在跌倒检测和预防解决方案上的3D视觉合作伙伴,凭借Femto Mega为代表的先进传感器,奥比中光正在帮助我们加速并改善产品路线图。”

奥比中光海外平台和合作伙伴关系负责人Amit Banerjee表示:“Femto Mega旨在将2D和3D传感的能力从物理世界扩展到虚拟数字化世界,扩大3D视觉在各种行业解决方案中的应用。我们很高兴与微软、英伟达合作,为部署智能机器人和自动化应用的开发者带来3D传感和AI加速计算的最佳组合。”

3D视觉感知行业的市场规模正在持续增长。法国市场研究与战略咨询公司Yole发布的报告显示,全球3D视觉感知市场规模预计在2026年达到167亿美元。未来,奥比中光将持续深耕3D视觉感知全栈式技术,携手全球合作伙伴,共建3D视觉开发者生态,赋能3D视觉感知在新兴应用场景加速商业化落地。

追加内容

本文作者可以追加内容哦 !