微软推出全能型人工智能模型Kosmos-1 可处理文本、音频、图像和视频等内容

2023-03-07 08:00:40 33

$奥比中光-UW(SH688322)$

微软近日推出了全新的多模式大型语言模型Kosmos-1，这款AI可以通过分析图像的内容，解决视觉难题，执行视觉文本识别，进行视觉智商测试，并理解自然语言的指令等内容。

与之前的ChatGPT相比，Kosmos-1更为强大，能够处理文本、音频、图像和视频等内容，通过构建一个完整的全能型人工智能，像人类一样思考处理任务。

研究人员在论文中写道：“作为智能的基本组成部分，多模态感知是实现人工智能的必要条件”。Kosmos-1论文中的视觉实例显示模型可以分析图像并回答有关图像的问题，从图像中读取文本，为图像编写标题，并以22-26%的准确度进行视觉智商测试。

微软表示，他们计划向开发人员提供Kosmos-1，让更多人能够利用这个强大的多模式大型语言模型，尽管该论文引用的Github页面在本文发表时没有明显的Kosmos特定代码，但是这并不影响对这款AI技术的期待和展望。

对于Kosmos-1这款强劲的多模式大型语言模型，他将有望引领下一代智能人工智能的发展。不难想象，在将来，随着技术的不断革新，Kosmos-1等AI的不断推广和应用，将会对人类生产生活带来更加便捷和高效的体验。

2023-03-07 04:50:05 作者更新了以下内容

作为行业领先的3D视觉感知整体技术提供商，奥比中光掌握了3D视觉传感器系统设计与量产关键技术，可实现Femto Mega规模化稳定量产，并使产品持续具备高通用性。

面向全球开发者，赋能3D视觉技术广泛商业应用

奥比中光将通过与微软建立的合作，共同承接全球3D视觉开发者生态，满足开发者在物流、机器人、制造、工业、零售、医疗保健和健身解决方案等应用场景下的不同需求。

微软深度产品总监Jon Yee表示：“奥比中光的Femto Mega将微软在Hololens和Azure Kinect DevKit中使用的深度技术扩展到广泛的工业应用。这款相机是我们团队紧密合作的结果，将成为帮助人工智能开发者将深度感知加入计算机视觉的重要工具。”

新加坡Speedcargo CTO Suraj Nair博士表示：“我们的大规模货物数字化解决方案是使用微软的Azure Kinect和Azure建立的，并在新加坡进行了商业部署。它还在多个国际机场进行飞行能力优化和数字处理的商业试验。奥比中光的Femto Mega使我们能够保持与现有系统的兼容性，同时减少解决方案的尺寸、成本和复杂性。这将使我们轻松地将业务扩展到新的地点。”

Mintt CEO Eric Krzeslo表示：“奥比中光一直是Mintt在跌倒检测和预防解决方案上的3D视觉合作伙伴，凭借Femto Mega为代表的先进传感器，奥比中光正在帮助我们加速并改善产品路线图。”

奥比中光海外平台和合作伙伴关系负责人Amit Banerjee表示：“Femto Mega旨在将2D和3D传感的能力从物理世界扩展到虚拟数字化世界，扩大3D视觉在各种行业解决方案中的应用。我们很高兴与微软、英伟达合作，为部署智能机器人和自动化应用的开发者带来3D传感和AI加速计算的最佳组合。”

3D视觉感知行业的市场规模正在持续增长。法国市场研究与战略咨询公司Yole发布的报告显示，全球3D视觉感知市场规模预计在2026年达到167亿美元。未来，奥比中光将持续深耕3D视觉感知全栈式技术，携手全球合作伙伴，共建3D视觉开发者生态，赋能3D视觉感知在新兴应用场景加速商业化落地。

追加内容

本文作者可以追加内容哦 !

每日金融市场分析

微软推出全能型人工智能模型Kosmos-1 可处理文本、音频、图像和视频等内容

相关资讯