使用像$GRASS的#cliptagger这样的模型,模型可以: - 使用JSON输出并“观看”视频,告诉你发生了什么以及何时发生 - 因为输出是语义的,它们可以作为推理任务的输入,训练视频模型,甚至为机器人构建数据集。
你可以自己试试 cliptagger!上传任何图像或视频帧并运行。 生成现在需要几分钟,但一旦我们在后端更换 @inference_net,这将会非常快速。 有趣的事实,这为我们的在线视频搜索提供了动力。
查看原文
6,311
30
本页面内容由第三方提供。除非另有说明,欧易不是所引用文章的作者,也不对此类材料主张任何版权。该内容仅供参考,并不代表欧易观点,不作为任何形式的认可,也不应被视为投资建议或购买或出售数字资产的招揽。在使用生成式人工智能提供摘要或其他信息的情况下,此类人工智能生成的内容可能不准确或不一致。请阅读链接文章,了解更多详情和信息。欧易不对第三方网站上的内容负责。包含稳定币、NFTs 等在内的数字资产涉及较高程度的风险,其价值可能会产生较大波动。请根据自身财务状况,仔细考虑交易或持有数字资产是否适合您。