-
- 两步生成25帧高质量动画,计算为SVD的8% | 在线可玩
- 耗费的计算资源仅为传统StableVideoDiffusion(SVD)模型的2/25!AnimateLCM-SVD-xt发布,一改视频扩散模型进行重复去噪,既耗时又需大量计算的问题。先来看一波生成的动画效果。赛博朋克风轻松驾驭,男孩头戴耳机,站在霓虹闪烁的都市街道:图片写实风也可以,一对新婚夫妇依偎在一起,手捧精致花束,在古老石墙下见证爱情:图片科幻风,也有了外星人入侵地球的即视感:图片AnimateLCM-SVD-xt由来自香港中文大学MMLab、AvolutionAI、上海人工智能实验室、商汤研究院
- 科技周边 · 人工智能 | 1年前 | 计算 动画 SVD 180浏览 收藏
-
- 上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升
- CLIP长文本能力被解锁,图像检索任务表现显著提升!一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。△棕色文本为区分两张图的关键细节Long-CLIP基于保持CLIP原始特征空间的基础上,在图像生成等下游任务中即插即用,实现长文本细粒度图像生成。长文本-图像检索提升20%,短文本-图像检索提升6%。解锁CLIP长文本能力CLIP对齐了视觉与文本模态,拥有强大的zero-shot泛化能力。因此,CLIP被广泛应用在各种多模态任务中,如图像分类、文本图像检索、图像生成等。但C
- 科技周边 · 人工智能 | 1年前 | AI 框架 309浏览 收藏
-
- 探索数据科学对机器人的影响
- 数据驱动的感知:数据科学彻底改变机器人技术的关键领域之一是感知。配备了传感器、摄像头和其他数据收集机制的机器人会产生大量有关其环境的数据。数据科学技术,包括计算机视觉、传感器融合和深度学习,使机器人能够解释和理解这些数据,促进强大的感知能力。从物体识别和定位到场景理解和导航,数据驱动的感知使机器人能够与周围环境无缝交互,从而在制造、物流、医疗保健等领域实现广泛的应用。适应性学习和决策:数据科学在使机器人能够学习和适应不断变化的环境和任务方面发挥着关键作用。机器学习算法,包括强化学习、监督学习和无监督学习,
- 科技周边 · 人工智能 | 1年前 | 机器人 483浏览 收藏
-
- 用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
- 在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。模型在理解长视频方面的困难主要源自于长视频数据资源的不足,这些资源在质量和多样性上存在缺陷。此外,采集和标注这些数据需要大量的工作。面对这样的难题,腾讯和复旦大学的研究团队提出了MovieLLM,一个创新性的AI生成框架。MovieLLM采用了创新性的方法,不仅可以生成高质量、多样化
- 科技周边 · 人工智能 | 1年前 | AI 数据 框架 247浏览 收藏
-
- 一文搞懂:AI、机器学习与深度学习的联系与区别
- 在当今科技日新月异的浪潮中,人工智能(ArtificialIntelligence,AI)、机器学习(MachineLearning,ML)与深度学习(DeepLearning,DL)如同璀璨星辰,引领着信息技术的新浪潮。这三个词汇频繁出现在各种前沿讨论和实际应用中,但对于许多初涉此领域的探索者来说,它们的具体含义及相互之间的内在联系可能仍笼罩着一层神秘面纱。那让我们先来看看这张图。可以看出,深度学习、机器学习和人工智能之间存在着紧密的关联和递进关系。深度学习是机器学习的一个特定领域,而机器学习则是人工智
- 科技周边 · 人工智能 | 1年前 | 人工智能 机器学习 深度学习 127浏览 收藏
-
- 全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
- 全球首个开源的类Sora架构视频生成模型,来了!整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。这就是刚刚发布的Open-Sora1.0。它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于其惊人的效果和技术细节的稀缺性,揭示和复现Sora已成为开发社区中最受关注的话题之一。例如,Colossal-AI团队推出了一项能够降低46%成本的Sora训练和推理复现流程。短短两周时间后,该团队
- 科技周边 · 人工智能 | 1年前 | 人工智能 AI Sora 477浏览 收藏
-
- DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
- 大模型的幻觉终于要终结了?今日,社交媒体平台Reddit上的一则帖子引起网友热议。帖子讨论的是谷歌DeepMind昨日提交的一篇论文《Long-formfactualityinlargelanguagemodels(大语言模型的长篇事实性)》,文中提出的方法和结果让人得出大语言模型幻觉不再是问题了。我们知道,大语言模型在响应开放式主题的fact-seeking(事实寻求)提问时,通常会生成包含事实错误的内容。DeepMind针对这一现象进行了一些探索性研究。为了对一个模型在开放域的长篇事实性进行基准测试,
- 科技周边 · 人工智能 | 1年前 | AI 模型 140浏览 收藏
-
- 如何让机器学习赋能工业应用?
- 设备故障对工业部门造成了严重的问题,导致生产损失和计划外停机。这种情况对全球加工制造商来说是一个严重的挑战,每年造成的损失可高达数十亿美元。例如,如果一个关键的生产设备突然出现故障,可能会导致整个生产线停摆数小时,进而影响整个供应链的运作。幸运的是,现代机器学习(ML)提供了一个突破性的解决方案。通过分析大量传感器数据,ML算法可以在故障和积压发生之前预测故障和积压,从而实现主动维修并大幅减少停机时间。但这还不是全部,ML还揭示了生产数据中隐藏的模式,优化了流程,减少了浪费,提高了整体效率。在组织充分发挥
- 科技周边 · 人工智能 | 1年前 | 机器学习 工业应用 116浏览 收藏
-
- 详解Latte:去年底上线的全球首个开源文生视频DiT
- 随着Sora发布成功,视频DiT模型引起了广泛关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域研究的重点。DiT模型的成功为图像生成的规模化带来了新的可能性。然而,由于视频数据的高度结构化和复杂性,将DiT扩展到视频生成领域是一项具有挑战性的任务。一支由上海人工智能实验室的研究团队和其他机构联合组成的团队,通过大规模的实验回答了这一问题。去年11月,该团队已经发布了一款名为Latte的自研模型,其技术与Sora有相似之处。Latte是全球首个开源文生视频DiT,受到了广泛关注。许多开源框架如Ope
- 科技周边 · 人工智能 | 1年前 | 模型 训练 454浏览 收藏
-
- 文生图的基石CLIP模型的发展综述
- CLIPstandsforContrastiveLanguage-ImagePre-training,whichisapre-trainingmethodormodelbasedoncontrastivetext-imagepairs.Itisamultimodalmodelthatreliesoncontrastivelearning.ThetrainingdataforCLIPconsistsoftext-imagepairs,whereanimageispairedwithitscorrespond
- 科技周边 · 人工智能 | 1年前 | 人工智能 机器学习 CLIP 414浏览 收藏
-
- 大模型中常用的注意力机制GQA详解以及Pytorch代码实现
- 组查询注意力(GroupedQueryAttention)是大型语言模型中的一种多查询注意力力方法,它的目标是在保持MQA速度的同时实现MHA的质量。GroupedQueryAttention将查询分组,每个组内的查询共享相同的注意力权重,这有助于降低计算复杂度和提高推理速度。这篇文章中,我们将解释GQA的思想以及如何将其转化为代码。GQA是在论文GQA:TrainingGeneralizedMulti-QueryTransformerModelsfromMulti-HeadCheckpointspape
- 科技周边 · 人工智能 | 1年前 | PyTorch 大型语言模型 GQA 249浏览 收藏
-
- 什么是生成式AI?有哪些特征类型
- 生成式AI是人类一种人工智能技术,可以生成各种类型的内容,包括文本、图像、音频和合成数据。那么什么是人工智能?人工智能和机器学习之间的区别是什么?有哪些技术特征?人工智能是学科,是计算机科学的一个分支,研究智能代理的创造。这些智能代理可以推理、学习和自主行动的系统。智能代理的研究是可以推理、学习和自主行动的系统的研究。人工智能和构建像人类一样思考和行动的机器的理论和方法有关。在这个学科中,机器学习是人工智能的一个领域。它是根据输入数据训练模型的程序或系统,经过训练的模型可以从新的或未见过的数据中做出有用的
- 科技周边 · 人工智能 | 1年前 | 人工智能 机器学习 生成式AI 464浏览 收藏
-
- AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说RAP
- Sora之后,居然还有新的AI视频模型,能惊艳得大家狂转狂赞!图片有了它,《狂飙》大反派高启强化身罗翔,都能给大伙儿普法啦(狗头)。这就是阿里最新推出的基于音频驱动的肖像视频生成框架,EMO(EmotePortraitAlive)。有了它,输入单张参考图像,以及一段音频(说话、唱歌、RAP均可),就能生成表情生动的AI视频。视频最终长度,取决于输入音频的长度。你可以让蒙娜丽莎——这位AI届效果体验的老选手,朗诵一段独白:年轻俊美的小李子来段快节奏的RAP才艺秀,嘴形跟上完全没问题:甚至粤语口型也能hold
- 科技周边 · 人工智能 | 1年前 | AI 照片 声音 349浏览 收藏
-
- 向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」
- 「以史为鉴,可以知兴替。」人类的进步史是一个不断吸取过去经验、推进能力边界的自我演化过程。我们从过去的失败中吸取教训,纠正错误;借鉴成功经验,提升效率和效果。这种自我进化贯穿生活方方面面:总结经验解决工作问题,利用规律预测天气,我们持续从过去学习和进化。成功从过去的经验中提取知识并将其应用于未来的挑战,这是人类进化之路上重要的里程碑。那么在人工智能时代,AI智能体是否也可以做到同样的事情呢?近年来,GPT和LLaMA等语言模型展示了在解决复杂任务时的惊人能力。然而,虽然它们可以利用工具解决具体任务,但本质
- 科技周边 · 人工智能 | 1年前 | 模型 数据 481浏览 收藏
-
- 征稿| CVPR 2024 Workshop |第一届 Virtual Humans for Robotics and Autonomous Driving
- 探索虚拟人(数字人)赋能机器人与自动驾驶领域的前沿问题在人类居住的世界中,人类是最为核心的元素。因此,智能机器(例如自动驾驶车辆和机器人)必须在人口密集的环境中具备社会意识,与人类交互。而如何感知和理解人类在智能机器研究中至关重要。由于现实世界中的人类行为多样性,其对环境变化的影响,再加上智能体与人类互动时的安全考虑,种种因素使得在真实环境中训练备社会意识的智能体变得极为困难。近年来,仿真环境作为训练智能体的一种有效的方式应运而生。但是,这些仿真环境就像无人居住的幽灵城市一样,并未包括对人类的有效模拟。如
- 科技周边 · 人工智能 | 1年前 | 产业 149浏览 收藏
查看更多
课程推荐
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- Golang深入理解GPM模型
- Golang深入理解GPM调度器模型及全场景分析,希望您看完这套视频有所收获;包括调度器的由来和分析、GMP模型简介、以及11个场景总结。
- 473次学习
查看更多
AI推荐
-
- 可图AI图片生成
- 探索快手旗下可灵AI2.0发布的可图AI2.0图像生成大模型,体验从文本生成图像、图像编辑到风格转绘的全链路创作。了解其技术突破、功能创新及在广告、影视、非遗等领域的应用,领先于Midjourney、DALL-E等竞品。
- 14次使用
-
- MeowTalk喵说
- MeowTalk喵说是一款由Akvelon公司开发的AI应用,通过分析猫咪的叫声,帮助主人理解猫咪的需求和情感。支持iOS和Android平台,提供个性化翻译、情感互动、趣味对话等功能,增进人猫之间的情感联系。
- 14次使用
-
- Traini
- SEO摘要Traini是一家专注于宠物健康教育的创新科技公司,利用先进的人工智能技术,提供宠物行为解读、个性化训练计划、在线课程、医疗辅助和个性化服务推荐等多功能服务。通过PEBI系统,Traini能够精准识别宠物狗的12种情绪状态,推动宠物与人类的智能互动,提升宠物生活质量。
- 17次使用
-
- 可图AI 2.0图片生成
- 可图AI 2.0 是快手旗下的新一代图像生成大模型,支持文本生成图像、图像编辑、风格转绘等全链路创作需求。凭借DiT架构和MVL交互体系,提升了复杂语义理解和多模态交互能力,适用于广告、影视、非遗等领域,助力创作者高效创作。
- 19次使用
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 32次使用