-
- 视频生成技术迈入新纪元?谷歌VideoPoet大型模型引发网友革命性讨论
- 蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023年底,科技公司都在冲击生成式AI的最后一个关卡——视频生成。本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为VideoPoet的大语言模型,被人们认为是革命性的zero-shot视频生成工具。VideoPoet既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。消息一出,有很多人表示欢迎:看看目前的几个成品效果不
- 科技周边 · 人工智能 | 1年前 | 产业 视频生成 386浏览 收藏
-
- 南大、腾讯推出更稳更准的StableDrag拖拽P图技术
- 在去年的五月份,一个名为DragGAN的研究引起了人工智能领域的关注。这项研究让图片变得“活”起来,只需动动鼠标就能实现。通过拖拽的方式,我们可以修改和合成出我们想要的图像,例如在下图中让一只狮子转过头来并张开嘴巴。这种技术的突破为图像编辑和合成带来了新的可能性,让用户能够以更直观的方式进行图像处理,从而创造出更加生动和有趣的作品。这一研究成果源自华人学者领导的项目“DragYourGAN”,最近发表在SIGGRAPH2023会议上。该项目已在GitHub上获得了34.5k的Star。项目地址:https
- 科技周边 · 人工智能 | 1年前 | AI 技术 489浏览 收藏
-
- 联想展示全球首款透明屏电脑,引领AI硬件创新风潮
- 2月26日,西班牙巴塞罗那举办了世界移动通信大会(MWC)。在这一盛会上,联想集团展示了全景式AI终端、基础设施以及解决方案组合,引起了广泛关注。尤其是他们展示的两款新概念产品,一款是拥有透明屏幕的ThinkBook笔记本电脑,另一款是摩托罗拉推出的自适应智能手机,颠覆了传统个人电脑和智能手机的外形设计。这两款产品的亮相展示了联想集团在技术创新方面的雄心壮志,也展示了他们对未来科技发展的前瞻性思考。通过引入透明屏幕和自适应技术,ThinkBook透明屏笔记本电脑和在本届MWC上,联想集团展示了全球首款17
- 科技周边 · 人工智能 | 1年前 | 产业 331浏览 收藏
-
- GPT-4仍稳坐王位!Claude 3竞技场人类评分排名惊现第三
- Claude3的竞技场排名终于来了:短短3天内,20000张投票,将榜单的流量推向空前。最终,Claude3最强的“大杯”模型Opus得分1233,成为第一个能和GPT-4-Turbo一较高下的选手。“中杯”Sonnet也还不错,和GPT-4的两个旧版本不相上下。图片不过总的来说,还是GPT-4系列占据上风。Claude3的表现和宣传有些许出入。如网友总结:GPT-4还是大模型之王!但,免费的“中杯”Claude3(Sonnet)更物超所值。图片大模型竞技场出炉,“新王”排第三Claude3发布时官方的宣
- 科技周边 · 人工智能 | 1年前 | GPT-4 Claude 3 Opus 323浏览 收藏
-
- UniVision的新颖方法:BEV检测和Occ联合统一框架达到最佳水平
- 写在前面&个人理解近年来,自动驾驶技术中以视觉为中心的3D感知迅速取得进展。尽管各种3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在一些差异,这给统一高效的3D感知框架设计带来了挑战。因此,研究人员正努力寻找解决方案,以便更好地整合不同模型之间的差异,从而构建更加完善和高效的3D感知系统。这种努力有望为自动驾驶领域带来更为可靠和先进的技术,使其在复杂环境下具备更强特别是BEV下的检测任务和Occupancy任务,想做好联合训练,还是很难的,不稳定和效果不可控让很多应
- 科技周边 · 人工智能 | 1年前 | 自动驾驶 3D 286浏览 收藏
-
- 2024年ICLR:清华大学胡晓林团队研发RTFS-Net,开拓音视频分离新领域
- 视听语音分离(AVSS)技术的主要目的是在混合信号中识别并分离出目标说话者的声音,利用面部信息来实现这一目标。这项技术在多个领域都有广泛的应用,包括智能助手、远程会议和增强现实等。通过AVSS技术,可以显著改善在嘈杂环境下的语音信号质量,从而提高语音识别和交流的效果。这种技术的发展为人们的日常生活和工作带来了便利,使得人们能够更加轻松传统的视听语音分离方法通常需要复杂的模型和大量的计算资源,特别是在有嘈杂背景或多说话者的情况下,其性能容易受到限制。为了克服这些问题,研究人员开始探索基于深度学习的方法。然而
- 科技周边 · 人工智能 | 1年前 | 产业 清华大学 RTFS-Net 视听语音分离 256浏览 收藏
-
- 实践应用于蚂蚁金服的异常检测和归因诊断技术
- 一、归因诊断在实际工作中,我们常常受到业务方对关键绩效指标(KPI)的灵魂拷问:某个KPI指标为什么会上升或下降?归因诊断的任务就是解释这些指标变化的原因。将问题的定位过程视为一个因素对比的过程,通过归因诊断来分析。在基准时间区间,指标值为y,在当前时间区间,指标值为y',两者的差值为∆y。基于这个变化量∆y,进行因子的拆解并生成一个因子指标树。在每个叶子节点,计算其对整体∆y的贡献度,以确定哪个因子对整体贡献最显著。通过以上过程,就能够解释KPI波动的原因。在实际应用中,可以支持:多时间粒度的对比,包括
- 科技周边 · 人工智能 | 1年前 | 算法 归因诊断 KPI 指标 133浏览 收藏
-
- 减少鸿沟:将数据中心适应人工智能时代
- 现代数据中心,不论规模大小,都需要重新思考电力管理和备份策略,这是创新战略中至关重要的一环。人工智能时代将彻底改变数据中心的现状。各类企业都积极探索如何利用生成式人工智能技术。这就要求他们拥有更先进、更安全、更高效的数据中心设施。超大规模是现代数据中心的理想用户群体,他们拥有资源和能力去寻找新的机遇,并利用最先进的技术来构建全新的基础设施。尽管如此,企业并不必局限于满足更少的需求。通过采用适当的技术来优化房地产使用,可以为人工智能时代改造规模较小的数据中心。这需要仔细考虑为人工智能应用提供动力的计算基础设
- 科技周边 · 人工智能 | 1年前 | 人工智能 数据中心 388浏览 收藏
-
- "Andrew领衔获奖团队,突破物体遮挡补全困难"
- 遮挡是计算机视觉很基础但依旧未解决的问题之一,因为遮挡意味着视觉信息的缺失,而机器视觉系统却依靠着视觉信息进行感知和理解,并且在现实世界中,物体之间的相互遮挡无处不在。牛津大学VGG实验室AndrewZisserman团队最新工作系统性解决了任意物体的遮挡补全问题,并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了MPI大佬MichaelBlack、CVPR官方账号、南加州大学计算机系官方账号等在X平台的点赞。以下为论文「AmodalGroundTruthandCompletionintheW
- 科技周边 · 人工智能 | 1年前 | AI 训练 150浏览 收藏
-
- AI Agents开源库全能功能:写小说、当导购、销售都能胜任
- 近一年来,随着大模型突飞猛进的发展,基于大模型的推理泛化能力的语言智能体(LanguageAgents)展示了通向AGI的巨大潜力。科研和开发者社区也涌现出各种语言智能体的框架和系统,如AutoGPT[1],LangChain[2],SuperAGI[3]等。这些系统能够接受人类提供的简单的指令之后自主规划和执行任务。尽管看起来很炫酷,这些框架和系统的都存在一个非常致命的通病:智能体的运行一旦开始,就几乎脱离了人类的控制,对任务规划和执行一旦出错,就会通过误差传播引起明显的滚雪球效应,因此任务失败概率很高
- 科技周边 · 人工智能 | 1年前 | 工程 Agents 461浏览 收藏
-
- 谷歌推出全新通用AI智能体,改变了3D游戏的玩法
- 谷歌DeepMind号称打造出了首个能在广泛3D虚拟环境和视频游戏中遵循自然语言指令的通用AI智能体。名为SIMA,不是NPC,是可以成为玩家拍档,帮忙干活打杂的那种。比如,在《模拟山羊3》(GoatSimulator3)中当司机开开车:在《幸福工厂》(Satisfactory)中挖矿石:在《瓦尔海姆》(Valheim)中寻找水源:在《无人深空》中(NoMan’sSky)驾驶宇宙飞船射击小行星收集资源:……SIMA全称ScalableInstructableMultiworldAgent,顾名思义可扩展、
- 科技周边 · 人工智能 | 1年前 | AI 数据 373浏览 收藏
-
- OpenAI将GPT集成到机器人系统中,全球通用人工智能时代正逼近!英伟达和微软合资支持独角兽Figure募资26亿美元
- 人形机器人明星公司Figure迎来了高光时刻!就在刚刚,OpenAI与Figure官宣合作,专为人形机器人打造下一代AI多模态模型。图片这项合作最大的目的是,增强机器人处理语言和推理的能力。上个月,机器人Figure01仅使用神经网络煮咖啡的视频走红全网。这一系统完全依靠学习实现,采用端到端的视觉运动策略,以每秒200帧的频率将图像输入转换为低级动作。图片此前视频中,训练10小时的Figure01能够从正确放置胶囊,到启动机器,流程非常娴熟。图片放置胶囊对于人类来说非常简单的动作,Figure01则需要不
- 科技周边 · 人工智能 | 1年前 | 机器人 OpenAI GPT 392浏览 收藏
-
- 如何在工业中利用人工智能?
- 为了扩大GenAI的使用,工业组织需要使部署易于使用,并将该技术集成到正常工作流程中。ChatGPT的上市让人们看到了生成式人工智能(GenAI)的力量和潜力。似乎所有类型的组织都接受了这项技术并正在使用。然而,提供简单问题(提示)的答案是一回事。真正的问题是,组织如何在不中断运营的情况下,安全有效地使用它来产生最大的影响?在处理这个问题之前,我们需要正确理解ChatGPT和GenAI的使用情况。ChatGPT自推出以来,用户数量迅速增长,仅两个月内就达到了1亿活跃用户,创下应用程序用户增长最快的记录。到
- 科技周边 · 人工智能 | 1年前 | 人工智能 工业 Gen AI 335浏览 收藏
-
- 点击即动,腾讯混元携手清华、港科大推出"Follow Your Click"视频大模型
- 编辑|言征出品|51CTO技术栈(微信号:blog51cto)3月15日,腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。当前的图生视频大模型中,一般的生成方法不仅需要用户在提示词中描述运动区域,还需要提供运动指令的详细描述,过程较为复杂。另外,从生成的效果来看,现有图像生成视频技术在移动图像的指定部分上缺乏控制,生成的视频往往需要移动整个场景,而不是图
- 科技周边 · 人工智能 | 1年前 | 模型 清华 腾讯 208浏览 收藏
-
- 揭秘字节跳动万卡集群技术:仅用2天完成GPT-3训练,算力利用率超越英伟达Megatron-LM
- 随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。来自字节和北大的一篇新论文在此时吸引关注:文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。论文还透露,截止2023年9月,字节已建立起超过
- 科技周边 · 人工智能 | 1年前 | AI 模型 490浏览 收藏
查看更多
课程推荐
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- Golang深入理解GPM模型
- Golang深入理解GPM调度器模型及全场景分析,希望您看完这套视频有所收获;包括调度器的由来和分析、GMP模型简介、以及11个场景总结。
- 473次学习
查看更多
AI推荐
-
- 毕业宝AIGC检测
- 毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
- 23次使用
-
- AI Make Song
- AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
- 33次使用
-
- SongGenerator
- 探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
- 30次使用
-
- BeArt AI换脸
- 探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
- 33次使用
-
- 协启动
- SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
- 36次使用