
在AI生成式技术重构创意生产的浪潮中,快手作为国内领先的内容科技平台,始终以技术创新为核心驱动力,深耕人工智能领域研发。依托在计算机视觉、机器学习等领域的深厚积累,快手组建专业大模型团队,聚焦“AI赋能创意”核心方向,通过自研大模型与场景化应用深度融合,打造覆盖视频、图像生成的全链路创意工具,为创作者提供高效、专业的生产力支撑。截至2025年8月,快手已自研或联合高校发表CCF-A类顶级论文70余篇,相关成果在计算机视觉领域累计被引超30000次,开源项目在GitHub斩获逾15000星标,构建起坚实的技术创新底座。
当前,AI视频生成领域普遍面临动态效果生硬、风格一致性差、复杂指令响应不足等痛点。针对这些难题,新一代创意生产力平台——可灵AI(Kling AI)通过底层技术突破实现了视频生成能力的全方位升级。可灵AI的核心竞争力源于四大技术维度的创新突破。在模型设计上,采用类Sora的DiT结构,以Transformer替代传统U-Net架构,解决了卷积网络在复杂任务中“感受野与定位精度不可兼得”的局限,同时对隐空间编解码、时序建模模块进行升维优化;创新研发计算高效的3D Attention全注意力机制作为时空建模模块,既能精准捕捉复杂运动轨迹,又能兼顾运算成本,让视频动态效果更自然。在数据保障层面,构建精细化标签体系筛选训练数据,研发专用视频描述模型生成结构化文本,大幅提升模型对文本指令的响应准确度,避免“文本与视觉脱节”问题。计算效率上,摒弃行业主流的DDPM方案,采用传输路径更短的flow模型作为扩散模型基座,在保证生成质量的同时提升运算速度。能力扩展方面,支持直接处理不同长宽比数据以保留原始构图,研发自回归视频时序拓展方案应对数分钟长视频生成需求,还可接入相机运镜、帧率、边缘/深度信息等多类控制输入,为创作者提供灵活的内容调控空间。自2024年6月上线以来,该平台在全球赛道持续领跑。2025年3月,其高品质模式以1000分的ELO评分登顶全球图生视频赛道;5月,新一代模型以1124分蝉联榜首;10月,全新Turbo模型上线10天内,便以1329分和1252分的成绩同时夺得图生视频与文生视频双赛道榜首,在文本响应、动态连贯性、美学呈现等多维度保持全球领先。
对创作者而言,该平台通过便捷操作与专业参数组合,显著降低了创意生产门槛。从产业价值看,其技术突破不仅推动了生成式AI在内容领域的落地,更以“自研大模型+场景化应用”的模式,为行业提供了技术创新、用户价值与产业赋能的完整范式。未来,快手将持续迭代可灵AI的模型能力,围绕更长时长、更高分辨率、更多交互形式的创意需求,深化“AI+内容”融合创新,既为全球创作者提供更强大的生产力工具,也为AI生成式技术的产业化发展注入新动能,持续巩固在视频生成大模型领域的全球领先地位。
陈贝倪/文
京公网安备 11010802028547号