AI开源项目

共 61 篇网址

排序

发布更新浏览点赞

FaceChain

它通过结合Stable Diffusion模型和LoRA风格化模型，为用户提供了一个简单易用的平台来生成个性化的数字形象和写真。无论是用于个人娱乐还是专业需求，FaceChain都能满足用户的多样...

02911

AI开源项目 # AI开源项目|AI图像生成|个性化定制|互动体验|在线编辑|姿态控制|插件支持|数字形象|自定义提示词|风格化写真

ActAnywhere

一个强大的视频生成工具，它通过自动化的前景与背景融合技术，极大地简化了视频背景生成的过程。它的应用场景广泛，从电影制作到教育，都能提供高效、创新的解决方案。

02861

AI开源项目 # AI开源项目|交互式视频编辑|人工智能|内容制作工具|深度学习|自动化创作|自监督学习|视觉效果增强|视频背景生成|零样本生成

MetaGPT

一个创新的多智能体编程框架，它通过模拟人类工作流程和采用标准化操作程序来提高代码生成的质量和效率。该框架特别适合解决复杂的软件开发任务，并为自动化编程和多智能体协作提...

02861

AI开源项目 # AI开源项目|代码生成|元编程框架|协作工程|多智能体系统|标准化操作程序|结构化通信|自动化编程|自我修正机制|软件开发|迭代编程

Boximator

强大的视频合成工具，它通过创新的框约束机制和自跟踪技术，实现了对视频中对象运动的精细控制。这使得它在电影制作、游戏开发、VR/AR内容创作等领域具有广泛的应用潜力。

02831

AI开源项目 # AI开源项目|交互式视频|人工智能|内容创作|动画生成|后期制作|图像处理|机器学习|深度学习|自监督学习|视觉内容创作|视觉特效|视觉跟踪|视频制作|视频合成|视频处理|视频编辑|计算机视觉|运动控制

ScreenAgent

一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。

02811

AI开源项目 # AI开源项目|ScreenAgent|VLM|视觉和语言处理能力|计算机控制智能体

AnimateDiff

通过预训练的运动建模模块，使得用户能够轻松地创作出丰富多样的动画内容，同时保持了原有模型的风格和特性。它的跨领域应用性和易于集成的特点，极大地扩展了个性化动画的创作空间。

02801

AI开源项目 # AI开源项目|Transformer模型|个性化内容生成|动态图像生成|动画生成器|大规模训练|文本到图像模型|无需特定调优|注意力机制|自注意力|视频数据集|跨领域应用|运动先验|运动建模|预训练模块|风格保持|风格迁移

GPT-SoVITS

一个强大的语音合成工具，特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换，支持多种语言，并提供了易于使用的WebUI工具。

02791

AI开源项目 # AI开源项目|个性化助手|人工智能|在线体验|声音编辑|实时转换|开源项目|文本到语音转换|无障碍服务|机器学习|深度学习|自动化工具|虚拟角色配音|语音克隆|语音合成器|语音技术|跨语言支持

Ovis1.6

强大的多模态大模型，它通过创新的架构设计和全面的数据优化，在多模态任务上展现了卓越的性能。

02751

AI开源项目 # AI开源项目

Snap Video

强大的文本到视频合成工具，它通过创新的技术架构和高效的深度学习模型，实现了高质量视频内容的生成。这款工具不仅在视频生成领域具有突破性，还为用户提供了一种全新的创作和表...

02701

AI开源项目 # AI开源项目|AI视频合成|Transformer架构|文本到视频生成|条件生成|深度学习|级联模型|自然语言处理|视频优先模型|运动建模|高分辨率视频

Motionshop

一个创新的AI角色动画框架，通过将视频中的人物替换为3D化身，实现了现实与虚拟的无缝融合。它利用多种先进技术，提供高质量的动画效果，极大地丰富了视频内容的表现形式。

02701

AI开源项目 # AI开源项目|3D渲染|3D角色替换|AI视频编辑|光影同步|动作捕捉|姿态估计|视频分割|视频合成|阿里巴巴出品

DiT

创新的图像生成模型，它通过结合扩散模型和Transformer架构，实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

02691

AI开源项目 # AI开源项目|Transformer架构|上下文条件|交叉注意力|去噪扩散概率模型|变分自编码器|图像生成|条件生成|潜在空间|自注意力机制|自适应层归一化

AnyText

一个创新的多语言视觉文本生成和编辑工具，利用先进的扩散模型技术，能够准确生成和编辑图像中的文本。它不仅支持多种语言和文本风格，还能在复杂的图像背景中保持文本的清晰度和...

02641

AI开源项目 # AI开源项目|图像融合|多语言文本生成|扩散模型|文本感知损失|视觉文本编辑|阿里巴巴智能计算研究院

TextDiffuser-2

一个功能强大的图像生成工具，它通过扩散模型技术，根据文本描述生成高质量的图像。这个工具为用户提供了一种创新的方式来探索和实现他们的创意视觉概念。

02561

AI开源项目 # AI开源项目|AI图像生成|内容创造|创意设计|图像处理|在线工具|数字媒体|文本到图像|深度学习|视觉艺术

Depth Anything

强大的单目深度估计工具，它通过利用大规模未标注数据和先进的数据增强技术，实现了在多种复杂环境下的准确深度预测。其多任务学习和语义辅助功能使其在多个领域都有广泛的应用潜力。

02521

AI开源项目 # AI开源项目|3D建模|AR/VR融合|单目深度估计|图像深度预测|场景理解|多任务学习|数据增强|未标注数据|机器人视觉|特征对齐损失|自动驾驶视觉系统|自训练模型|虚拟对象定位|语义辅助|零样本学习|鲁棒性

Follow Your Pose

Follow Your Pose

一个创新的文本到视频生成框架，它通过两阶段训练策略实现了高度的姿态控制和时间连贯性。该框架不仅能够根据文本描述生成视频，还能让用户通过姿态序列精确控制视频中角色的动作...

02501

AI开源项目 # AI开源项目

Real-ESRGAN

一个强大的图像超分辨率工具，它利用深度学习和生成对抗网络，在没有真实高分辨率图像作为参考的情况下，通过合成退化过程来提升低分辨率图像的质量。

02481

AI开源项目 # AI开源项目|GAN技术|U-Net判别器|图像质量增强|图像超分辨率|开源项目|深度学习模型|盲超分辨率|腾讯ARC实验室|高阶退化模型

DiffusionGPT

一个创新的文本到图像生成系统，它通过结合大语言模型的解析能力和领域专家模型的生成能力，实现了从多样化文本提示到高质量图像的高效转换。

02381

AI开源项目 # AI开源项目|人类反馈优化|优势数据库|即插即用解决方案|多领域适用|大语言模型|开源项目|思维树|文本到图像生成

ReplaceAnything

ReplaceAnything

一个功能强大且用户友好的图像编辑工具，它通过AI技术实现了图像中物体的智能替换。无论是设计师、摄影师还是普通用户，都可以利用这个工具创造出独特的视觉效果，为创意工作带来...

02381

AI开源项目 # AI开源项目|AI图像编辑|产品展示|内容替换|创意工具|在线体验|时尚设计|智能识别|社交媒体|虚拟试衣|证件照制作

书生·物华2.0（3DTopia 2.0）

书生·物华2.0（3DTopia 2.0）

采用创新的原语（primitive-based）三维表示方法PrimX，能够高效编码和生成具有物理基础渲染（PBR）特性的高质量三维资产。

02361

AI开源项目 # AI开源项目

GOT-OCR2.0

创新的OCR模型，它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景，GOT-OCR 2.0都能提供强大的支持。

02331

AI开源项目 # AI开源项目|交互式OCR|光学字符识别|动态分辨率|医疗记录|场景文本识别|多模态识别|多语言识别|多页OCR|文档数字化|物流|票据处理|身份验证|长文本处理

EMO

EMO通过其先进的音频驱动视频生成技术，为用户带来了一种创新的方式来创造个性化和富有表现力的视频内容。它不仅能够生成逼真的面部表情，还能根据音频内容自然地驱动头部动作，为...

02311

AI开源项目 # AI开源项目|AI视频生成|动态帧过渡|多风格适应|头部姿势估计|实时交互式|稳定控制机制|跨语言支持|身份一致性保持|面部表情识别|音频驱动动画

StoryMaker

通过先进的 AI 技术，为创作者提供了一种生成具有高度一致性和个性化特征的图像序列的方法，特别适合需要角色和场景连贯性的创意项目

02301

AI开源项目 # AI开源项目|LoRA技术|个性化图像|交叉注意力控制|叙事创作|多角色处理|文本到图像生成|角色一致性|面部特征识别|高保真图像

cogvlm2-llama3-caption

cogvlm2-llama3-caption

强大的视频描述生成工具，通过先进的多模态处理和上下文感知能力，为用户提供了一种快速理解视频内容的方法。它的实时处理能力和定制化描述功能，使其在多种应用场景中都非常有用。

02291

AI开源项目 # AI开源项目

Make-A-Character

Make-A-Character

创新的3D角色生成框架，它通过文本描述快速创建逼真的3D角色，具有高度的定制性和逼真度。它结合了最新的人工智能技术，提供了一个直观、灵活且高效的角色创建解决方案，适用于多...

02211

AI开源项目 # AI开源项目|3D建模|CG技术|交互式设计|人工智能|元宇宙|动态表现|动画制作|实时渲染|数字人类|文本到图像|游戏开发|电影制作|纹理映射|自定义角色|虚拟主播|虚拟形象|视觉内容创建|视觉感知|资产库|面部捕捉

OpenCodeInterpreter

OpenCodeInterpreter

通过结合大型语言模型和代码执行反馈，提供了一个强大的工具，可以帮助开发者在软件开发过程中提高效率和质量。

02191

AI开源项目 # AI开源项目|交互式代码开发|人工智能编程辅助|代码优化|代码反馈机制|代码执行与测试|代码自动生成|多轮对话系统|大型语言模型|开源工具|数据集训练|模型微调|编程语言支持|自然语言处理|软件开发

PortraitGen

AI人像视频编辑工具，它通过先进的技术实现了对视频中人物的高质量编辑。无论是在影视制作、艺术创作、广告宣传、时尚展示、社交媒体还是游戏开发等领域，PortraitGen都能提供高效...

02191

AI开源项目 # AI开源项目|3D高斯溅射|AI视频编辑|人脸感知编辑|光照调节|多模态编辑|虚拟试穿|风格转换

Vary-toy

一个小型但功能强大的视觉语言模型，它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。

02171

AI开源项目 # AI开源项目|图像描述|多模态交互|对象检测|文档识别|自监督学习|视觉词汇网络|视觉问答|资源高效|轻量级模型

Draw an Audio

创新的视频生成音频系统，它通过先进的AI技术，能够自动分析视频内容并生成与之匹配的声音效果。

02111

AI开源项目 # AI开源项目|人工智能|声音设计|多指令输入|媒体制作|自动Foley技术|自动同步|视频生成音频

美图奇想大模型

提升了视频和图像的生成质量，广泛应用于影像美化、视频剪辑、电商设计、口播视频制作、广告营销和游戏设计等多个领域

01961

AI开源项目 # AI开源项目|AI视觉模型|图像生成|广告营销|影像美化|游戏设计|电商设计|美学创作|视频生成