4 個小時課程!不限基礎和語言!免費學習!專門為開發者量身打造的『從 0 到 1 入門 AI 大模型』
開源大模型平臺
科大訊飛推出的新一代認知智能大模型
知識庫大模型,智能客服,智能問答,AI寫作
IndexTTS2 是一個突破性的自回歸語音合成模型,旨在解決大規模文本到語音(TTS)系統在精確時長控制和情感表達方面的挑戰。
專注于語言模型(LLM)SQL 能力評測的專業平臺,構建了全面且具實踐價值的 SQL 能力排行榜(SCALE),為開發者、數據庫管理員及企業技術決策者提供關鍵參考
美團自主研發的生成式AI大模型,模型具備強大的多模態能力,能處理文本、圖像等多種數據類型
Kimi K2 是北京月之暗面科技有限公司于 2025 年 7 月 11 日推出的開源大語言模型。
MMAudio是一個多模態音頻生成模型,旨在通過視頻和/或文本輸入生成高質量、同步的音頻。
Veo 3 是 Google DeepMind 推出的新一代視頻生成模型,專為電影制作人、故事講述者和創意工作者設計,將視頻與音頻無縫結合,開啟生成式 AI 的創作新篇章。
字節跳動開發的AI視頻生成模型,模型能夠根據文本或圖像生成高質量的視頻內容,支持多鏡頭切換、穩定運動軌跡和風格化控制,適用于創意內容創作、廣告制作和教育演示等場景。
Hallo 是一個由復旦大學(Fudan University)開發的開源項目,專注于音頻驅動的視覺合成技術,特別是用于人像動畫生成。
MuseTalk 是一個實時高質量音頻驅動唇形同步模型,旨在解決高分辨率、身份一致性和準確唇形同步的面部視覺配音挑戰,尤其適用于實時應用如直播視頻 。
SadTalker 是一個基于單張圖像和音頻生成說話人臉視頻的模型,其核心功能是通過音頻輸入使靜態圖片中的圖像動起來,并生成說話的虛擬人物。
一款高性能文本到語音(TTS)系統,基于流匹配的非自回歸生成方法,結合了擴散變換器(DiT)技術。
Seed-TTS 是由字節跳動開發的高級文本到語音(TTS)模型系列,旨在生成高質量、幾乎無法與人類語音區分的語音。
MiniMind項目旨在從零開始訓練一個輕量級語言模型(LLM),并提供完整的訓練、微調、推理和部署流程。
Qwen-Image 是阿里通義千問團隊于2025年8月5日開源的200億參數圖像生成基礎模型,采用MMDiT架構,專為復雜文本渲染與高精度圖像生成設計。
gpt-oss 是 OpenAI 開發的開源模型,支持推理、代理任務和開發者使用場景。
Moondream 是一個開源的輕量級視覺語言模型,由開發者 vikhyatk 推出,旨在提供高效、靈活的圖像理解和文本生成能力。
“林哥的大模型野榜”是一個專注于中國用戶需求的大模型產品排行榜,旨在幫助用戶更好地了解和選擇適合的大模型產品。
元象大模型XChat是一款由元象科技自主研發的高性能通用人工智能大模型,旨在降低開發門檻與推理成本,滿足多任務需求。
訊飛星辰MaaS平臺是科大訊飛推出的一款一站式大模型定制精調平臺,旨在為開發者和企業用戶提供低門檻、全棧式的大模型應用開發服務。
達醫智影是阿里巴巴達摩院醫療AI實驗室研發的一款創新性AI醫療工具,專注于CT智能讀片和癌癥篩查領域。
53AI企業大模型應用平臺是大中型企業廣泛采用大模型落地應用平臺,系統實現對全部主流大模型的統一納管,包括DeepSeeK、OpenAI、Azure OpenAI、文心一言、訊飛星火、零一、LlaMa等。
FaceChain 是一個基于深度學習技術的個性化數字形象生成工具,利用生成對抗網絡(GANs)和 Stable Diffusion 模型,通過少量照片生成高度個性化的數字形象。
Whisper 是 OpenAI 開發的一款強大的語音識別模型,具有多語言支持、語音翻譯和語言識別等多功能能力。
DDColor 是一種由阿里巴巴達摩院研發的先進圖像上色技術,旨在通過深度學習技術將黑白或灰度圖像轉換為逼真且生動的彩色圖像。
LivePortrait是一款由快手科技與中國科學技術大學、復旦大學共同研發的AI驅動肖像動畫工具,旨在將靜態肖像圖像轉化為逼真的動態視頻。
EchoMimic 是螞蟻集團開發的一款基于音頻驅動的肖像動畫生成工具,旨在通過音頻和面部標志點生成逼真的動態視頻。
CosyVoice是一款由阿里巴巴通義實驗室開發并開源的多語言語音生成模型,專注于自然語音生成、音色克隆和情感控制。
AnchorCrafter 是由中國科學院與騰訊聯合推出的一項創新技術,旨在通過人工智能生成高保真度的產品推廣視頻。
Goku視頻生成模型是由中國香港大學與字節跳動聯合推出的一款AI視頻生成工具,能夠實現文本到視頻、圖像到視頻以及文本到圖像等多種生成方式。
友鏈申請免責聲明廣告合作關于本站