開(kāi)源大模型平臺(tái)
科大訊飛推出的新一代認(rèn)知智能大模型
知識(shí)庫(kù)大模型,智能客服,智能問(wèn)答,AI寫(xiě)作
一個(gè)與人工智能(AI)模型評(píng)估和比較相關(guān)的平臺(tái),其核心功能是通過(guò)用戶投票和社區(qū)參與的方式,對(duì)大型語(yǔ)言模型(LLM)進(jìn)行評(píng)測(cè)和排名。
AI Ping是面向大模型使用者,提供全面、客觀、真實(shí)的大模型服務(wù)評(píng)測(cè)與信息匯總平臺(tái)。提供長(zhǎng)周期、高頻率、多時(shí)段評(píng)測(cè)數(shù)據(jù),助力您高效完成大模型服務(wù)的選型與供應(yīng)商評(píng)估
MonkeyOCR是一款開(kāi)源文檔解析模型,專注于高效、精準(zhǔn)地解析復(fù)雜結(jié)構(gòu)化文檔。
IndexTTS2 是一個(gè)突破性的自回歸語(yǔ)音合成模型,旨在解決大規(guī)模文本到語(yǔ)音(TTS)系統(tǒng)在精確時(shí)長(zhǎng)控制和情感表達(dá)方面的挑戰(zhàn)。
專注于語(yǔ)言模型(LLM)SQL 能力評(píng)測(cè)的專業(yè)平臺(tái),構(gòu)建了全面且具實(shí)踐價(jià)值的 SQL 能力排行榜(SCALE),為開(kāi)發(fā)者、數(shù)據(jù)庫(kù)管理員及企業(yè)技術(shù)決策者提供關(guān)鍵參考
美團(tuán)自主研發(fā)的生成式AI大模型,模型具備強(qiáng)大的多模態(tài)能力,能處理文本、圖像等多種數(shù)據(jù)類型
Kimi K2 是北京月之暗面科技有限公司于 2025 年 7 月 11 日推出的開(kāi)源大語(yǔ)言模型。
MMAudio是一個(gè)多模態(tài)音頻生成模型,旨在通過(guò)視頻和/或文本輸入生成高質(zhì)量、同步的音頻。
Veo 3 是 Google DeepMind 推出的新一代視頻生成模型,專為電影制作人、故事講述者和創(chuàng)意工作者設(shè)計(jì),將視頻與音頻無(wú)縫結(jié)合,開(kāi)啟生成式 AI 的創(chuàng)作新篇章。
字節(jié)跳動(dòng)開(kāi)發(fā)的AI視頻生成模型,模型能夠根據(jù)文本或圖像生成高質(zhì)量的視頻內(nèi)容,支持多鏡頭切換、穩(wěn)定運(yùn)動(dòng)軌跡和風(fēng)格化控制,適用于創(chuàng)意內(nèi)容創(chuàng)作、廣告制作和教育演示等場(chǎng)景。
Hallo 是一個(gè)由復(fù)旦大學(xué)(Fudan University)開(kāi)發(fā)的開(kāi)源項(xiàng)目,專注于音頻驅(qū)動(dòng)的視覺(jué)合成技術(shù),特別是用于人像動(dòng)畫(huà)生成。
MuseTalk 是一個(gè)實(shí)時(shí)高質(zhì)量音頻驅(qū)動(dòng)唇形同步模型,旨在解決高分辨率、身份一致性和準(zhǔn)確唇形同步的面部視覺(jué)配音挑戰(zhàn),尤其適用于實(shí)時(shí)應(yīng)用如直播視頻 。
SadTalker 是一個(gè)基于單張圖像和音頻生成說(shuō)話人臉視頻的模型,其核心功能是通過(guò)音頻輸入使靜態(tài)圖片中的圖像動(dòng)起來(lái),并生成說(shuō)話的虛擬人物。
一款高性能文本到語(yǔ)音(TTS)系統(tǒng),基于流匹配的非自回歸生成方法,結(jié)合了擴(kuò)散變換器(DiT)技術(shù)。
Seed-TTS 是由字節(jié)跳動(dòng)開(kāi)發(fā)的高級(jí)文本到語(yǔ)音(TTS)模型系列,旨在生成高質(zhì)量、幾乎無(wú)法與人類語(yǔ)音區(qū)分的語(yǔ)音。
MiniMind項(xiàng)目旨在從零開(kāi)始訓(xùn)練一個(gè)輕量級(jí)語(yǔ)言模型(LLM),并提供完整的訓(xùn)練、微調(diào)、推理和部署流程。
Qwen-Image 是阿里通義千問(wèn)團(tuán)隊(duì)于2025年8月5日開(kāi)源的200億參數(shù)圖像生成基礎(chǔ)模型,采用MMDiT架構(gòu),專為復(fù)雜文本渲染與高精度圖像生成設(shè)計(jì)。
gpt-oss 是 OpenAI 開(kāi)發(fā)的開(kāi)源模型,支持推理、代理任務(wù)和開(kāi)發(fā)者使用場(chǎng)景。
Moondream 是一個(gè)開(kāi)源的輕量級(jí)視覺(jué)語(yǔ)言模型,由開(kāi)發(fā)者 vikhyatk 推出,旨在提供高效、靈活的圖像理解和文本生成能力。
“林哥的大模型野榜”是一個(gè)專注于中國(guó)用戶需求的大模型產(chǎn)品排行榜,旨在幫助用戶更好地了解和選擇適合的大模型產(chǎn)品。
元象大模型XChat是一款由元象科技自主研發(fā)的高性能通用人工智能大模型,旨在降低開(kāi)發(fā)門(mén)檻與推理成本,滿足多任務(wù)需求。
訊飛星辰MaaS平臺(tái)是科大訊飛推出的一款一站式大模型定制精調(diào)平臺(tái),旨在為開(kāi)發(fā)者和企業(yè)用戶提供低門(mén)檻、全棧式的大模型應(yīng)用開(kāi)發(fā)服務(wù)。
達(dá)醫(yī)智影是阿里巴巴達(dá)摩院醫(yī)療AI實(shí)驗(yàn)室研發(fā)的一款創(chuàng)新性AI醫(yī)療工具,專注于CT智能讀片和癌癥篩查領(lǐng)域。
53AI企業(yè)大模型應(yīng)用平臺(tái)是大中型企業(yè)廣泛采用大模型落地應(yīng)用平臺(tái),系統(tǒng)實(shí)現(xiàn)對(duì)全部主流大模型的統(tǒng)一納管,包括DeepSeeK、OpenAI、Azure OpenAI、文心一言、訊飛星火、零一、LlaMa等。
FaceChain 是一個(gè)基于深度學(xué)習(xí)技術(shù)的個(gè)性化數(shù)字形象生成工具,利用生成對(duì)抗網(wǎng)絡(luò)(GANs)和 Stable Diffusion 模型,通過(guò)少量照片生成高度個(gè)性化的數(shù)字形象。
Whisper 是 OpenAI 開(kāi)發(fā)的一款強(qiáng)大的語(yǔ)音識(shí)別模型,具有多語(yǔ)言支持、語(yǔ)音翻譯和語(yǔ)言識(shí)別等多功能能力。
DDColor 是一種由阿里巴巴達(dá)摩院研發(fā)的先進(jìn)圖像上色技術(shù),旨在通過(guò)深度學(xué)習(xí)技術(shù)將黑白或灰度圖像轉(zhuǎn)換為逼真且生動(dòng)的彩色圖像。
LivePortrait是一款由快手科技與中國(guó)科學(xué)技術(shù)大學(xué)、復(fù)旦大學(xué)共同研發(fā)的AI驅(qū)動(dòng)肖像動(dòng)畫(huà)工具,旨在將靜態(tài)肖像圖像轉(zhuǎn)化為逼真的動(dòng)態(tài)視頻。
EchoMimic 是螞蟻集團(tuán)開(kāi)發(fā)的一款基于音頻驅(qū)動(dòng)的肖像動(dòng)畫(huà)生成工具,旨在通過(guò)音頻和面部標(biāo)志點(diǎn)生成逼真的動(dòng)態(tài)視頻。
友鏈申請(qǐng)免責(zé)聲明廣告合作關(guān)于本站