LeRobot 是由 Hugging Face 推出的一個開源機器人項目,旨在通過提供模型、數據集和工具,降低機器人開發的門檻,使更多人能夠參與和受益于機器人技術的發展。
一鍵將音視頻轉化為小紅書/公眾號/知識筆記/思維導圖/視頻字幕等各種風格的文檔。
PPTist 是一個基于 Web 的演示文稿(幻燈片)應用,旨在為用戶提供類似于 Microsoft Office PowerPoint 的功能。
opencode 是一個專為終端設計的 AI 編程代理(AI coding agent),旨在提供類似 Claude Code 的功能。支持 OpenAI、Google、Anthropic 等模型,甚至本地模型。
MultiTalk 是一個音頻驅動的多人物對話視頻生成系統,支持多人對話、互動控制、卡通角色生成、唱歌等。
Edge-TTS 是一個基于微軟 Azure 文本轉語音(TTS)功能的 Python 庫,旨在為開發者提供簡單、高效、免費的文本轉語音解決方案。
GPT-SoVITS 是一款創新的開源聲音克隆工具,它將 GPT 模型與 SoVITS 技術相結合,能夠在樣本數據極少的情況下,實現高質量的語音克隆和文本到語音轉換(TTS)。
Fish Speech 是一個由 Fish Audio 團隊開發的文本轉語音(TTS)技術,旨在利用先進的機器學習和深度學習技術將文字轉換為自然流暢的語音輸出。
百度飛槳(PaddlePaddle)平臺上的一個開源語音處理工具包,旨在為語音識別、語音合成、語音翻譯、語音識別、語音分類、語音標點恢復、語音情感分析等任務提供全面的解決方案。
Xinference 是一個功能強大且功能全面的分布式推理框架,旨在簡化大語言模型(LLM)、語音識別、多模態模型等多種AI模型的推理任務。
DroidRun 是一個開源框架,旨在通過自然語言命令控制 Android 設備,實現移動設備的自動化操作。
Browser Use 是一款專為大語言模型設計的智能瀏覽器工具。它是將 AI 智能體與瀏覽器連接起來的最簡單方式,通過提供強大且簡單的瀏覽器自動化接口,讓 AI 智能體能夠訪問各類網站。
olmOCR是一個用于將PDF、圖像等基于圖像的文檔轉換為可讀、純文本格式的工具。
一個完全本地運行的 AI 助手,旨在替代傳統云端 AI 服務,提供多種功能,包括智能網頁瀏覽、代碼編寫、任務規劃、語音交互等,支持多種編程語言和多語言支持。
MCP Feedback Enhanced 是一個基于 Model Context Protocol(MCP)的反饋驅動開發工具,旨在通過用戶確認而非推測操作,優化AI交互流程,提升開發效率。
awesome-llm-apps 是一個開源項目集合,旨在展示如何利用先進語言模型(如 RAG 和 AI 代理)構建實用應用程序。
Gemini CLI 是一個開源的 AI 代理工具,由 Google 開發,旨在將 Gemini 模型的強大功能直接集成到開發者的終端中 。
小智 AI 聊天機器人是一款基于開源硬件和開源軟件的智能對話設備,旨在幫助用戶入門 AI 硬件開發和 AI 模型應用。
WeKnora是一款基于大語言模型的文檔理解與語義檢索框架,專為結構復雜、內容異構的文檔場景而打造。
Coze Studio 是由字節跳動開發并開源的一站式 AI Agent 開發工具,旨在為開發者提供從開發到部署的全方位支持,幫助他們快速構建和調試智能體、應用和工作流 。
PoloAPI 是一個專注于大模型 API 聚合服務的平臺,旨在幫助開發者和企業快速接入和使用多種 AI 模型,如 Claude、OpenAI、Gemini 等。
EmotiVoice是一個強大的開源TTS引擎,完全免費,支持中英文雙語,包含2000多種不同的音色,以及特色的情感合成功能,支持合成包含快樂、興奮、悲傷、憤怒等廣泛情感的語音。
MotionAgent是一個能將用戶創造的劇本生成視頻的深度學習模型工具。用戶通過我們提供的工具組合,進行劇本創作、劇照生成、圖片/視頻生成、背景音樂譜寫等工作。
DreamTalk是一個基于擴散模型的音頻驅動表達性頭部生成框架,核心功能是將靜態人物照片轉化為逼真、富有表現力的說話視頻。
AniPortrait 是騰訊游戲智跡團隊開發的一款創新的音頻驅動肖像動畫生成框架,能夠通過音頻和參考肖像圖像生成高質量的動態視頻。
IDM-VTON是一款基于深度學習和擴散模型的虛擬試衣技術,旨在通過高保真度的圖像生成實現逼真的虛擬試穿效果。
Diffutoon 是一種基于擴散模型的高分辨率可編輯卡通著色技術,其核心功能是將真實視頻轉換為動漫風格,同時保持內容的一致性和高質量。
MindSearch是一款由上海人工智能實驗室聯合研發的開源AI搜索引擎框架,旨在通過模仿人類的思維過程,高效地處理復雜信息搜集與整合任務。
Midscene.js 是一個基于人工智能(AI)技術的自動化 SDK,旨在簡化用戶界面(UI)自動化測試流程,提高測試效率和準確性。
易于上手的多平臺聊天機器人及開發框架。松耦合 / 異步 / 多消息平臺部署 / 易用的插件系統 / 完善的大語言模型(LLM)接入
FireRedTTS是一款由小紅書技術團隊開發的基于大語言模型(LLM)的語音合成系統,旨在為用戶提供高效、多樣化的語音生成服務。
RAGFlow是一款基于深度文檔理解技術的開源RAG(檢索增強生成)引擎,旨在為企業和個人提供高效、準確的文本處理和問答功能。
友鏈申請免責聲明廣告合作關于本站