融资
Retab 籌集 350 萬美元並推出人工智慧驅動的平台,將雜亂的文件轉換為結構化數據

對於在物流、金融和醫療等行業中構建人工智慧驅動工具的開發人員來說,一個挑戰始終存在:讓大型語言模型(LLM)可靠地從實際文件中提取數據。PDF 發票、200 頁的報告、手寫表格和掃描的 ID 常常使否則強大的 AI 系統失靈。
Retab 是一家由曾經親身面臨這個問題的工程師創立的新創公司,剛剛推出以解決這個問題。隨著其平台的公開亮相,該公司還宣佈了 350 萬美元的種子輪融資,由 VentureFriends、Kima Ventures 和 K5 Global 領投,Eric Schmidt(通過 StemAI)、Olivier Pomel(Datadog 首席執行官)和 Florian Douetteau(Dataiku 首席執行官)也參與了投資。
Retab 不是另一家 LLM 提供商,而是一家提供 開發人員優先的文件 AI 平台,讓用戶定義要提取的數據,然後處理整個過程:標籤、評估、提示工程、模型基準測試和路由。
“人們不斷構建看起來神奇的 AI 演示,但在生產中卻失敗,” Louis de Benoist,Retab 的共同創始人和首席執行官說。 “我們構建 Retab 是因為我們厭倦了為了從文件中提取幾個字段而搭建脆弱的管道。現在,開發人員可以專注於他們想要的結構 —— 我們會處理其餘的。”
Retab 的工作原理
在其核心,Retab 將 非結構化 文件(PDF、掃描文件、表格)轉換為乾淨的結構化 JSON 或表格輸出,開發人員可以將其直接下載到生產系統中。作為一個 SDK 和平台,它抽象掉了構建 AI 驅動的數據提取工作流的所有複雜性。
使用 Retab 的公司只需描述它們想要的數據結構。Retab 然後自動生成標籤數據集、選擇最佳的 LLM(s)、精煉提示並處理錯誤檢測和重試邏輯。它通過三個核心創新實現生產級別的準確性:
- 自優化結構:Retab 使用內部 AI代理迭代測試和精煉提取指令,使用真實示例,消除了手動調整的需要。
- 智能模型路由:該平台是模型不可知的,並自動基準測試跨 LLM(例如 OpenAI、Anthropic、Google),根據成本、速度和準確性要求將每個文件路由到最佳模型。這使一些用戶能夠將處理成本降低了 100 倍。
- k-LLM 共識和引導推理:Retab 強制逐步推理(鏈式思維)並並行運行多個模型以達到共識。如果仍然存在不確定性,它會被標記或重新計算,讓開發人員對每個答案都有信心。
這個協調層為開發人員提供了將錯誤的文件流(如合同解析、身份驗證或發票分析)轉換為可擴展的、自我糾正的系統的能力。
從物流到基礎設施
創始人最初在物流行業中構建 Retab 的基礎,以自動化文件密集型的內部流程。但是當他們完善工具時,他們意識到其價值遠遠超出了任何單一用例。今天,Retab 已經被數十家公司在以下領域使用:
- 物流:解析提單、海關單和交貨記錄
- 金融:從長篇報告中提取風險因素和財務指標
- 醫療:自動化入院表格、索賠和醫療記錄
一家卡車公司使用 Retab 識別出最小、最快的模型配置,以滿足其 99% 的準確性要求 —— 降低了計算成本和延遲而不犧牲性能。一家金融公司通過使用 Retab 從投資者文件中提取結構化風險指標,將季度分析時間縮短了幾天。
“AI 經濟依賴於將雜亂的人類可讀文件轉換為結構化、可驗證的數據,” Florian Douetteau,Dataiku 的首席執行官說。 “Retab 是使其在大規模上成為可能的平台。”
展望未來
Retab 現在正在擴展超出文件:即將推出的版本將允許用戶從網頁和動態內容中提取數據,開啟競爭分析、合規性抓取和入職自動化等用例的大門。與 Zapier、n8n 和 Dify 等工具的集成也即將推出,讓 Retab 可以無需自定義代碼地插入現有的工作流中。
長期來看,Retab 的目標是成為 世界上非結構化數據和依賴它的 AI 代理之間的中間件層 —— 無論是企業搜索、RPA 還是 AI 共同駕駛。
儘管只有十名員工,Retab 已經被認可為構建 AI 本地產品的開發人員的基礎建設 —— 不僅是一個供應商,而是一個用於運營化實際世界數據混亂現實的工具集。












