Connect with us

融资

Retab 籌集 350 萬美元並推出人工智慧驅動的平台,將雜亂的文件轉換為結構化數據

mm

對於在物流、金融和醫療等行業中構建人工智慧驅動工具的開發人員來說,一個挑戰始終存在:讓大型語言模型(LLM)可靠地從實際文件中提取數據。PDF 發票、200 頁的報告、手寫表格和掃描的 ID 常常使否則強大的 AI 系統失靈。

Retab 是一家由曾經親身面臨這個問題的工程師創立的新創公司,剛剛推出以解決這個問題。隨著其平台的公開亮相,該公司還宣佈了 350 萬美元的種子輪融資,由 VentureFriendsKima VenturesK5 Global 領投,Eric Schmidt(通過 StemAI)、Olivier Pomel(Datadog 首席執行官)和 Florian Douetteau(Dataiku 首席執行官)也參與了投資。

Retab 不是另一家 LLM 提供商,而是一家提供 開發人員優先的文件 AI 平台,讓用戶定義要提取的數據,然後處理整個過程:標籤、評估、提示工程、模型基準測試和路由。

“人們不斷構建看起來神奇的 AI 演示,但在生產中卻失敗,” Louis de Benoist,Retab 的共同創始人和首席執行官說。 “我們構建 Retab 是因為我們厭倦了為了從文件中提取幾個字段而搭建脆弱的管道。現在,開發人員可以專注於他們想要的結構 —— 我們會處理其餘的。”

Retab 的工作原理

在其核心,Retab 將 非結構化 文件(PDF、掃描文件、表格)轉換為乾淨的結構化 JSON 或表格輸出,開發人員可以將其直接下載到生產系統中。作為一個 SDK 和平台,它抽象掉了構建 AI 驅動的數據提取工作流的所有複雜性。

使用 Retab 的公司只需描述它們想要的數據結構。Retab 然後自動生成標籤數據集、選擇最佳的 LLM(s)、精煉提示並處理錯誤檢測和重試邏輯。它通過三個核心創新實現生產級別的準確性:

  • 自優化結構:Retab 使用內部 AI代理迭代測試和精煉提取指令,使用真實示例,消除了手動調整的需要。
  • 智能模型路由:該平台是模型不可知的,並自動基準測試跨 LLM(例如 OpenAI、Anthropic、Google),根據成本、速度和準確性要求將每個文件路由到最佳模型。這使一些用戶能夠將處理成本降低了 100 倍。
  • k-LLM 共識和引導推理:Retab 強制逐步推理(鏈式思維)並並行運行多個模型以達到共識。如果仍然存在不確定性,它會被標記或重新計算,讓開發人員對每個答案都有信心。

這個協調層為開發人員提供了將錯誤的文件流(如合同解析、身份驗證或發票分析)轉換為可擴展的、自我糾正的系統的能力。

從物流到基礎設施

創始人最初在物流行業中構建 Retab 的基礎,以自動化文件密集型的內部流程。但是當他們完善工具時,他們意識到其價值遠遠超出了任何單一用例。今天,Retab 已經被數十家公司在以下領域使用:

  • 物流:解析提單、海關單和交貨記錄
  • 金融:從長篇報告中提取風險因素和財務指標
  • 醫療:自動化入院表格、索賠和醫療記錄

一家卡車公司使用 Retab 識別出最小、最快的模型配置,以滿足其 99% 的準確性要求 —— 降低了計算成本和延遲而不犧牲性能。一家金融公司通過使用 Retab 從投資者文件中提取結構化風險指標,將季度分析時間縮短了幾天。

“AI 經濟依賴於將雜亂的人類可讀文件轉換為結構化、可驗證的數據,” Florian Douetteau,Dataiku 的首席執行官說。 “Retab 是使其在大規模上成為可能的平台。”

展望未來

Retab 現在正在擴展超出文件:即將推出的版本將允許用戶從網頁和動態內容中提取數據,開啟競爭分析、合規性抓取和入職自動化等用例的大門。與 Zapier、n8n 和 Dify 等工具的集成也即將推出,讓 Retab 可以無需自定義代碼地插入現有的工作流中。

長期來看,Retab 的目標是成為 世界上非結構化數據和依賴它的 AI 代理之間的中間件層 —— 無論是企業搜索、RPA 還是 AI 共同駕駛。

儘管只有十名員工,Retab 已經被認可為構建 AI 本地產品的開發人員的基礎建設 —— 不僅是一個供應商,而是一個用於運營化實際世界數據混亂現實的工具集。

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。