生成式人工智能數據過載,小目標或爲出路

“沒有數據就不存在人工智能,沒有非結構化數據也不存在人工智能,沒有大規模的非結構化數據更是不存在人工智能,”數據管理公司 DataStax 的董事長兼首席執行官 Chet Kapoor 說道。

Kapoor 在 TechCrunch Disrupt 2024 活動中開啓了一場有關現代人工智能應用背景下“新數據管道”的對話,風險投資公司 NEA 的合夥人 Vanessa Larco和數據集成平臺 Fivetran 的首席執行官George Fraser也參與其中。雖然這次聊天涵蓋了多個方面,比如數據質量的重要性以及實時數據在生成式人工智能中的作用,但其中一個重要收穫在於,在人工智能仍處於早期階段時,優先考慮產品與市場的契合度而非規模很重要。對於想要投身於生成式人工智能這一令人眼花繚亂世界的公司,給出的建議很直接——一開始不要過於雄心勃勃,要專注於實際的、漸進的進展。原因?我們實際上仍在摸索。

“對於生成式人工智能,最重要的是一切都取決於人,”Kapoor 說。“那些實際去開展並完成最初幾個項目的特別行動小組——他們並非在閱讀手冊,而是正在編寫如何製作生成式人工智能應用程序的手冊。”

雖然數據和人工智能確實是相輔相成的,但一家公司可能擁有的海量數據很容易使人應接不暇,其中一些數據可能是敏感的,受到嚴格保護,甚至可能存儲在無數個地方。拉科與 B2C 和 B2B 領域的衆多初創公司合作(並在其董事會任職),他提出了一種簡單卻實用的方法,在早期階段挖掘真正的價值。

“爲你試圖完成的事逆向思考——你試圖解決什麼問題,你需要什麼樣的數據?”拉科說。“找到那些數據,無論它在哪裡,然後將其用於此目的。”

這與從一開始就試圖在整個公司大肆推廣生成式人工智能的做法形成鮮明對比,把所有數據一股腦兒扔給大型語言模型(LLM)並指望最終能得出正確結果。據拉爾科所言,那樣很可能會造成不準確且代價高昂的混亂局面。“從小處着手,”她說。“我們所看到的是,公司從小處入手,先從內部應用程序做起,有着非常明確的目標,然後去找到與他們想要達成的目標相匹配的數據。”

弗雷澤在 12 年前創立了“數據移動”平臺 Fivetran,在這個過程中積累了諸如 OpenAI 和 Salesforce 等大牌客戶。他建議公司應重點關注他們當前面臨的實際問題。

“只解決你今天面臨的問題;這就是準則,”弗雷澤說。

創新的成本 99%總是出在你所構建但未成功的那些方面,而非在那些成功的、你希望自己能提前爲規模做好規劃的方面。

儘管這些是我們事後總會思考的問題,但這並非你所承擔成本的 99%。

就像網絡發展的早期以及最近的智能手機革命,生成式人工智能的早期應用和用例已讓人瞥見一個強大的、由人工智能驅動的新未來。

但到目前爲止,它們不一定是具有顛覆性的。

“我將此稱爲生成式人工智能的‘憤怒的小鳥’時代,”卡普爾說道。“它還沒完全改變我的生活,還沒人給我洗衣服呢。”

今年,我合作的每一家企業都在把一些東西投入生產——規模小,內部使用,但確實在投入生產,因爲他們實際上正在解決難題,研究如何組建團隊來實現這一目標。

明年就是我所說的轉型之年,到時候人們會開始開發實際上能改變他們所在公司發展軌跡的應用程序。