purple team working with ai

紫隊演練:與 AI 協作

以下是商業物理人工智能實驗室團隊成員的一系列交流: 托馬斯·霍爾馬扎·道Vinay Kumar, 希切姆 賓士(Benzair), 阿布巴卡尔 薩馬克, 安洛克奎爾 以及我們的 AI 代理,查理和莉娜.

商業物理學人工智慧實驗室如何在人機協作軟體開發中保留判斷力

許多團隊現在都利用 AI 來生成程式碼、建議修復、重構函數、撰寫文件,並加快交付速度。生產力確實有所提升,但風險也隨之而來。人類與 AI 之間的互動越快速,工作背後的推理就越容易消失。提出一個提示,接受一個建議,一個功能不斷演進,程式碼就完成交付了。然而,在決策背後的邏輯,可能隨著工作的推進而迅速淡忘。.

對我們來說,這不僅是文件記錄問題,更是我們在實驗室中運行 AI 模擬的專業實踐。.

在商業物理人工智能實驗室,我們關心的不僅僅是程式碼是否有效。我們更在乎程式碼背後的判斷過程是否足夠清晰,以便審查、比較和改進。我們想知道選擇某條路徑的原因、哪些證據使其值得信賴、工程師覆蓋了什麼、哪些限制影響了決策、接受了哪些權衡,以及團隊從中學到了什麼。.

這也是為什麼我們提議的合作團隊,我們稱之為 紫隊小徑.

「紫隊步道」是我們在人工智慧軟體開發中保存判斷軌跡的一種方式。它為快速變動的工作提供結構,以便人類和 AI 的貢獻能夠隨著時間保持可見性。它幫助我們在想法還新鮮時就能擷取其推理過程,在工作生命週期的不同階段比較不同觀點,並將交付成果轉化為學習,而不是讓它消失在已完成的成品中。.

在實際應用層面, 紅隊 尋找弱點。它挑戰假設,測試信心是否合理,並詢問事物可能在哪裡失敗。 藍隊 注重點在於保護與穩定。它審視哪些部分必須可靠運行,哪些需要安全防護,以及團隊在實際使用中必須準備支援哪些方面。 紫隊 連接了雙方。它有助於比較被挑戰的事項、被保護的事項以及學到的知識。在我們的實驗室中,這個角色更進一步:紫隊有助於保存判斷軌跡,以便人類與人工智能的互補性變得可見、可審查且長久可用。.

商業物理學人工智能實驗室將人工智能代理作為其營運模式的一部分。這有助於實驗室透過結合人類和人工智能的貢獻來擴大工作規模。即便如此,人類始終保持控制。在這個人機互補模型中,每個資源都會產生一個 README 區塊,以保留判斷軌跡、釐清角色並使決策可供審查。在整個過程中都保持人類監督,並且人類始終參與所有活動。.

為什麼我們建立這種方法

商業物理人工智能實驗室的存在是為了理解和改善人類與智能系統協同工作的方式。這意味著我們不僅關心結果,還關心驅動這些結果的因素:動機、阻力、回饋、信任、適應和決策品質。.

軟體開發是目前最能清晰顯現這些力量的地方之一。.

AI 可以幫助開發者加快速度、探索更多選項並減少重複性工作。但速度本身並不足夠。事實上,速度可能會產生一種新的摩擦:消失的推理的摩擦。代碼可能看起來很精緻,但其背後的過程可能並不清楚。這會削弱知識共享,使入職培訓更加困難,縮小代碼審查的範圍,並降低組織從其構建的內容中學習的能力。.

換句話說,程式碼可能隨處可見,但其背後的專業判斷卻變得不可見。.

這就是我們想解決的問題。.

我們需要一種方法來保存判斷,同時又不至於造成繁瑣的流程。我們需要一種方式,讓人類與人工智慧的互動足夠清晰,以便支持反思、比較和問責。而且,我們需要一些小型團隊、研究小組和敏捷工作環境能夠實際使用的東西。.

這就是為什麼紫隊試驗(Purple Team Trail)處於我們營運的中心。.

“「紫色團隊(Purple Team)路線圖之所以特別有價值,是因為它能讓重要的決策在整個工作流程中變得可見、可質疑且有條理,進而有助於保護 CIA 三元組 — 機密性(Confidentiality)、完整性(Integrity)與可用性(Availability),如此一來,安全問題就能儘早被發現,而不至於後知後覺。」– Hichem Benzair

有多少小型軟體團隊今天使用人工智能

許多中小型軟體團隊已經在實際應用中使用了人工智慧。工程師利用它來生成程式碼、重構功能、起草測試、總結需求、製作文件、加速原型開發以及探索技術選項。從這個意義上說,人工智慧已經成為日常工作流程的一部分。問題不在於團隊未使用 AI,而在於這種使用往往是快速、個人化且僅有少量記錄的。產出被保存下來,但其背後的推理卻常常沒有。這正是 Purple Team Trail 旨在彌補的差距。.

紫色團隊為何重要

在許多組織中,紫隊被描述為紅隊和藍隊思維之間的橋樑。在我們的實驗室中,這個想法很有用,但不夠全面。.

對我們來說,紫隊是審計軌跡的管理者。.

這就是其中心所在。.

紅隊有助於揭露薄弱的假設、過度的自信,以及輸出結果可能看起來比其背後理由更強的領域。藍隊則致力於保護在實際運作中必須保持穩定的要素:穩定性、安全保障、問責制和實際的韌性。紫隊則接收這些觀點,進行比較,並將其轉化為一種結構化的學習形式。.

這很重要,因為人機協作開發不僅僅產生程式碼。它會產生決策。而決策是專業實務成熟或衰弱的關鍵。.

當紫色團隊能夠保存這些決策的軌跡時,實驗室就能做的更多,而不僅是交付一個結果。它可以了解該結果是如何產生的,在哪些地方人類的判斷是決定性的,AI 在哪些地方真正提供了幫助,以及下次需要做出哪些改變。.

這就是為什麼紫隊演練對我們來說不是一個輔助性流程,而是我們保護工作完整性的一部分。.

REACT 框架為這個路線提供了結構

為了讓紫隊(Purple Team)的演練具有實用性,我們需要一個紀律嚴謹但又輕巧的框架。這就是 React 變得至關重要.

在商業物理人工智能實驗室,REACT 幫助我們保持最重要的推理水平:

理由 詢問為何一開始要對某項任務使用 AI。.
證據 詢問哪些檢查、測試或驗證使得該結果值得信賴。.
問責制 誰批准了最終結果,誰又擁有這項決定權。.
限制 詢問什麼規則、界限或實際限制塑造了這項工作。.
權衡 詢問哪些地方得到了優化,以及哪些成本是已知且被接受的。.

這個結構很重要,因為它可以防止 AI 輔助開發變成模糊不清、沒有清晰邏輯可循的快速決策。.

REACT 不要求我們記錄每一次擊鍵或每一次提示的變化。它要求的是更有用的東西:保留解釋為何應信任該工作的推理過程。.

為什麼選擇這條路?
為什麼要信任它?
是誰擁有的?
是什麼塑造了它?
花了多少錢?

這些問題對我們的工作方式至關重要。.

反思不是額外的文書工作

在商業物理人工智慧實驗室,我們對待 專業實踐反思日誌 作為工作本身的一部分,而不是事後添加的學術練習。.

它的作用很簡單:讓作品背後的思考過程足夠清晰,以便理解、比較和改進。.

這有助於獨立貢獻者反思他們如何使用 AI,在哪裡運用判斷力,以及下次想做哪些改變。這有助於實驗室在不同項目之間保存共享記憶。同時,在 AI 可能使人與機器之間的勞動分工變得模糊的情況下,這也有助於我們維持問責制。.

反思日誌之所以重要,是因為它能將隱形的解難過程,轉化為可見的專業實踐。.

這與我們在商業物理學領域的更廣泛工作非常契合。我們對系統如何學習、摩擦出現在哪裡、信任如何建立以及更好的回饋循環如何隨著時間推移提高績效感興趣。反思日記是讓這些動態在軟體工作中顯現的最簡單方法之一。.

“「好的設計不僅僅在於人們最終看到的東西。它還關乎塑造所建內容的推理過程。人工智慧可以加速輸出,但團隊仍需要一種方法來保留工作背後的判斷。」 – Ann Lockquell

README 區塊將使其可以操作

我們也知道,如果這種方法要奏效,就必須緊密結合交付流程。這就是為什麼我們採用一個精巧的 README 區塊 作為判決路徑的操作形式。.

它可以附加到請求、特性分支、衝刺工件或最終交付套件。它能讓推理過程緊密貼近程式碼,而不是將其推入一個孤立的文檔中。.

一個典型的區塊可能包含:

  • 目的
  • 輸入 (來源、提示/配置連結)
  • 檢查運行
  • 人類 ↔ 人工智慧 角色 (交接, 覆寫)
  • 選擇的權衡
  • 人力增值
  • 學習和後續行動

這個區塊特意做得小。它不是為了減慢工作進度,而是為了保留那些否則會消失的東西。.

隨著時間的推移,它能做更有價值的 o: 讓實驗室能夠比較不同任務中的模式。我們可以了解人工智慧在哪裡真正提供了幫助、在哪裡造成了虛假的信心、在什麼情況下人類的判斷糾正了方向,以及哪些權衡在重複出現。.

所以 README 區塊不只是一個備註。它也是實驗室學習架構的一部分。.

形成性用途和總結性用途

紫隊演練在實務上,應貫穿工作整個生命週期,而非僅於後期使用,效益最佳。.

這就是為什麼我們從兩者都思考 形成性的總結 條款.

在開發過程中,簡短的形成性 README 筆記有助於在工作仍在進行中時捕捉背後的原因。它們記錄了嘗試了什麼、如何使用 AI、運行了哪些檢查、進行了哪些更改以及仍然存在哪些疑慮。這些筆記之所以有用,正是因為它們接近決策的時刻。.

在任務或功能的結尾,一份總結性的 README 將整個過程匯集起來。它解釋了最終方向、主要的權衡、AI 所扮演的角色、受到挑戰的內容、被保護的內容以及團隊應該繼承的東西。.

紫隊是這裡的核心。它收集形成性的輸入,比較紅隊和藍隊的觀點,並將最終的判斷軌跡綜合成一個可用的結案記錄。.

一個簡單的範例能讓這個過程更加清晰。一個實驗室團隊利用 AI 來加速功能開發。在工作過程中,紅隊注意到某個假設在極端條件下的驗證不夠充分。藍隊則指出,該功能在正常使用下可能穩定,但仍缺乏足夠的監控以支援實際應用。紫隊將這兩種觀點保存在不斷更新的 README 記錄中,然後在最後進行綜合:AI 的貢獻、人類的決定、受到挑戰的部分、被保護的部分,以及團隊下次應該如何改進。最終的成果不僅是交付的程式碼,而是附帶已記錄的推理過程的程式碼。.

這正是我們想要的學習循環。.

“「AI 輔助開發中真正的風險往往不在模型本身。而在於缺乏明確的需求、健全的任務拆解以及早期的架構意圖。AI 能快速生成有希望的輸出,但人類的判斷力仍然是創造清晰度、建構工作並讓團隊保持控制的關鍵。」– Vinay Kumar

紫隊強化工作流程

有多少小型軟體團隊今天使用人工智能紫隊演練如何加強該工作流程
人工智能經常在日常工作流程中被非正式地使用。.人工智能仍然是日常工作流程的一部分,但其使用變得更加明顯和結構化。.
工程師快速提示、測試、修改並交付。.工程師仍然會提示、測試、修改和發布,但他們也會保留關鍵決策背後的推理過程。.
程式碼生成、重構、偵錯、文件撰寫及原型製作都將加速。.同樣的活動被加速,但其背後的判斷會被記錄下來並進行審查。.
輸出通常會被儲存,但背後的原因卻常常不會。.輸出已儲存,其背後的原理透過 README Trail 和 REACT 架構得以保留。.
人工智慧的使用通常停留在個人層面。.人工智能的使用更容易在團隊之間共享、審查和學習。.
提示和模型輸出可能會影響決策,但卻不會留下清晰的軌跡。.重要的選擇是透過理由、證據、責任、限制和權衡來記錄的。.
程式碼審查通常主要關注最終的產出物。.評論可以同時考慮產物及其背後的判斷軌跡。.
團隊的行動可能非常迅速,但事後卻難以解釋為何選擇了某條道路。.團隊能快速行動,同時也會保留一份關於決策原因的可行記錄。.
薄弱的假設或潛藏的風險可能要到後期才會顯現。.紅隊思維有助於及早挑戰假設。.
營運上的顧慮在部署壓力增加之前可能仍然不明確。.藍隊思維有助於使保護、穩定性和營運就緒性更加明確。.
學習常常被困在某位工程師的記憶或零散筆記中。.紫隊思維有助於比較不同觀點、保留學習成果,並綜合團隊應延續的部分。.
人工智慧可以擴大規模的產出,但其理解能力可能仍然不均。.人工智能仍然能擴大產出,但這個工作流程的設計旨在加強共同理解和責任。.
小型團隊可能覺得缺乏正規學習過程所需的資源。.小型團隊能以輕巧的方式擷取學習心得,而無需龐大的企業架構。.
文件感覺上與交付是分開的。.README 軌跡成為交付本身的一部分。.
“「完成」通常意味著程式碼可以正常運作。.“「完成」表示程式碼已能正常運作,且其背後的邏輯足夠清晰,方便審閱、比較與學習。.

為什麼這能改善我們的專業實踐

這種方法在多個方面加強了我們的工作方式。.

它在改善 知識分享 因為推理不再消失於個人的記憶中。.

它在改善 合作 因為人們不僅能看到蓋了什麼,還能看到重要的決定是如何做出的。.

它在改善 責任 因為人類的角色和 AI 的角色都變得可見。.

它在改善 一致性 因為該實驗室開發了一個用於解釋 AI 輔助工作的共享框架。.

它在改善 學習 因為這樣可以比較不同的方法,而不是將它們視為黑盒子。.

而且它有所改善 專業成熟 因為交付包含可見的判斷,而不僅僅是最終的產出。.

最重要的是,它有助於我們以紀律嚴明的方式練習人機協同。我們不希望實驗室中的人工智能使用保持非正式、看不見或獨特的狀態。我們希望它成為一種可見且可持續改進的工作方式。.

“我總是回到這個問題:不是產出好不好。而是我是否還能解釋為什麼我做了這個決定。Purple Team Trail 讓這一點變得可見。—— Aboubakar Samake

人與AI協作的強大標準

在商業物理人工智能實驗室,「紫色團隊試煉」改變了「完成」的定義。.

完成不再僅意味著程式碼運作正常。.

完成意味著程式碼可以正常運作 其背後的推理過程清晰可見,便於審閱、比較和學習。.

這是一個更嚴格的標準,並且與我們對系統質量更廣泛的看法一致。用商業物理學的術語來說,更強的績效不僅來自更快的速度。它來自於更好的反饋、更低的隱藏摩擦、更可靠的信任,以及人、工具和決策之間更好的協調。.

紫色團隊步道正能支持這一點。.

隨著人工智慧越來越深入軟體開發,成長最快的人工智慧開發團隊,不僅僅是那些能更快生成程式碼的團隊。他們將是那些在快速推進的同時,仍能保有判斷力的團隊。.

這就是我們正努力建立的標準。.

“「在 AI 輔助開發方面,成熟最快的團隊不僅僅是那些能更快生成程式碼的團隊。他們是那些在快速推進的同時,仍能保持判斷力,並將推理過程足夠可見化以持續改進的團隊。」– Thomas Hormaza Dow

總結

在商業物理人工智能實驗室,我們視人類與人工智能的軟體開發為一個專業實踐的問題,而不僅僅是技術產出。.

這就是為什麼紫隊步道對我們來說很重要。隨著 紫隊 在中心,那 React 框架 提供結構, 反思日誌 保留推理,以及 README 區塊 將其嵌入交付流程中,我們可以有一個實際的方法來讓判斷記錄在整個工作過程中保持可見。.

紅隊挑戰假設。.
藍隊保護成果。.
紫隊保留審判的蹤跡。.

這條路徑使我們能夠做的不僅僅是交付程式碼。它使我們能夠同時加強學習、問責制以及人與人工智能的互補性。.


評論

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

zh_HKChinese