**什麼是人工智慧?**
我很尷尬地承認,我之前不知道,人工智慧是一個完整的學科領域,就像物理學一樣,而機器學習是人工智慧的一個子領域,就像熱力學是物理學的一個子領域。再深入一層,深度學習是機器學習的一個子集,而深度學習模型
可以進一步細分為所謂的判別模型和生成模型。大型語言模型(LLMs)屬於深度學習,而在生成模型和大型語言模型的交集中,正是我們熟知的應用程式技術,比如ChatGPT和Google Bard。現在我們對整體格局有了一個了解,並看到了不同學科之間的關係,讓我們來看看每個層次你應該知道的關鍵要點。
**什麼是機器學習?**
簡單來說,機器學習是一種程式,它使用輸入資料來訓練一個模型,這個訓練好的模型隨後可以根據它從未見過的資料進行預測。例如,如果你用Nike的銷售資料訓練一個模型,你就可以用這個模型根據Adidas的銷售資料,預測Adidas的新款鞋子會賣得如何。最常見的兩種機器學習模型是監督學習和非監督學習模型。兩者之間的關鍵區別在於,監督模型使用標記資料,而非監督模型使用未標記資料。在這個監督學習的例子中,我們有歷史資料點,這些資料點繪製了餐廳的總帳單金額與小費金額的關係,這裡的資料是有標記的:藍點表示訂單是自取,黃點表示訂單是外送。使用監督學習模型,我們現在可以根據帳單金額以及訂單是自取還是外送,預測下一個訂單我們能得到多少小費。對於非監督學習模型,我們觀察原始資料,看看它是否自然分為不同的群組。在這個例子中,我們繪製了公司員工的任職年限與他們的收入,我們看到這一群員工的收入與工作年限比例相對較高,而另一群則較低。我們也可以看到這些都是未標記資料,如果它們有標記,我們會看到性別、任職年限、公司職能等資訊。我們現在可以要求這個非監督學習模型解決一個問題,比如:如果有新員工加入,他們是否屬於快速成長軌道?如果他們出現在左邊,答案是是的;如果出現在右邊,則不是。這兩種模型的另一個重大區別是,監督學習模型在做出預測後,會將該預測與用來練該模型的訓練資料進行比較,如果有差異,它會試圖縮小這個差距。而非監督學習模型不會這樣做。順便說一句,
這段影片沒有贊助,但得到了那些訂閱我付費生產力通訊的人的支持,通訊內容關於Google技巧,連結在描述中,果你想了解更多。
**什麼是深度學習?**
現在我們對機器學習有了一個基本了解,是時候談談深度學習了,這只是機器學習的一種類型,它使用了所謂的人工神經網路。別擔心,你現在只需要知道人工神經網路是受到人腦的啟發,看起來像是這樣的:多層節點和神經元,層數越多,模型就越強大。因為有了這些神經網路,我們現在可以進行所謂的半監督學習,即深度學習模型用少量標記資料和大量未標記資料進行訓練。例如,一家銀行可能會使用深度學習模型來檢測詐欺。銀行花了一些時間將5%的交易標記為詐欺或非詐欺,而剩餘95%的交易則未標記,因為他們沒有時間或資源去標記每筆交易。神奇的事情發生在深度學習模型使用這5%的標記資料來學習任務的基本概念:這些交易是好的,這些是壞的,然後將這些經驗應用到剩餘95%的未標記資料上,並使用這個新的聚合資料集,模型對未來的交易進行預測。因為深度學習可以分為兩種類型:判別模型和生成模型。判別模型從資料點的標籤之間的關係中學習,並只能對這些資料點進行分類,例如詐欺或非詐欺。舉個例子,你有一堆圖片或資料點,你故意將其中一些標記為貓,一些標記為狗,判別模型會從標籤「貓」或「狗」中學習,如果你提交一張狗的圖片,它會預測這個新資料點的標籤是狗。
**什麼是生成式人工智慧?**
終於講到生成式人工智慧了與判別模型不同,生成模型會學習訓練資料中的模式,然後在收到我們的輸入(例如文字提示)後,根據它剛剛學到的模式生成新的東西。回到動物的例子,圖片或資料點未被標記為貓或狗,所以生成模型會尋找模式:這些資料點都有兩隻耳朵、四條腿、一條尾巴,喜歡狗糧,並且會吠叫。當要求生成一個叫做「狗」的東西時,生成模型會根據它剛剛學到的模式生成一個全新的圖像。有一個超簡單的方法可以判斷某物是否屬於生成式人工智慧:如果輸出是一個數字、分類(例如垃圾郵件或非垃圾郵件)、或概率,那它不是生成式人工智慧;如果是自然語言文字、語音、圖像或音頻,那它就是生成式人工智慧。基本上,生成式人工智慧會生成與其訓練資料相似的新樣本。接下來講到不同的生成式人工智慧模型類型,我們大多數人都熟悉文字到文字模型,比如ChatGPT和Google Bard。其他常見的模型類型包括文字到圖像模型,比如Midjourney、DALL·E和穩定擴散,這些模型
不僅能生成圖像,還能編輯圖像。文字到影片模型,顧名思義,可以生成和編輯影片片段,例如谷歌的Imagen Video、CogVideo以及名字非常有創意的Make-A-Video。文字到3D模型用於創建遊戲資產,一個鮮為人知的例子是OpenAI的Shap-E模型。最後,文字到任務模型被訓練來執行特定任務,例如,如果你輸入「@Gmail 總結我的未讀郵件」,Google Bard會瀏覽你的收件箱,並總結你的未讀郵件。
**什麼是大型語言模型?**
別忘了,大型語言模型(LLMs)也是深度學習的一個子集,雖然有部分重疊,但LLMs和生成式人工智慧並不是同一回事。一個重要的區別是,大型語言模型通常會先用非常大的資料集進行預訓練,然後針對特定用途進行微調。這是什麼意思?想像你有一隻寵物狗,它可以被預訓練一些基本指令,比如坐下、過來、趴下和停留,它是一隻好狗,是一個通才。但如果這隻好狗繼續成為警犬、導盲犬或獵犬,它們需要接受特定訓練,進行微調以適應那個專業角色。
大型語言模型也是類似的概念,它們首先被預訓練以解決常見的語言問題,比如文字分類、問答、文件總結和文字生成,然後使用較小的行業特定資料集,這些LLMs被微調以解決零售、金融、醫療、娛樂等領域的特定問題。在現實世界中,這可能意味著一家醫院使用來自大型科技公司的預訓練大型語言模型,並用自己的第一方醫療資料進行微調,以提高X光和其他醫療測試的診斷準確性。這是一個雙贏的局面,因為大公司可以花費數十億美元開發通用的語言模型,然後將這些LLMs賣給零售公司、銀行、醫院等較小的機構,這些機構沒有資源開發自己的大型語言模型,
但他們有領域特定的資料集來微調這些模型。