
大模型上下文協(xié)議與Spring開發(fā)集成篇——mcp-spring-webmvc原理
綜合來看,對于學(xué)習(xí)者來說,體驗(yàn)最好的一定是 1 對 1 教學(xué)服務(wù),但成本最高。隨著 LLM 和其他 AI 技術(shù)的成熟,用 AI 來復(fù)刻真人課堂環(huán)境、甚至更進(jìn)一步模擬過去只有真人教師才能提供的實(shí)時(shí)互動成為可能,即 AI Tutor,本質(zhì)上是用技術(shù)規(guī)?;處煿┙o,低成本的實(shí)現(xiàn)真人授課。
現(xiàn)階段 AI Tutor 最典型的產(chǎn)品形態(tài)就是“解釋錯(cuò)題”,例如,Duolingo Max 可以為用戶講解錯(cuò)題的原因、給出具體指導(dǎo),還可以讓用戶和 AI 進(jìn)行 Roleplay 對話練習(xí)語言。此外,還有產(chǎn)品借助日益成熟的 AI 語音識別、Avatar 技術(shù)提供“AI 教師”功能,以一種更沉浸式、擬人化方式實(shí)現(xiàn) AI Tutor 功能,OpenAI 投資的 Speak 就是其中的典型代表。
雖然現(xiàn)階段 AI Tutor 的效果和傳統(tǒng) 1 對 1 私教仍存在一些差距,但已經(jīng)很大幅度改變用戶在學(xué)習(xí)過程中的互動體驗(yàn),對話式問題解答功能的引入使得學(xué)習(xí)不再是單向的知識傳遞,而更像是與一個(gè)智能伙伴進(jìn)行深入互動的過程。
Speak 是由 Connor Zwick 和 Andrew Hsu 在 2016 年在舊金山創(chuàng)立的一款語言學(xué)習(xí)產(chǎn)品,在其創(chuàng)立早期就積極探索 用 AI 提升語言學(xué)習(xí)的效率和體驗(yàn)。Speak 早期主要專注于韓國的英語學(xué)習(xí)市場。目前 Speak 在韓國蘋果商店 “教育應(yīng)用”中排第一名。2023 年之前,Speak 重點(diǎn)放在課程研發(fā),累計(jì)開設(shè)了近 1500 萬節(jié)英語課程。2023 年開始國際擴(kuò)張、多語種擴(kuò)張,目前產(chǎn)品已在日本、德國、法國、巴西、墨西哥等 20 多個(gè)國家上線。
2022 年, Speak 獲得 OpenAI Startup Fund 及頭部硅谷基金的支持,融資 2700 萬美元,2023 年 8 月又融資 1600 萬美元,估值在不到一年的時(shí)間里翻了一番。
作為 OpenAI 的合作伙伴,Speak 提前獲取了 GPT-4、Whisper 的使用權(quán)以及微軟的 Azure 資源,通過和 Speak 的語言學(xué)習(xí)系統(tǒng)、教學(xué)法相結(jié)合,開發(fā)語言學(xué)習(xí)的 AI Tutor ,目標(biāo)是為用戶提供更準(zhǔn)確的實(shí)時(shí)反饋、提升用戶的語言學(xué)習(xí)體驗(yàn)。Speak 的 CEO 認(rèn)為,高度個(gè)性化和語境反饋只能使用 GPT-4 開發(fā),GPT-4 是對早期語言模型的實(shí)質(zhì)性改進(jìn)。
Speak 主打的是口語學(xué)習(xí),希望通過 AI Tutor 讓用戶像和真人教師對話那樣一樣不斷進(jìn)行口語練習(xí),再基于 AI 提供的發(fā)音、語法、詞匯等方面實(shí)時(shí)反饋不斷完善語言學(xué)習(xí)。
Speak 首先會由專業(yè)教研人員設(shè)計(jì)框架和內(nèi)容,這個(gè)過程主要以教研和用戶研究為主導(dǎo),團(tuán)隊(duì)也會借助 LLM 進(jìn)行課程研發(fā)中的頭腦風(fēng)暴、效率提升。根據(jù)學(xué)習(xí)者的水平,Speak 將課程分為基礎(chǔ)初級、進(jìn)階初級和實(shí)力中級三個(gè)等級。每個(gè)等級內(nèi)有約 30 天課程設(shè)計(jì)。總體上,Speak 目前的可能內(nèi)容較為基礎(chǔ),更適合入門的學(xué)習(xí)者。
Speak 目前已經(jīng)從韓國拓展到了日本、美國等多個(gè)地區(qū)市場,課程內(nèi)容上也在英語之外開始開發(fā)西班牙語、法語等多語種課程體系。在教研設(shè)計(jì)上,Speak 會有自己統(tǒng)一的原則,比如讓用戶在最開始的 30 秒內(nèi)就要開口說話,課程設(shè)計(jì)中也要考慮單詞、語法和口語同步學(xué)習(xí)的融合。Speak 每個(gè)地區(qū)會有專門的教研負(fù)責(zé)人,早期內(nèi)容以韓國教程版本為基礎(chǔ),之后的課程會同時(shí)考慮通用版和細(xì)化版,平衡 Go-to-Market 和提升教學(xué)效果的需求。
Speak 的課程分為三部分,視頻課、口語操練和角色扮演。目前視頻課程主要由真人錄制,口語操練是預(yù)先設(shè)置的題目,而角色扮演就是集成了 GPT-4 能力的 AI Tutor,也是 Speak 主打的點(diǎn)。
Speak 的?AI tutor 主要體現(xiàn)在角色扮演和話題暢聊兩部分。用戶首先在特定主題下與 AI 進(jìn)行開放式對話。系統(tǒng)也會給到發(fā)音、語法、詞匯等方面的反饋,例如怎么調(diào)整句子可以讓表達(dá)更自然、更簡潔等,和 Duolingo Max 類似。
在實(shí)際體驗(yàn)中,Speak 的 AI Tutor 確實(shí)可以針對用戶的說話內(nèi)容給予靈活的回答,同時(shí)又盡可能地將聊天內(nèi)容引回學(xué)習(xí)主題,也能對用戶的回答給予合理的反饋建議。比如在“返回工作崗位”這個(gè)場景下,一次建議今天晚點(diǎn)時(shí)候討論進(jìn)度、一次建議馬上討論進(jìn)度,AI 都能合理的回應(yīng),并且確保用戶學(xué)習(xí)到“discuss the details”“set up a meeting”等該場景下的短語。Speak 的 AI 語音也比較自然,但回復(fù)速度存在一定的延遲,仍無法達(dá)到與真人互動的沉浸感。
Speak 沒有免費(fèi)模式,必須付費(fèi)才能使用軟件,在開啟訂閱后有 7 天免費(fèi)試用期,訂閱分為兩檔:
? Premium 計(jì)劃:$99.99/年,每月 2000 個(gè) AI 家教積分;
? Premium plus 計(jì)劃:$ 234.99/年,每月 10000 個(gè) AI 家教積分。
家教積分對應(yīng)的是用戶和 AI Tutor 的對話字?jǐn)?shù),每和 AI 對話一個(gè)詞即 1 積分。在我們的實(shí)際測試中,2000 家教積分學(xué)習(xí) 5 天就會消耗完,這也意味著如果用戶想天天和 AI 對話,只靠 Premium 計(jì)劃遠(yuǎn)遠(yuǎn)不夠,對于有強(qiáng)剛需的用戶,更適合的選擇是 Premium Plus 方案。
Speak 的定價(jià)和 ?Coursera、Udemy、Skillshare、Duolingo 等其他在線教育產(chǎn)品的費(fèi)用基本一致。
和真人外教對比,我們也能感受到 Speak 對這類服務(wù)價(jià)格的指數(shù)級下降:
Speak 的創(chuàng)始人為 Connor Zwick 和 Andrew Hsu,是“小天才+小天才”的組合。兩人從 2014 年起就開始了對于 AI 的持續(xù)研究,在適應(yīng)和利用 AI 新進(jìn)展方面有足夠的靈活性。
Connor Zwick 為 Speak CEO,中學(xué)時(shí)就開始學(xué)習(xí)編程,他在 Cyberantix 網(wǎng)站撰寫的編程的文章閱讀人數(shù)達(dá)到數(shù)百萬人。他在高中時(shí)就創(chuàng)建了語音學(xué)習(xí)應(yīng)用 Flashcards Plus,通過把語音單詞和短語制作成電子學(xué)習(xí)卡片,讓用戶反復(fù)練習(xí)學(xué)習(xí)語言。Flashcards Plus 全球用戶最終達(dá)到了 500 萬人,2013 年被 Chegg 收購,這也讓 Connor 獲得了進(jìn)入哈佛大學(xué)學(xué)習(xí)的機(jī)會。
Andrew Hsu 是 Speak 的 CTO,小時(shí)候因?yàn)樘斆魉越邮芗彝ソ逃℉ome-Schooling),他的天才故事曾被 NBC 報(bào)道,16 歲時(shí)就獲得了華盛頓大學(xué)的生物化學(xué)、神經(jīng)生物學(xué)、化學(xué)三個(gè)學(xué)位,隨后在斯坦福大學(xué)完成了神經(jīng)科學(xué)和生物工程的博士學(xué)位。
Connor 和 Andrew 在參與 Thiel Fellowship 期間相識,二人都對 AI 非常感興趣,一起閱讀相關(guān)論文,聽伯克利大學(xué)的 AI 課程自學(xué)人工智能。這期間,他們一起搭建了一個(gè)檢測人們口音的語音識別系統(tǒng),僅使用 Youtube 的隨機(jī)數(shù)據(jù)就取得了非常準(zhǔn)確的結(jié)果。
Thiel Fellowship:
由 Peter Thiel 在 2011 年創(chuàng)立,也被稱為 “20 Under 20”,每年錄取 20-25 人,報(bào)錄比低于 1%,該獎學(xué)金旨在為 23 歲(創(chuàng)立之初是 20 歲)以下的學(xué)生提供兩年總計(jì) 10 萬美元的資助,并提供創(chuàng)業(yè)指導(dǎo)和其他資源,包括:請教相關(guān)領(lǐng)域的科學(xué)家、投資人、協(xié)助組建團(tuán)隊(duì)、在技術(shù)、市場、設(shè)計(jì)等方面提供幫助等等。
2015 年左右,他們意識到只要給模型足夠的數(shù)據(jù),模型的性能會越來越好、最終超過人類,所以決定利用 AI 建立一個(gè)語音學(xué)習(xí)產(chǎn)品。大多數(shù)語言學(xué)習(xí)軟件僅可以幫助用戶學(xué)習(xí)基本詞匯和語法,但想要達(dá)到流利的水平,都需要在互動環(huán)境中大聲說話,之前人們獲得這種練習(xí)的唯一途徑是通過人類導(dǎo)師,這是困難且昂貴的。所以他們從語音識別做起,再結(jié)合高質(zhì)量的語音合成,制作出逼真的對話系統(tǒng),幫助語言學(xué)習(xí)者提高口語能力。這成為了 Speak 產(chǎn)品的雛形。
2022 年 9 月開始,他們獲得 GPT-4 使用權(quán)限后開始嘗試將其融入 AI tutor。Connor 認(rèn)為,語言學(xué)習(xí)是少數(shù)即使 AI 系統(tǒng)還不完美,也可以被用戶接受的領(lǐng)域之一,因?yàn)檎Z言學(xué)習(xí)可以容忍一定的錯(cuò)誤,用戶還是可以從交互中獲得收益,這和其他要求非常高精度的領(lǐng)域不同。長期來看,如果 AI 系統(tǒng)獲得足夠的數(shù)據(jù)和經(jīng)驗(yàn),其教學(xué)能力也會不斷增強(qiáng),甚至超過人類老師。這將極大地提高教育效果,使更多地區(qū)的學(xué)生受益。Speak 表示未來也會考慮進(jìn)一步擴(kuò)展到其他教育領(lǐng)域。
雖然 Speak 的誕生源于 Connor Zwick 和 Andrew Hsu 二人想要 AI 改造語言學(xué)習(xí)的想法,但 Speak 在最初幾年沒有在機(jī)器學(xué)習(xí)方面投入太多資源,而是專注找 PMF 和打磨產(chǎn)品,在和不同國家的用戶交流后(包括韓國、日本、歐洲),團(tuán)隊(duì)最終選擇語言學(xué)習(xí)市場成熟、對產(chǎn)品要求高的韓國作為早期目標(biāo)市場,創(chuàng)始人在一次采訪中表示, Speak 會不斷地進(jìn)行 A/B 測試去迭代修正課程邏輯,而不像很多英語 app 將絕大部分重點(diǎn)都放在營銷上。
Speak 在韓國的成功離不開建立的優(yōu)秀本地營銷團(tuán)隊(duì)。2023 年 Speak 開始重點(diǎn)擴(kuò)展日本、美國市場,在當(dāng)?shù)厥袌鐾茝V中,也采取了搭建本地營銷團(tuán)隊(duì)、深入了解當(dāng)?shù)匦枨蟮姆绞健?/p>
Duolingo 運(yùn)營總監(jiān) Gina 在 Duolingo 用戶數(shù)量只有 300 萬時(shí)加入,領(lǐng)導(dǎo)增長團(tuán)隊(duì) 5 年后,Duolingo 的用戶數(shù)增長到 2 億。Gina 認(rèn)為人性的核心需求是相通的,不應(yīng)過分強(qiáng)調(diào)不同文化的差異,在不同國家的推廣中不會過度關(guān)注每個(gè)國家的差異,而是將全球用戶視為一個(gè)整體:
? 盡可能統(tǒng)一全球產(chǎn)品,避免為每個(gè)國家做定制化調(diào)整,降低開發(fā)和維護(hù)成本;
? 新功能先在一個(gè)國家測試,效果好則在全球范圍內(nèi)推廣;
? 把營銷信息本地化,但核心訴求保持一致。
參考 Data.ai 的數(shù)據(jù),Speak 2023 年 10 月的 DAU 為 7 萬左右,MAU 為 65 萬左右,呈現(xiàn)波動上漲。用戶主要來自韓國(約 50%)、日本(22%)、美國(10%)、墨西哥(8%)以及臺灣、香港等地區(qū),可見除了韓國市場,Speak 在日本、美國也獲得了一定的 PMF。
Speak MAU
不過,不同地域的用戶畫像差別較大,韓國地區(qū)以男女比例約為 4:6,25-44 歲的用戶占比達(dá) 50%,16-24 歲用戶占比達(dá) 40%,屬于典型的求職、求學(xué)需求;而日本地區(qū)以 45 歲以上的女性用戶為主,美國地區(qū)男女比為 6:4,45 歲以上用戶占比達(dá)到約 50%,25-44 歲的用戶占比達(dá)到約 40%,可以簡單猜測,日本、美國等市場用戶除了求職、移民等功能性需求外,也有一些非目的性的使用場景。
Speak 用戶的國家分布
作為一個(gè)典型的在線語言學(xué)習(xí)產(chǎn)品,我們可以參考 Duolingo 的數(shù)據(jù)來對 Speak 面向的市場進(jìn)行簡單測算。
參考 Duolingo 2023 年 Q3 財(cái)報(bào)數(shù)據(jù),Duolingo MAU 為 8310萬,付費(fèi)用戶為 580萬,Duolingo 的用戶付費(fèi)率為~7%。2022 財(cái)年,Duolingo 的用戶訂閱金額為 3.32 億美元。
根據(jù)咨詢公司 HolonIQ 測算,全球有約 20 億人在學(xué)習(xí)新語言,線上、線下的語言學(xué)習(xí)消費(fèi)支出約 600 億美元。如果以 7% 作為指標(biāo)(考慮到 Duolingo 優(yōu)越的游戲化設(shè)計(jì)也促進(jìn)了用戶的付費(fèi)轉(zhuǎn)化率,因此 7% 是個(gè)樂觀狀態(tài)),則理想狀態(tài)下,20 億的語言學(xué)習(xí)人群中,約有 1.4 億潛在付費(fèi)用戶。另外,基于在線語言學(xué)習(xí)趨勢加速發(fā)展,訂閱模式接納程度提升、AI 帶來的體驗(yàn)效果持續(xù)提升的假設(shè)前提下,行業(yè)樂觀預(yù)測未來會有 20% 復(fù)合年增長率,所以這部分人群還在擴(kuò)大。
但 AI 的發(fā)展也可能對語言學(xué)習(xí)市場存在負(fù)面影響,有聲音認(rèn)為,隨著語音識別、語音生成技術(shù)的進(jìn)展和普及,實(shí)時(shí)翻譯的門檻不斷下降,可能會削減人們對語言學(xué)習(xí)的需求。
但總體上,和 K-12 相比,語言學(xué)習(xí)的市場并不大,尤其考慮到 Speak 之前只專注東亞、應(yīng)試求職等目的性明確的場景。對于 Speak 而言,如果要提升自身天花板最直接的是拓寬自身用戶群,短期內(nèi)最直接的則是進(jìn)入新的區(qū)域市場、增加新語種。
Speak 目前主要的市場為東亞地區(qū),團(tuán)隊(duì)已經(jīng)充分開發(fā)了韓國市場,日本市場獲得了類似韓國的發(fā)展軌跡,同時(shí)獲取了一定的港臺和海外華人用戶。此外,Speak 也計(jì)劃進(jìn)入美國這一大市場,首先,美國國內(nèi)也有著非常強(qiáng)的英語學(xué)習(xí)需求,而 Speak 已經(jīng)將業(yè)務(wù)范圍從英語擴(kuò)展到了多語種,接下來的重點(diǎn)也會放在美國的西班牙語學(xué)習(xí)市場。因?yàn)闁|亞地區(qū)應(yīng)試導(dǎo)向的英語學(xué)習(xí)的 TAM 很有限,在語言學(xué)習(xí)整個(gè)大市場里面,還有大量不以應(yīng)試為導(dǎo)向的英語學(xué)習(xí)場景,這部分 ”Casual Leaner“的學(xué)習(xí)者被認(rèn)為是 Duolingo 的核心用戶群,也是 Speak 想要抓住的用戶。
不過語言學(xué)習(xí)市場在整個(gè)教育市場中的比重較小。HolonIQ 測算教育市場到 2030 年規(guī)模將達(dá)到 10 Trillion 美元,其中占比最大的為 K-12 教育,到 2030 年將超過 5 trillion 美元,占比為 55%,所以如果 Speak 的 AI tutor 未來能夠擴(kuò)展到 K-12 全科,將會顯著地提高市場空間。參考 Duolingo,在語言學(xué)習(xí)外,Duolingo 在 2023 年相繼推出了自己的數(shù)學(xué)、音樂產(chǎn)品。
據(jù)了解,Speak 在 2022 年實(shí)現(xiàn)了 960 萬美元 ARR,如果按目前 Premium 的產(chǎn)品定價(jià)算,Speak 已經(jīng)有 10 萬左右的付費(fèi)用戶,如果按 Premium Plus,則~4 萬人。根據(jù) data.ai 追蹤預(yù)測, Speak 最近 12 個(gè)月的商店收入在 1000 萬美元左右,其中韓國地區(qū)占據(jù)了 73%左右,其次為日本,占據(jù) 21%左右。
以 Duolingo 的付費(fèi)用戶增速作為對比,根據(jù) 2023 年Q3 財(cái)報(bào),Duolingo 目前有 580 萬付費(fèi)用戶,YoY為 57%。因?yàn)?Speak 在大力擴(kuò)張市場范圍,且用戶基數(shù)小,預(yù)期能取得超越 Duolingo 付費(fèi)用戶的增速,若用戶數(shù)量達(dá)到 100% 的增長,那 2023 年能獲得約 20 萬付費(fèi)用戶,實(shí)現(xiàn)收入約 2000 萬美元。
長期來看,假如 Speak 有機(jī)會實(shí)現(xiàn) Duolingo 一樣的 580 萬的付費(fèi)用戶量級,以目前 Speak Premium 定價(jià),Speak 的 ARR 有機(jī)會達(dá)到約 5.8 億美金。
雖然 AI Tutor 的確提供了全新的用戶體驗(yàn),但仍只是語言學(xué)習(xí)應(yīng)用中的一個(gè)功能(feature),而非一個(gè) 100% 全新的商業(yè)模式。從現(xiàn)狀來看,產(chǎn)品體驗(yàn)也極易同質(zhì)化。對于這個(gè)領(lǐng)域的玩家,要真正獲得產(chǎn)品競爭力仍離不開產(chǎn)品、課程設(shè)計(jì)和用戶理解,從而為用戶提供完整的語言學(xué)習(xí)體驗(yàn)。
短期來看,Speak 的競爭對手是其他在線語言學(xué)習(xí)玩家,尤其是同樣基于 LLM 提供 AI Tutor 功能的產(chǎn)品,長期來看,還會與線下形式的語言學(xué)習(xí)競爭,此處我們先將目光集中在在線語言學(xué)習(xí)并提供 AI tutor 的公司。
目前市場上基于 LLM 提供語言學(xué)習(xí) AI Tutor 的主要有以下三類:
Duolingo 從創(chuàng)立就在探索 AI 和語言學(xué)習(xí)的結(jié)合,同樣也提前試用了 GPT-4 ,并在此基礎(chǔ)上推出了 AI Tutor 功能,即 Duolingo Max。Duolingo 最大的優(yōu)勢在于其龐大的用戶基礎(chǔ)及完整且豐富的產(chǎn)品設(shè)計(jì)。
Duolingo Max 提供的 “Explain My Answer”和“Roleplay”功能與 Speak 極為相似,均為模擬真實(shí)對話場景,并且針對用戶的錯(cuò)誤給出即時(shí)反饋。從 Reddit 上用戶的評價(jià)綜合來看,Duolingo Max 獲得了一定積極反饋,用戶評論主要集中在提供更多互動和體驗(yàn)個(gè)性化、實(shí)時(shí)解決問題、提高口語能力等,但也有不少用戶認(rèn)為價(jià)格太高、超出預(yù)算、擔(dān)心 AI 的準(zhǔn)確性。
目前 Duolingo Max 尚未在全球用戶中全量開放,所以對于其他早期團(tuán)隊(duì)而言,也許存在一定窗口期。
Duolingo Max
除了頭部公司探索 LLM 在教育領(lǐng)域的應(yīng)用外,創(chuàng)業(yè)公司也紛紛試水,因?yàn)榻Y(jié)合語音生成,利用 LLM 的交互能力學(xué)習(xí)語言是一個(gè)十分直觀且易實(shí)現(xiàn)的應(yīng)用場景。我們也觀察到,GPT-4 開放之后,市場上出現(xiàn)了一大批產(chǎn)品同質(zhì)化較嚴(yán)重的 AI Language Tutor 產(chǎn)品,模式均為固定課程學(xué)習(xí)配合集成 LLM 能力的開放式對話 AI Language Tutor,其中絕大部分都是已有公司試圖通過 AI 來吸引客戶、獲得新的增長。
其中,2023 年創(chuàng)立、并完成種子輪融資的 ?Practika 在交互方式上有所創(chuàng)新,加入 AI ?avatar 以提升用戶使用沉浸感,是一個(gè)非必須、但能提升用戶體驗(yàn)的功能。
免費(fèi)方案包括可以進(jìn)行語音交互的 ChatGPT、Pi、Character AI 中的語言老師、Call Annie 等。
在 Reddit 的用戶討論中,雖然部分用戶提到可以用 ChatGPT、Pi、Character AI 中的 language AI 等通用性 LLM 替代付費(fèi)的 AI tutor,但大部分用戶在分享將 ChatGPT 作為語言伙伴的體驗(yàn)中提到,因?yàn)闆]有合理的 prompt 和專業(yè)訓(xùn)練數(shù)據(jù),ChatGPT 在處理體驗(yàn)專業(yè)術(shù)語、方言和俚語時(shí)較差,提供錯(cuò)誤信息機(jī)率較高,僅能滿足初步需求,而類似問題也可能出現(xiàn)在沒有足夠用戶數(shù)據(jù)和技術(shù)團(tuán)隊(duì)的中小團(tuán)隊(duì)中。C.ai 中的 UGC 的 AI languauge teacher 也因?yàn)闆]有細(xì)致的課程設(shè)計(jì),同時(shí)沒有加入語音功能,僅能滿足基礎(chǔ)需求。
我們認(rèn)為 AI tutor 是一個(gè)與課程設(shè)計(jì)、教研經(jīng)驗(yàn)、用戶學(xué)習(xí)的數(shù)據(jù)行為結(jié)合非常緊密的領(lǐng)域,相較通用性 LLM,針對教育場景進(jìn)行深耕、具有教研和用戶積累的垂直賽道的公司具備明顯的競爭優(yōu)勢。
使用 ChatGPT 作為語言學(xué)習(xí)輔助
綜上,我們從產(chǎn)品體驗(yàn)和市場占有兩個(gè)維度來分析 Speak 的競爭力:
產(chǎn)品體驗(yàn)維度,語言學(xué)習(xí) APP 要解決的核心問題是激發(fā)學(xué)習(xí)者的學(xué)習(xí)動機(jī),提供持續(xù)學(xué)習(xí)動力,這不僅僅是集成 GPT-4 就可以解決的。AI Tutor 公司之間產(chǎn)品體驗(yàn)的差距主要源自三個(gè)方面:
1)團(tuán)隊(duì)是否有資深課程設(shè)計(jì)團(tuán)隊(duì)設(shè)計(jì);
2)是否提供真正的個(gè)性化體驗(yàn);
3)能否在交互性上取得創(chuàng)新。
在這些產(chǎn)品同質(zhì)化較嚴(yán)重的 AI Language Tutor 公司中,需要找到同時(shí)具有產(chǎn)品經(jīng)驗(yàn)、教研經(jīng)驗(yàn)和對 AI 有較強(qiáng)理解的團(tuán)隊(duì)。在這一維度上,Speak 由于扎實(shí)的課程設(shè)計(jì)和對 GPT-4 的應(yīng)用優(yōu)勢,產(chǎn)品體驗(yàn)相對占優(yōu)。但成熟的教育科技公司在課程資源、用戶數(shù)據(jù)、AI 實(shí)踐方面均有深厚的積累,我們認(rèn)為創(chuàng)業(yè)公司很難超越。
市場占有維度,語言學(xué)習(xí)軟件需要盡快地開辟市場、做增長來搶占地盤,同時(shí)維持一個(gè)較好的用戶留存。在這種情況下,擁有大量用戶基數(shù)的老玩家如 Duolingo 將具有很大的優(yōu)勢。可以增加 AI tutor 功能,以組合訂閱套餐方式賣給用戶。Speak 在韓國市場已有較大優(yōu)勢,但在拓展新市場時(shí)需要強(qiáng)大的營銷運(yùn)營能力。新興公司如 Praktika 通過進(jìn)入新興市場搶占地盤,從拉美起步再向多地區(qū)擴(kuò)展,近期獲取了一批意大利的用戶。
就現(xiàn)狀來看,Speak 最大的競爭對手為 Duolingo。兩者推出了相似形態(tài)的 AI tutor,但 Duolingo 有用更龐大的用戶群和市場認(rèn)知度,用戶優(yōu)勢也將轉(zhuǎn)化為數(shù)據(jù)優(yōu)勢,用戶在 Duolingo 上的個(gè)人數(shù)據(jù)積累都會因?yàn)?GPT-4 的接入放大。由于 Duolingo 主攻讓英語母語者學(xué)其他語言的 casual learner 市場,這也是 Speak 下一步希望開拓的市場,因此兩者將面臨更為直接的競爭。
Speak 因?yàn)榕c OpenAI 取得密切合作,更早地使用 GPT-4,再加上在韓國英語教研的積累,取得了先發(fā)優(yōu)勢,但如今所有企業(yè)都可以接入 GPT-4,同樣具有較深厚用戶數(shù)據(jù)和教研積累成熟語言教育公司如 Duolingo、Rosetta stone、Babbel 等或許都將成為 Speak 的競爭對手,只想借助 AI Tutor 這一功能帶來的差異化贏得市場的難度會極高;
Speak 的市場競爭力已經(jīng)在韓國、日本的英語學(xué)習(xí)市場取得了驗(yàn)證。下一步計(jì)劃擴(kuò)張到多國家地區(qū)的英語學(xué)習(xí),以及多語言 causal learner 學(xué)習(xí)市場。但在擴(kuò)張過程中需要考慮各個(gè)國家地區(qū)的語言學(xué)習(xí)需求與差異,在課程設(shè)計(jì)和本地化運(yùn)營上都非??简?yàn)團(tuán)隊(duì)實(shí)力。各個(gè)國家存在現(xiàn)有玩家,多語言學(xué)習(xí)又是 Duolingo 的主要市場,Speak 將會面臨激烈的市場競爭。
GPT-4、Whisper,11labs 等技術(shù)使得語言與語言之間的轉(zhuǎn)換變得越來越無縫自然,能夠?qū)⒄f話者的語言翻譯成另一種語言的同時(shí)保持語音語調(diào)及音色,語音生成時(shí)間能控制在 400 毫秒以內(nèi),甚至 11labs 創(chuàng)立公司最初的目標(biāo)就是“讓人類不再需要學(xué)習(xí)語言”。
在語言學(xué)習(xí)場景利用 LLM 有兩種方式:
1)基于現(xiàn)有基座模型進(jìn)行 Prompt-engineering 或 fine-tuning,也是目前絕大部分實(shí)踐類型;
2)訓(xùn)練針對特定場景下的垂類教育小模型,例如 Chegg 就表示已經(jīng)在利用其數(shù)據(jù)積累,訓(xùn)練自己的教育大模型。
Prompt 出高質(zhì)量的 AI Language tutor 需考慮三個(gè)要素,語言學(xué)習(xí)的課程設(shè)計(jì)經(jīng)驗(yàn)及教研積累,用戶數(shù)據(jù)積累以及對大語言模型的理解、懂得如何訓(xùn)練大模型讓 LLM 在語言教學(xué)場景下表現(xiàn)更好。
在 AI 改造教育這件事上,我們認(rèn)為 Duolingo 可能是被低估的一家公司,雖然 Duolingo 在今天更多被游戲化、病毒式的增長討論,但 Duolingo 創(chuàng)始人 Luis Von Ahn 本人就是天才級 ML/AI 實(shí)踐者,也因此 Duolingo 從誕生起就帶有 AI 基因,也很早進(jìn)行了諸多 AI 探索,下面我們結(jié)合 Duolingo 的實(shí)踐進(jìn)行討論。
在 2020 年, Duolingo 就發(fā)布了自研的自適應(yīng)系統(tǒng) Birdbrain 用來監(jiān)測學(xué)習(xí)者行為,基于學(xué)習(xí)者數(shù)據(jù)和 Duolingo 的語言材料,生成個(gè)性化學(xué)習(xí)路徑,匹配學(xué)習(xí)者的能力水平,比如當(dāng)學(xué)習(xí)者表現(xiàn)出色時(shí),Birdbrain 會提供更具挑戰(zhàn)性的問題以保持他們的興趣,不過這些內(nèi)容都是基于已有課程內(nèi)容,不存在所謂的“生成”。在 GPT-4 之前,Duolingo 團(tuán)隊(duì)也探索過利用 GPT-3 等模型來生成練習(xí)題,但在實(shí)踐中發(fā)現(xiàn),效果并不理性,仍需要大量人工介入。
GPT-4 相比傳統(tǒng) NLP 以及 GPT-3 具有更強(qiáng)的上下文理解和文本生成能力,為實(shí)時(shí)語言交流和練習(xí)提供更好的工具,結(jié)合用戶數(shù)據(jù)和機(jī)器學(xué)習(xí)算法也可以為用戶提供個(gè)性化建議,這也是為什么 GPT-4 推出后 AI Language Tutor 爆發(fā)的原因。
根據(jù) Duolingo AI 主管 Clinton Bicknell 的訪談,集成 GPT-4 到 AI Tutor 需要以下工作:
? 人類設(shè)計(jì)師編寫聊天情境和初始提示,并不斷改進(jìn) Prompt:
對話類功能需要 prompt 來設(shè)置情景、角色、對話目標(biāo)等上下文信息,團(tuán)隊(duì)一般需要上百次試驗(yàn)來優(yōu)化 prompt 的長度、內(nèi)容、措辭,使 GPT-4 生成的對話質(zhì)量符合預(yù)期;
? 結(jié)合 Duolingo 自己的 AI 模型及數(shù)據(jù):
在 GPT-4 上層整合 Duolingo 的機(jī)器學(xué)習(xí)模型,如對話監(jiān)控模型,用于分析對話合理性、控制對話長度、檢測敏感內(nèi)容等。同時(shí),Duolingo 已經(jīng)積累了大量的學(xué)習(xí)者數(shù)據(jù),根據(jù)用戶學(xué)習(xí)歷史、偏好和進(jìn)度,個(gè)性化設(shè)計(jì)對話方式和學(xué)習(xí)內(nèi)容;
? 防止對話偏離正軌:
使用 AI tutor 面臨的主要挑戰(zhàn)是對話安全和 GPT-4 “臆造”答案的問題。Duolingo 采取了多層次的防范措施,包括組建“red team”通過多種方式測試對話系統(tǒng),引入檢測關(guān)鍵詞和評分機(jī)制,以確保對話保持在學(xué)習(xí)主題上;通過收集正常和不安全對話樣本,利用分類模型自動過濾潛在的不安全語句;同時(shí)還收集真實(shí)問答樣本擴(kuò)充 GPT-4 的知識,加強(qiáng)檢驗(yàn)步驟,對回答質(zhì)量進(jìn)行評分,以過濾低質(zhì)量的回復(fù)。
但 GPT-4 并不一直是正確的,當(dāng)工程師們發(fā)現(xiàn) Duolingo 的對話應(yīng)用中生成某些錯(cuò)誤時(shí),也會將這些錯(cuò)誤反饋給 OpenAI,OpenAI 利用這些反饋樣本進(jìn)一步訓(xùn)練和優(yōu)化模型。
GPT-4 的應(yīng)用不僅限于對話生成,還可用于課程內(nèi)容生成、英語測試、個(gè)性化學(xué)習(xí)等。Speak 和 Duolingo 現(xiàn)在都已經(jīng)在使用 AI 更快、更好的生成課程、創(chuàng)建練習(xí)。之后課程設(shè)計(jì)師會從 LLM 的輸出中選擇內(nèi)容,進(jìn)行編輯修改,因?yàn)?LLM 的輸出仍存在生硬或不太自然的部分。如以下的示例:
Write an exercise that uses the word VISITAR in SPANISH.
Rules:
1. The exercise must have two answer options.
2. The exercise must be fewer than 75 characters.
3. The exercise must be written in A2 CEFR level SPANISH.
4. The exercise must contain THE PRETERITE TENSE and THE IMPERFECT TENSE.
Go!
文章轉(zhuǎn)自微信公眾號@海外獨(dú)角獸