美亞柏科(kē)人工(gōng)智能(néng)科(kē)學(xué)家趙建強:ChatGPT是AI生成領域的裏程碑,與行業應用(yòng)結合将産(chǎn)生深遠(yuǎn)影響

來源:網絡2023-02-13 11:11:08

近期,ChatGPT概念席卷A股,截至2月10日,概念股中(zhōng)已有(yǒu)股票斬獲“7連闆”。
 
ChatGPT一經問世,便成為(wèi)輿論焦點,如今亦化身資本寵兒。但關于ChatGPT本身仍然存在不少疑問,這究竟是一個怎樣的技(jì )術?在AI發展的曆史長(cháng)河中(zhōng),ChatGPT的誕生,究竟算一個怎樣的事件?
 
近日,《每日經濟新(xīn)聞》記者專訪了美亞柏科(kē)(SZ300188,股價15.21元,市值130.73億元)人工(gōng)智能(néng)科(kē)學(xué)家、AI研發中(zhōng)心總經理(lǐ)趙建強博士。趙建強畢業于西安(ān)交通大學(xué)計算機科(kē)學(xué)與技(jì )術專業,獲得博士學(xué)位。多(duō)年來,趙建強及其研發團隊在美亞柏科(kē)從事人工(gōng)智能(néng)相關研究。
 
趙建強表示,2022年被業内稱為(wèi)AI生成的元年,ChatGPT是一個裏程碑式的産(chǎn)品。同時,ChatGPT背後所依托的超大規模語言模型技(jì )術也将在各行各業産(chǎn)生深遠(yuǎn)影響。
 
“除了OpenAI的GPT預訓練模型,實際上,谷歌、微軟、Meta、百度也有(yǒu)推出類似的模型,但他(tā)們暫時沒有(yǒu)把這些功能(néng)開放成一個聊天機器人。”趙建強告訴記者。
 
 
是AI文(wén)本生成領域的裏程碑
 
“在文(wén)本理(lǐ)解和智能(néng)問答(dá)技(jì )術方面,ChatGPT是一個裏程碑式的産(chǎn)品。”趙建強說。
 
記者注意到,ChatGPT之所以能(néng)夠火爆出圈,重要原因是其交流的流暢度和知識的豐富程度比之前的類似産(chǎn)品有(yǒu)很(hěn)大提高。
 
“在業界,我們把2022年稱為(wèi)AI生成的元年,不僅是ChatGPT,實際上OpenAI還開放了圖像生成的一些模型(DALL•E 2),隻是沒有(yǒu)像ChatGPT這麽熱。ChatGPT在AI生成内容方面或者AI創作(zuò)方面是一個裏程碑的節點,是比較有(yǒu)影響力的一個階段性成果。”趙建強認為(wèi)。
 
他(tā)介紹,ChatGPT的相關技(jì )術模型此前早已有(yǒu)之。“OpenAI之前就發布了ChatGPT的大語言模型。ChatGPT實際上是基于GPT-3.5這個版本的超大規模自然語言預訓練模型,之前已經發布過GPT1.0、2.0和3.0版本,現在用(yòng)的是GPT-3.5的版本。ChatGPT基于GPT模型,利用(yòng)人類反饋強化學(xué)習訓練的方式,學(xué)習人類提問機器答(dá)、機器提問人類答(dá)等模式,不斷訓練叠代,以實現智能(néng)對話聊天功能(néng)。”
 
趙建強向記者解釋:“ChatGPT交流得非常順暢,基本上聊到的内容都能(néng)回答(dá),這主要得益于其具(jù)有(yǒu)的超大規模自然語言預訓練模型GPT3.5,模型在訓練時使用(yòng)了海量人類在互聯網上所編輯生成的多(duō)種類文(wén)本數據集。OpenAI的官方介紹顯示,GPT訓練使用(yòng)了超萬億級單詞量的數據。此外,模型的參數規模也非常大,3.5版本的參數規模就達到了1750億。目前來看,可(kě)能(néng)隻有(yǒu)一些AI超級巨頭才具(jù)備這樣的數據量和計算能(néng)力。”
 
趙建強認為(wèi),由于具(jù)備了生成能(néng)力,ChatGPT将會對很(hěn)多(duō)行業産(chǎn)生影響。
 
“以前我們理(lǐ)解的AI更多(duō)處在計算智能(néng)和感知智能(néng)階段,比如圖像識别、人臉識别、文(wén)本觀點分(fēn)析等。現在AI已經具(jù)備認知智能(néng)的能(néng)力,可(kě)以根據命令需求,創作(zuò)生成各類文(wén)稿、文(wén)案,也可(kě)以通過文(wén)本場景描述生成圖像和視頻。所以說以後AI在内容生成創作(zuò)、文(wén)本生成文(wén)本、文(wén)本生成圖像、文(wén)本生成視頻等方面,都具(jù)有(yǒu)廣闊的應用(yòng)前景。ChatGPT解鎖了多(duō)樣化的文(wén)本内容生成能(néng)力,帶來AI創造世界更豐富的想象空間,将會應用(yòng)于文(wén)本理(lǐ)解、文(wén)本創作(zuò)、文(wén)案撰寫、知識推理(lǐ)、翻譯、智能(néng)客服、文(wén)本生成圖像,代碼理(lǐ)解、審查和生成等多(duō)個方向,具(jù)體(tǐ)跟一些行業應用(yòng)結合起來,将會産(chǎn)生比較大的行業影響。”趙建強表示。
 
利用(yòng)大語言模型反詐騙
 
此前,美亞柏科(kē)在投資者互動平台上表示:“公(gōng)司從2020年開始關注這類AI技(jì )術濫用(yòng)與犯罪的行為(wèi),研究對深度合成内容的檢測識别和鑒定相關技(jì )術,研發了針對視頻圖像僞造生成檢測鑒定的産(chǎn)品,積極參與人工(gōng)智能(néng)合成和生成技(jì )術合規應用(yòng)的行業标準的制定,協助執法部門維護網絡空間安(ān)全,規範人工(gōng)智能(néng)技(jì )術的良性發展。”
 
趙建強所在的部門一直在從事AI方面的研究。“以ChatGPT為(wèi)代表的超大規模語言預訓練模型技(jì )術出現之後,大大推動了AI業務(wù),特别是AI生成内容類業務(wù)落地的進程。”
 
美亞柏科(kē)的主要業務(wù)領域包括電(diàn)子數據取證、大數據智能(néng)化、網絡空間安(ān)全、智慧城市等。
 
“我們的做法也類似,我們采用(yòng)‘超大規模預訓練模型+下遊任務(wù)遷移’的技(jì )術思路,利用(yòng)超大規模的語言預訓練模型,再結合具(jù)體(tǐ)的項目和數據,訓練形成具(jù)有(yǒu)行業特色的應用(yòng)模型。實際上,美亞柏科(kē)在自然語言處理(lǐ)、OCR、計算機視覺以及人工(gōng)智能(néng)安(ān)全這些領域已經開展了多(duō)年的業務(wù)實踐,基于在電(diàn)子數據取證和執法部門大數據智能(néng)化領域多(duō)年的深耕和知識經驗的積累,對行業客戶數據特點和業務(wù)需求的深刻理(lǐ)解,提出了文(wén)本智能(néng)分(fēn)析理(lǐ)解、不良多(duō)媒體(tǐ)文(wén)件分(fēn)析、反詐騙信息鑒别、多(duō)模态信息檢索等多(duō)個獨有(yǒu)的核心算法模型,并已經在打擊犯罪、社會治理(lǐ)、智慧城市建設等方面發揮了實戰價值。”趙建強稱。
 
比如在反詐騙領域,大語言模型的識别效果要遠(yuǎn)超此前的識别模型。趙建強提到:“比如之前面對小(xiǎo)模型或者小(xiǎo)數據量的情況下,在文(wén)本的理(lǐ)解和識别上所實現的效果不是很(hěn)理(lǐ)想,超大規模語言預訓練模型技(jì )術将有(yǒu)效推動這類業務(wù)落地。”
 
“通過利用(yòng)已有(yǒu)的大規模語言預訓練模型,結合詐騙場景下的語言特點,我們就可(kě)以去學(xué)習訓練相關的識别模型。詐騙通常是通過文(wén)本聊天交流,具(jù)有(yǒu)一定的語言特征,也就是詐騙話術,在理(lǐ)解這些話術之後,再去檢測識别。”趙建強說。
 
趙建強繼續解釋:“比如有(yǒu)些受害人會被拉到一些所謂的理(lǐ)财群裏,詐騙人員以推銷交流虛假理(lǐ)财投資産(chǎn)品的名(míng)義誘導受害人。我們就可(kě)以通過訓練針對投資理(lǐ)财類聊天文(wén)本識别模型去鑒别,如果出現類似内容就可(kě)以檢測出來。還有(yǒu)一類就是識别發現各種詐騙網站,通過對詐騙網站網址、頁(yè)面文(wén)本内容、圖像内容等的特征學(xué)習,訓練形成針對不同類别詐騙網站識别的模型,提升海量網站數據中(zhōng)打擊詐騙網站的能(néng)力。目前,我們已經把這些技(jì )術和能(néng)力應用(yòng)到了反詐預警當中(zhōng)。”
 
此外,有(yǒu)不少投資者也在投資者互動平台上問及美亞柏科(kē)的相關業務(wù)。美亞柏科(kē)回複稱:“公(gōng)司将ChatGPT的相關技(jì )術融合應用(yòng)到産(chǎn)品售後支持部門,基于取證産(chǎn)品知識庫,研發智能(néng)客服機器人系統,提升服務(wù)水平。公(gōng)司将在國(guó)家相關法律法規許可(kě)的框架下持續關注、研究、利用(yòng)ChatGPT等新(xīn)技(jì )術,并與公(gōng)司大數據智能(néng)化、電(diàn)子數據取證等業務(wù)融合,積極參與相關行業标準制定,并适時布局新(xīn)業務(wù)。”