- 首頁(yè)
- 民文
- English
- 舉報(bào)專區(qū)
- 登錄
大江東|上海:發(fā)力語(yǔ)料,建設(shè)“模都”

“人工智能,是人類養(yǎng)育的‘孩子’,而語(yǔ)料就是‘教材’?!?/span>
“我們希望人工智能在倫理價(jià)值上有德、情緒價(jià)值上有趣、文化價(jià)值上有品、社會(huì)價(jià)值上有序、技術(shù)價(jià)值上有用。”
7月6日,2024世界人工智能大會(huì)舉辦期間,一場(chǎng)關(guān)于人工智能語(yǔ)料的論壇首次在滬舉辦。
時(shí)針回?fù)艿揭荒昵?,?023世界人工智能大會(huì)上,在上海市委書(shū)記陳吉寧、上海市市長(zhǎng)龔正共同見(jiàn)證下,上海人工智能實(shí)驗(yàn)室、人民網(wǎng)、國(guó)家氣象中心等單位聯(lián)合發(fā)起的中國(guó)第一個(gè)大模型語(yǔ)料數(shù)據(jù)聯(lián)盟成立。
2023年7月6日,大模型語(yǔ)料數(shù)據(jù)聯(lián)盟成立。王初攝
人工智能需要與人類價(jià)值對(duì)齊的規(guī)范語(yǔ)料
人工智能大模型取決于三大要素:算力、算法、語(yǔ)料。
算力是硬件,算法是大模型企業(yè)的核心競(jìng)爭(zhēng)力,語(yǔ)料則是大模型訓(xùn)練的重要“燃料”,高質(zhì)量的語(yǔ)料對(duì)于大模型在各行各業(yè)的應(yīng)用十分關(guān)鍵。中國(guó)是世界上數(shù)字化應(yīng)用場(chǎng)景最豐富的國(guó)家,各種場(chǎng)景提供了極為豐富的語(yǔ)料,但各種語(yǔ)料中也存在良莠不齊現(xiàn)象,有些涉及隱私,有的甚至違規(guī)違法。目前,大模型發(fā)展急需與人類價(jià)值對(duì)齊的規(guī)范語(yǔ)料。
正因于此,上海一直高度重視語(yǔ)料建設(shè)。
縱觀全國(guó),北京、上海、深圳、杭州四地在人工智能領(lǐng)域深耕已久,正執(zhí)產(chǎn)業(yè)發(fā)展之牛耳。上海的特點(diǎn),是人工智能頂層設(shè)計(jì)有力,場(chǎng)景應(yīng)用豐富,并在公共數(shù)據(jù)開(kāi)源方面進(jìn)行了長(zhǎng)期大量探索。
從183家到348家,上海人工智能產(chǎn)業(yè)規(guī)上企業(yè)數(shù)量在2018年至2023年間實(shí)現(xiàn)高速增長(zhǎng)。商湯科技、達(dá)觀數(shù)據(jù)、星環(huán)科技等企業(yè)開(kāi)拓人工智能“新藍(lán)海”,培育大模型產(chǎn)業(yè)發(fā)展新生態(tài),加快形成新質(zhì)生產(chǎn)力。
上海市已有34款大模型通過(guò)備案,產(chǎn)生了制造業(yè)、金融、具身智能機(jī)器人等垂類領(lǐng)域應(yīng)用;多款通用人形機(jī)器人原型機(jī)發(fā)布,實(shí)現(xiàn)雙足避障行走;4200億Token的語(yǔ)料數(shù)據(jù)實(shí)現(xiàn)開(kāi)源。
人工智能,是上海著力發(fā)展的三大先導(dǎo)產(chǎn)業(yè)之一,也是發(fā)展新質(zhì)生產(chǎn)力的重要引擎。隨著大模型時(shí)代到來(lái),上海力圖先行一步,構(gòu)建大模型創(chuàng)新策源地,建設(shè)新的“模都”。
去年9月,2023世界人工智能大會(huì)閉幕不久,上?!澳K倏臻g”創(chuàng)新生態(tài)社區(qū)即在徐匯西岸揭牌成立。作為全國(guó)首個(gè)、上海唯一的生成式人工智能專業(yè)孵化和加速載體,目前這里已入駐大模型上下游企業(yè)80余家,力爭(zhēng)成為代表上海乃至國(guó)家贏取全球科技戰(zhàn)略競(jìng)爭(zhēng)主動(dòng)權(quán)的“主力因子”。
全國(guó)首個(gè)大模型創(chuàng)新生態(tài)社區(qū)“模速空間”。受訪單位供圖
今年3月下旬,在上海市經(jīng)信委大力推進(jìn)下,由上海人工智能實(shí)驗(yàn)室、人民網(wǎng)、中國(guó)電信、商湯、階躍星辰等多家頭部人工智能領(lǐng)軍企業(yè)共同出資,注冊(cè)成立中國(guó)第一家人工智能語(yǔ)料公司——上海庫(kù)帕思科技有限公司。庫(kù)帕思公司董事長(zhǎng)山棟明表示,希望為全國(guó)的人工智能企業(yè)提供“1+N”式的語(yǔ)料服務(wù)。其中,“1”為公共的核心語(yǔ)料,包括世界知識(shí)體系和價(jià)值對(duì)齊體系;“N”為面向垂直應(yīng)用領(lǐng)域等的專業(yè)語(yǔ)料。
語(yǔ)料數(shù)據(jù)推進(jìn)人工智能深度鏈接千行百業(yè)
備受業(yè)界關(guān)注的語(yǔ)料數(shù)據(jù)的應(yīng)用,還需在人工智能具體實(shí)踐中找到未來(lái)。
在追逐浪潮中,不少企業(yè)發(fā)現(xiàn),并非誰(shuí)都有精力、有能力去做基礎(chǔ)大模型,于是“小模型”——垂類大模型順勢(shì)而生。專門為具體行業(yè)而設(shè)計(jì)的“小模型”如何在企業(yè)等應(yīng)用場(chǎng)景落地?這是許多人工智能企業(yè)負(fù)責(zé)人普遍關(guān)注的問(wèn)題。
“銀行審計(jì)業(yè)務(wù)面臨數(shù)據(jù)信息和系統(tǒng)架構(gòu)的分散性、異構(gòu)性和復(fù)雜性等問(wèn)題,深挖各類數(shù)據(jù)的價(jià)值一直是挑戰(zhàn),且銀行內(nèi)部數(shù)據(jù)的有效利用率普遍不高,尤其是審計(jì)部門內(nèi)部大量文本數(shù)據(jù)未形成資產(chǎn)?!倍嗄陙?lái),深耕垂類大模型領(lǐng)域的達(dá)觀數(shù)據(jù)在金融行業(yè)文本處理方面,積累了大量金融專業(yè)數(shù)據(jù)。如今,達(dá)觀數(shù)據(jù)的垂類大模型已經(jīng)開(kāi)始面向銀行審計(jì)人員,為審計(jì)監(jiān)控平臺(tái)提供接口服務(wù),還可對(duì)各類文檔進(jìn)行比對(duì),大大提高工作效率。
“樓上住戶噪音擾民,尤其晚上進(jìn)出人很多,懷疑是群租房,請(qǐng)管理部門盡快解決?!苯眨謻|新區(qū)塘橋街道城運(yùn)中心接到12345市民熱線投訴工單,“數(shù)字社工”城運(yùn)助手立即對(duì)工單內(nèi)容進(jìn)行分析,并自動(dòng)精準(zhǔn)分派給主辦、協(xié)辦部門處置,整個(gè)流程不到2分鐘。
“數(shù)字社工”以大模型為底座,能夠適應(yīng)基層政務(wù)的多種使用場(chǎng)景。“以前,工單派遣靠經(jīng)驗(yàn),分析研判靠人工,費(fèi)時(shí)費(fèi)力?!痹诔沁\(yùn)中心工作10多年的卜丹鳳說(shuō),“數(shù)字社工”上崗后,給基層治理帶來(lái)了明顯的變化。
“數(shù)字社工”能夠?qū)⒐畏植记闆r生成熱力圖。唐小麗攝
如今,塘橋街道城運(yùn)中心自動(dòng)派單準(zhǔn)確率超過(guò)90%,工單處置效率提升60%,績(jī)效分析和報(bào)表生成從2小時(shí)縮減至10分鐘,居民回訪滿意度進(jìn)一步提升。“這樣的技術(shù)應(yīng)用,真是實(shí)實(shí)在在為基層減負(fù)?!辈返P感慨道。
協(xié)同區(qū)域發(fā)展、構(gòu)建智慧城市、重塑商業(yè)密碼、打造數(shù)字文娛……在上海,人工智能正深度鏈接千行百業(yè)。擁抱“AI+”,在人工智能助力下推動(dòng)傳統(tǒng)行業(yè)轉(zhuǎn)型升級(jí)、指引新興行業(yè)加速生長(zhǎng),已成為當(dāng)下業(yè)界共識(shí),發(fā)展趨勢(shì)不可阻擋。
讓人工智能成長(zhǎng)為符合全人類共同價(jià)值的“好孩子”
論壇上,人民網(wǎng)、人民日?qǐng)?bào)社傳播內(nèi)容認(rèn)知全國(guó)重點(diǎn)實(shí)驗(yàn)室聯(lián)合上海庫(kù)帕思科技有限公司,正式發(fā)布人工智能價(jià)值對(duì)齊“五有”框架。
2024年7月6日,世界人工智能大會(huì)語(yǔ)料論壇現(xiàn)場(chǎng)。王初攝
人民網(wǎng)、人民日?qǐng)?bào)社傳播內(nèi)容認(rèn)知全國(guó)重點(diǎn)實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人表示,建設(shè)多維度價(jià)值對(duì)齊的語(yǔ)料庫(kù),應(yīng)該堅(jiān)持“以人為本、智能向善、造福人類”的原則,鼓勵(lì)通過(guò)國(guó)際合作和實(shí)際行動(dòng),幫助世界各國(guó)加強(qiáng)人工智能能力建設(shè)。這個(gè)體系分成5個(gè)主要維度,分別是:體現(xiàn)遵循社會(huì)道德規(guī)范和法治精神的倫理價(jià)值維度,體現(xiàn)滿足個(gè)人和群體情感認(rèn)同交流和成長(zhǎng)需求的情緒價(jià)值維度,體現(xiàn)助力大眾文化素養(yǎng)提升和促進(jìn)文明互鑒共進(jìn)的文化價(jià)值維度,體現(xiàn)推動(dòng)社會(huì)公平正義和可持續(xù)創(chuàng)新發(fā)展的社會(huì)價(jià)值維度,體現(xiàn)推動(dòng)科技創(chuàng)新與可控可治的技術(shù)價(jià)值維度。
倫理價(jià)值維度,希望人工智能是有德的。倫理價(jià)值是人類社會(huì)長(zhǎng)期發(fā)展的文明積淀,是社會(huì)科學(xué)研究的重點(diǎn)領(lǐng)域,也是公眾日常行為生活的規(guī)范。倫理價(jià)值的語(yǔ)料來(lái)源及層次非常豐富,要構(gòu)建涵蓋基礎(chǔ)理論、歷史文化和現(xiàn)實(shí)生活等三大板塊的多角度語(yǔ)料內(nèi)容,全面反映倫理價(jià)值的內(nèi)涵與外延。
情緒價(jià)值維度,希望人工智能是有趣的。情緒價(jià)值服務(wù)于“技術(shù)為人類服務(wù)”的根本宗旨,希望人工智能將來(lái)的發(fā)展目標(biāo)能與人類共情、共鳴,這也是當(dāng)前人工智能發(fā)展的短板。該維度的語(yǔ)料庫(kù)建設(shè)具有很強(qiáng)的普適性,同時(shí)存在個(gè)性化、場(chǎng)景化和地域化等特定需求。希望構(gòu)建涵蓋治愈成長(zhǎng)、互動(dòng)共鳴及自?shī)侍剿鞯热蟀鍓K的多角度語(yǔ)料內(nèi)容,全面提升人工智能的情緒價(jià)值。
文化價(jià)值維度,希望人工智能是有品的。人工智能技術(shù)的發(fā)展和應(yīng)用,應(yīng)充分尊重和促進(jìn)不同文化之間的平等對(duì)話和交流,鼓勵(lì)文化多樣性和包容性。應(yīng)重點(diǎn)構(gòu)建涵蓋中國(guó)元素、傳統(tǒng)文化及全球文化等三大板塊的多角度語(yǔ)料內(nèi)容,推廣各國(guó)文化發(fā)展和文明進(jìn)步過(guò)程中形成的精神財(cái)富和智慧積累,啟發(fā)人工智能在人文關(guān)懷、審美塑造和啟迪智慧方面的積極作用。
社會(huì)價(jià)值維度,希望人工智能是有序的。社會(huì)價(jià)值側(cè)的板塊語(yǔ)料,將體現(xiàn)人類普遍認(rèn)同的關(guān)于國(guó)家、民族、社會(huì)以及全人類層面的價(jià)值理念、處事原則和行為規(guī)范。要重點(diǎn)從社會(huì)和諧、社會(huì)發(fā)展、全球治理等三大板塊來(lái)進(jìn)行語(yǔ)料組織和建設(shè),讓人工智能成為促進(jìn)全人類文明和發(fā)展的推動(dòng)力量。
技術(shù)價(jià)值維度,希望人工智能是有用的。安全性是實(shí)現(xiàn)技術(shù)價(jià)值對(duì)齊的首要前提,可靠性是確保人工智能系統(tǒng)廣泛應(yīng)用和獲得人類信賴的關(guān)鍵,可控性是保障人工智能系統(tǒng)依照人類預(yù)期行動(dòng)的基礎(chǔ),公平性是實(shí)現(xiàn)技術(shù)普惠和避免社會(huì)不公的重要條件。要建設(shè)對(duì)人類有益的,對(duì)人工智能的安全性、可靠性、可控性和公平性進(jìn)行測(cè)評(píng)和風(fēng)險(xiǎn)評(píng)估的語(yǔ)料數(shù)據(jù)庫(kù)。
簡(jiǎn)言之,就是希望人工智能在倫理價(jià)值上有德、情緒價(jià)值上有趣、文化價(jià)值上有品、社會(huì)價(jià)值上有序、技術(shù)價(jià)值上有用?!巴ㄟ^(guò)5個(gè)維度的價(jià)值對(duì)齊,建設(shè)優(yōu)質(zhì)語(yǔ)料‘好教材’,助其成長(zhǎng)為符合全人類共同價(jià)值的‘好孩子’。”語(yǔ)料論壇上,人民網(wǎng)負(fù)責(zé)人表示。
分享讓更多人看到