發(fā)布日期:2018-06-04
今年3月,頂尖學(xué)術(shù)期刊《自然》上發(fā)表的一項(xiàng)論文引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。來自上海大學(xué)的Mark Waller教授團(tuán)隊(duì)?wèi)?yīng)用深層神經(jīng)網(wǎng)絡(luò)及人工智能算法,成功地規(guī)劃了新的化學(xué)合成路線。即便是權(quán)威的合成化學(xué)家,也無法區(qū)分這款軟件與人類化學(xué)家之間的區(qū)別。這是人工智能在化學(xué)合成領(lǐng)域的重大突破,Mark Waller教授也被諸多媒體譽(yù)為“化學(xué)AlphaGo“的先驅(qū)。近期,我們和這位藥明康德的老朋友做了一次長談。人工智能在合成化學(xué)中有怎樣的應(yīng)用潛力與發(fā)展瓶頸?未來的人工智能工具會是什么樣的?化學(xué)界又需要怎樣的跨界人才?在這篇獨(dú)家專訪中,您將聽到來自這名大師的第一手洞見。
Q:Mark您好,先恭喜您的論文在《自然》雜志上順利發(fā)表。這項(xiàng)研究將化學(xué)、深度神經(jīng)網(wǎng)絡(luò)、以及人工智能應(yīng)用到了合成的設(shè)計(jì)上,有望提高化學(xué)合成的效率,可以說是一項(xiàng)杰出的工作。您能和我們的讀者朋友們介紹下這篇《自然》論文嗎?
Mark Waller教授:感謝藥明康德的專訪。說到這篇《自然》論文,我首先要感謝Marwin Segler。他原來是一名傳統(tǒng)的合成有機(jī)化學(xué)家,加入我的實(shí)驗(yàn)室后又進(jìn)一步成為了計(jì)算機(jī)科學(xué)家。他在有機(jī)合成方面有著很深的專精,同時又能從計(jì)算機(jī)科學(xué)的角度去看待問題。因此,他能正確地描述大量不同的化學(xué)反應(yīng),快速調(diào)整各種參數(shù),并找到合適的參數(shù)組合。他在我的實(shí)驗(yàn)室發(fā)了許多論文,也是這項(xiàng)研究的第一作者。我對他取得的成績感到自豪。
這項(xiàng)研究有不少亮點(diǎn)。首先,我們收集了截止到2014年發(fā)表過的幾乎所有的化學(xué)反應(yīng),這加起來大概有1250萬個反應(yīng)。然后我們很快地使用自動處理,從這些反應(yīng)中提取出了規(guī)則。接下來我們面臨的挑戰(zhàn)在于如何應(yīng)用這些規(guī)則。過去,人們認(rèn)為應(yīng)用這些規(guī)則必須得手動編程。但我們在這篇《自然》論文里表明,通過深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),我們不需要對所有環(huán)節(jié)都進(jìn)行手動編程——這些深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度非常快,這也要?dú)w功于谷歌和其他大型科技公司對代碼庫的優(yōu)化,讓我們能快速對反應(yīng)進(jìn)行預(yù)測。
完成這步后,我們接下來將注意力投向了逆合成,它大概需要25到30步。利用深度學(xué)習(xí)等現(xiàn)代技術(shù),我們再也不需要使用過去的規(guī)則匹配或模式匹配方式了。這就是這篇《自然》論文的主要內(nèi)容。利用自動抓取的規(guī)則,我們學(xué)會了如何將它們應(yīng)用到所有的有機(jī)化學(xué)中,也看到了目前的算法與當(dāng)前的核心技術(shù)項(xiàng)目有哪些亮點(diǎn)。在這篇論文的最后,我們設(shè)計(jì)了一個雙盲的實(shí)驗(yàn),并讓人類專家來評估A和B兩條合成路徑哪個更好。其中路徑A是合成化學(xué)家設(shè)計(jì)的,路徑B是我們的算法設(shè)計(jì)的。我們很高興地看到,這兩者之間的偏好沒有顯著差異。
▲在雙盲測試中,化學(xué)家們沒有顯示出對傳統(tǒng)合成途徑的偏好(圖片來源:《Nature》)
但前方也有一些挑戰(zhàn)需要我們?nèi)ソ鉀Q,第一個挑戰(zhàn)就是需要真正的化學(xué)家在實(shí)驗(yàn)室里去驗(yàn)證這些路徑。第二個挑戰(zhàn)是如何獲取失敗的數(shù)據(jù)。我們都知道文獻(xiàn)只報(bào)道成功的案例,但我認(rèn)為如果能獲得失敗的數(shù)據(jù),我們的方法無疑將變得更可靠。
Q:感謝您的介紹。我們注意到這項(xiàng)研究在業(yè)內(nèi)引起了巨大的反響,也引申出了一個有趣的話題。幾年前,有機(jī)合成似乎已不再是化學(xué)家們所迷戀的對象,但在去年年底,人們預(yù)言說有機(jī)合成會重新崛起,而事實(shí)也證明了預(yù)言的準(zhǔn)確。從您的角度看,有機(jī)合成的“復(fù)興”背后有著怎樣的原因?這和人工智能的使用有關(guān)系嗎?
Mark Waller教授:我相信是這樣的。目前有許多課題組正在開發(fā)人工智能和機(jī)器學(xué)習(xí)的方法,用于預(yù)測反應(yīng),或是逆合成。這讓學(xué)界重新興起了對有機(jī)合成的興趣,也帶來了一波技術(shù)創(chuàng)新的浪潮。我們從化學(xué)界之外的成功中獲得了啟示。人工智能,尤其是深度神經(jīng)網(wǎng)絡(luò),在過去的幾年里取得了巨大的進(jìn)步。
Q:的確在這些年里,我們化學(xué)領(lǐng)域正在發(fā)生全新的變化,人工智能、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)在合成化學(xué)、藥物化學(xué)中也變得越來越常見。在您看來,這些技術(shù)帶來的是泡沫?還是更好的現(xiàn)實(shí)?
Mark Waller教授:我認(rèn)為在化學(xué)領(lǐng)域內(nèi),人工智能等技術(shù)非常有可能為我們帶來嶄新的現(xiàn)實(shí)。一方面,全世界范圍內(nèi)的化學(xué)家們都非常高產(chǎn),在很長一段時間里積累了大量論文,幫助我們收集了海量的高質(zhì)量數(shù)據(jù)。另一方面,像Reaxys這樣的公司已經(jīng)把這些數(shù)據(jù)整理得很好了。因此,我們能從中提取出有趣的規(guī)律,獲得真正的知識。相比復(fù)雜的生物學(xué),化學(xué)領(lǐng)域更容易取得成功。
我相信人們最終會習(xí)慣使用這些基于人工智能的工具。在化學(xué)領(lǐng)域或是反應(yīng)領(lǐng)域,我們已經(jīng)很好地探索并理解了這些人工智能工具。如果你把這些工具當(dāng)作是一個“數(shù)碼助手”,那么使用這個工具的人類化學(xué)家,會比不使用它的化學(xué)家來得更高效。以人工智能為基礎(chǔ)的工具可以幫助有機(jī)合成化學(xué)家思考化學(xué)反應(yīng)的新類型,讓他們展示出人類的創(chuàng)造性。
Q:您最初是怎么對機(jī)器學(xué)習(xí)和人工智能產(chǎn)生興趣的?
Mark Waller教授:我最初是一名量子化學(xué)家。坦誠講,對年輕的學(xué)者來說,量子化學(xué)是一個非常昂貴的研究領(lǐng)域。但人工智能和機(jī)器學(xué)習(xí)的工具也能產(chǎn)生非常好的結(jié)果,而且更快,更便宜。你完全不需要量子化學(xué)領(lǐng)域里所必需的大型超級計(jì)算機(jī)來進(jìn)行大量計(jì)算。
現(xiàn)在,我們的人工智能工具已經(jīng)有了不錯的表現(xiàn)?;瘜W(xué)家們輸入一個復(fù)雜的結(jié)構(gòu),等上30秒,我們的工具就能繪制出一條合成路徑,路徑的起點(diǎn)是非常容易獲得的起始原料。這意味著我們能把人工智能工具做成交互式的網(wǎng)頁應(yīng)用。需要注意的是,我們現(xiàn)在還沒有處理任何量子化學(xué)的計(jì)算,這會降低代碼的運(yùn)行速度。
▲和兩種傳統(tǒng)合成方法相比(紅色和綠色),使用新型人工智能算法(藍(lán)色)在較短時限內(nèi)可以完成更多分子的合成路線預(yù)測(圖片來源:《Nature》)
Q:未來我們還將迎來哪些進(jìn)展?這些進(jìn)展會給化學(xué)家們帶來怎樣的幫助?
Mark Waller教授:我們的夢想當(dāng)然是打造一款更好的助手。你不需要在浩瀚的文獻(xiàn)海洋里一個一個查找,而是能有個一體整合式的幫手,就像谷歌地圖那樣,你只要輸入地址,就能得到幫助。這其實(shí)是基于不同的條件,算出的一系列優(yōu)化路徑。在化學(xué)合成設(shè)計(jì)領(lǐng)域,類似的工具會非常有用。
▲人工智能工具要像谷歌地圖一樣好用(圖片來源:https://upload.wikimedia.org/wikipedia/commons/9/9a/Google_maps_logo.png)
Q:最近我們看到,新興技術(shù)在快速發(fā)展。您如何看待電子實(shí)驗(yàn)記錄(ELN)的應(yīng)用?量子化學(xué)方面的難題又是否能得到解決?
Mark Waller教授:我相信ELN有望取得成功。如果我們能將整合的合成路徑放入ELN里,對未來是一個相當(dāng)好的消息。ELN有望讓我們能夠獲取一些不成功的結(jié)果,這是很棒的一點(diǎn)。之前我也提到,這是我們面臨的挑戰(zhàn)之一。
在量子化學(xué)方面,我也看到了許多出色的進(jìn)展。大量的量子化學(xué)研究產(chǎn)生了大規(guī)模的高質(zhì)量數(shù)據(jù),人們也正在使用深度神經(jīng)網(wǎng)絡(luò)去訓(xùn)練這些量子化學(xué)數(shù)據(jù)庫。比方說,Isayev教授與Roitberg教授的課題組正在挑戰(zhàn)這一難題,我相信這會通往非常有趣的方向。
Q:您的研究成果對化學(xué)領(lǐng)域,尤其是醫(yī)藥行業(yè)有非常深遠(yuǎn)的影響。您的課題組與產(chǎn)業(yè)之間有合作關(guān)系嗎?
Mark Waller教授:因?yàn)槲覀冊趯W(xué)術(shù)界工作,所以能獲得的化學(xué)反應(yīng)數(shù)據(jù)庫是有限的,而優(yōu)質(zhì)的數(shù)據(jù)是成功的關(guān)鍵。幸運(yùn)的是,我們獲得Reaxys的信任,使用他們的數(shù)據(jù)庫。我們的下一步計(jì)劃是和藥明康德這樣的大型公司合作,進(jìn)行實(shí)驗(yàn)驗(yàn)證,并與實(shí)際的合成經(jīng)驗(yàn)做比較,評估我們的AI算法表現(xiàn)。
藥明康德一直是我們的合作伙伴。在課題進(jìn)行過程中,我們也和藥明康德的科學(xué)家們有過討論。這些討論非常棒,讓我們更清楚地了解到什么是必要的信息。最令人激動的部分在于,我們能用這個算法與真正的行業(yè)專家做頭對頭的比較,這是局限于學(xué)術(shù)界的象牙塔中所無法完成的工作。在學(xué)術(shù)界,我們也能開發(fā)算法、測試算法、并說服全世界的一些科研團(tuán)體幫我們一起測試,但它的規(guī)模會非常小,效率也不夠高。而通過與藥明康德的討論,我們計(jì)劃對算法進(jìn)行更規(guī)范、更穩(wěn)健、也更為系統(tǒng)的評估。
▲這項(xiàng)研究的方法設(shè)計(jì)(圖片來源:《自然》)
除了這些,目前我們還沒有很多與業(yè)界的合作。我的課題組相對比較獨(dú)立,一直專注在如何讓這套算法順利起步。但自從我們?nèi)ツ?月在線遞交了論文后,人們對它產(chǎn)生了很濃厚的興趣。所以可以想象,未來我們會有更多全新的合作關(guān)系。我們樂于看到這樣的可能性。這些互動能給我們帶來獨(dú)特的洞見,讓我們集中解決對行業(yè)至關(guān)重要的問題,并可能帶來更深遠(yuǎn)的影響。
Q:我們來談?wù)勀鷤€人吧。您是怎么決定加入上海大學(xué)的?
Mark Waller教授:這是一個非常有趣的故事。大概是在2014年的時候,上海大學(xué)宣布他們將組建一支團(tuán)隊(duì),用量子化學(xué)的方法去研究蛋白質(zhì),獲得更精準(zhǔn)的蛋白結(jié)構(gòu)。我當(dāng)時正在加州用類似的方法研究蛋白質(zhì)的晶體學(xué),于是就加入了他們的團(tuán)隊(duì)。和我一起來到上海的研究人員有著不同的背景,這對我們的研究來說是個很大的幫助。當(dāng)然,能夠和上海藥明康德的化學(xué)家進(jìn)行討論,也是來到上海的最大收獲之一。
Q:感謝您的分享。在訪談的最后,您有沒有什么想總結(jié)的?
Mark Waller教授:我相信人工智能有望在化學(xué)領(lǐng)域帶來革命性的變化。它的熱度上升得非???,這是一個好現(xiàn)象。
來源:藥明康德