智慧應用 影音
EVmember
DTR0829
林一平
  • 國立陽明交通大學資工系終身講座教授暨華邦電子講座
現為國立陽明交通大學資工系終身講座教授暨華邦電子講座,曾任科技部次長,為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬,發展出一套物聯網系統IoTtalk,廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元,喜好藝術、繪畫、寫作,遨遊於科技與人文間自得其樂,著有<閃文集>、<大橋驟雨>。
不學AI不會輸在起跑點?
人工智慧(AI)對城市發展有著深遠的影響,一般市民和地方產業應該了解如何運用AI。在新竹縣政府和新竹縣議會指導下,新竹縣工業會支持成立了AI產業發展聯盟。希望能全面提升新竹縣縣民、企業和公部門對AI產業轉型的認識。聯盟成立啟動儀式上,所有的音樂、影片和開場歌曲都是由AI數位生成,參與的民眾對於AI的發展潛力和表現感到既驚艷又大開眼界。我在大會演講指出,AI技術發展迅速且多元,平均每兩至三個星期就有新技術產出。因此,我希望集結聯盟的力量,幫助大家找到產業所需的AI技術,並降低AI機器設備的成本。為了吸引聽眾的注意力,我在演講的投影片上寫道:「不學AI不會輸在起跑點,而是會死在起跑點。」這句話引發了觀眾的哄堂大笑,但也讓大家認真思索AI對他們個人的影響。一般群眾分不清判別式(Discriminative)AI和生成式(Generative)AI,因此我以自己的研究為例,說明兩者的區別。判別式AI根據輸入數據進行分類或標籤,經過訓練後能識別每個類別特有的模式和特徵,並根據這些模式進行預測。而生成式AI則著重於構建能生成與訓練數據相似的新數據的模型,這些模型學習訓練數據的潛在概率分佈,並從中生成新樣本。了解不同AI技術本質,就更清楚如何運用這些技術。新竹縣AI產業發展聯盟將致力於解決縣內重要議題,例如提升新竹縣的數位治理,以及幫助中小企業理解並促成AI轉型。未來,聯盟將通過舉辦講座、企業參訪、研討會等活動,甚至是個別企業諮詢和技術小聚,來媒合技術與需求,同時協助企業爭取中央的計畫補助。新竹縣政府拼經濟是首要工作,而AI更是重要的發展項目,公部門的科技治理應時時貼近民意,透過AI的智能服務,讓民眾生活更加美好。今年暑期7月份的AI課程在短短不到一周的時間內便報名爆滿。未來將針對不同產業需求,加開相關課程,例如勞工如何運用AI科技、如何通過AI改善愈來愈壅塞的交通問題等。甚至將引進認證課程,讓企業能深入了解AI轉型的技術。歡迎有興趣的企業夥伴一同加入,共同努力發展先進的縣市智慧應用。
2024/7/11
雷達的趣聞
烏克蘭與俄羅斯戰爭中使用的雷達技術玲瑯滿目。這些技術涉及監視雷達、防空雷達,以及由雙方部署的戰場監視系統。這些雷達系統用於偵測飛機、導彈或地面活動的系統。這些雷達技術是哪些厲害人物發明的?麻省理工學院輻射實驗室在第二次世界大戰時期將電磁波的研究發揮得淋漓盡致,對於雷達(Radar)的發展有不可磨滅的貢獻,也產生出多位諾貝爾獎得主,包括創造「核磁共振」這個名詞的拉比 (Isidor Isaac Rabi, 1898~1988), 在1937年確實驗證原子核的角動量,而於1944年獲頒諾貝爾物理獎。薄賽爾 (Edward Purcell, 1912~1997) 與布洛赫 (Felix Bloch, 1905~1983)因發現在外加磁場下,所有物質只要是有奇數個質子或中子皆可以形成共振現象,能發射特定射頻信號,而在1952年榮獲諾貝爾物理獎。這項發現早期應用在化學物質的檢測上。薄賽爾得諾貝爾獎時好像只有發表6篇論文。阿瓦雷茲 (L.W. Alvarez, 1911~1988) 因製成第一部質子直線加速器,以及對基本粒子研究發展的貢獻,而榮獲諾貝爾物理獎。冉濟(Norman F. Ramsey, 1915~2011) 發展出分離的震盪場方法及其在氫邁射和其他原子鐘上的應用。第二次世界大戰期間列強的戰爭需求使得先進科學技術得以快速的發展,於是雷達就出現了。大戰期間,德國空軍老是跨海轟炸倫敦,讓英國煩不勝煩,急需一種探測空中金屬物體的技術,能在反空襲戰中幫助搜尋德國飛機。雷達的最早構想來自於沃森瓦爵士 (Sr. Robert Watson-Watt, 1892~1973),希望與美國攜手合作,共同打擊德軍。於是上述這群偉大科學家的電磁波研究集中火力,在戰爭時期發展出地對空、空對地搜索轟炸、空對空截擊火控,以及敵我識別功能的雷達技術,德軍聞之喪膽。戰後雷達有多項民生應用。例如微波爐(所謂的「雷達烤箱」)深受家庭主婦喜愛;雷達測速器則成為汽車超速者的剋星。沃森瓦開車超速曾被雷達測速器抓到罰錢,對於自己推動這項發明的應用,反讓他自食惡果,啼笑皆非。 
2024/7/4
西瓜熟了沒?拍打西瓜的AI
在西瓜的商業生產過程中,農民必須在收穫後迅速評估水果的成熟度,根據可食用時間分類,以減少損失。這個過程提升市場銷售和生產力,但傳統的西瓜測試方法通常不可靠。當你購買西瓜時,成熟度測試是一個有趣的「儀式」。一般家庭主婦將西瓜成熟度分類為2個等級:未成熟和成熟;農夫在西瓜田的辨識則分為3個等級,包括未熟類(不要碰)、成熟類(作為商品選擇)和過熟類(需要丟棄)。許多人分享他們測試西瓜成熟度的經驗。其中最具創意的一個方法是使用稻草技術,將一根稻草水平放在西瓜上。成熟的西瓜會使稻草旋轉45度,而未熟的西瓜則保持靜止。這種說法認為稻草的運動是由西瓜內部的電力作用引起的。我多次嘗試這種方法未果,只好放棄,改變方向,研究其他方法。雖然像拍打、顏色檢查和計日等手動技術具有實用性,但其準確性依賴於主觀判斷。目前,普遍使用的方法是通過拍擊聲音來評估西瓜的成熟度。這種拍打技術出奇地具有邏輯性,因為產生的聲音提供了足夠的成熟度指標。然而,對這些聲音的個人解讀受主觀經驗和傳統智慧的影響。我思考是否能利用AI及物聯網(IoT)來進行大量快速的西瓜成熟度的拍擊評估。在我研究團隊的辛勤工作後,提出WatermelonTalk技術。這是一個基於物聯網的即時深度學習平台,專為聲學西瓜測試設計。我們還引入了「拍打合奏\(tapping ensemble)的概念,顯著提升預測準確性,這在文獻中尚未出現。我們邀請農友種苗公司的專家將343個品種的1,698個西瓜按成熟度分類,利用深度機器學習,首次探討四級測試,其中將三級測試中的未成熟類進一步細分為未成熟類和半熟類。比起未成熟類,農民更關注半熟類,須確保對其進行比未成熟類更頻繁的測試。這樣做是為了防止這些半熟西瓜在下一次測試時過熟。我們的研究在三級測試中達到97.64%的測試準確性,而在四級測試中達到94.07%的顯著準確性,這是聲學框架中的最佳結果。三級測試可供消費者在購買西瓜時使用,而四級測試則作為農民專業生產的工具。西瓜有不同的成熟程度,選擇適當的成熟度會大大影響西瓜的味道和質地。在收穫後迅速評估水果的成熟度,通過可食用時間進行分類,可顯著降低收穫後的損失。因此,WatermelonTalk幫助農民仔細衡量西瓜的成熟度,提升市場銷售和生產力,彰顯AI對日常生活的貢獻。關於技術的詳細信息,請參閱Yun-Wei Lin, Yi-Bing Lin, Wen-Liang Chen, Chia-Hui Chang, and Han-Kuan Li, Watermelons Talk: Predicting Ripeness through Tapping, 將刊登於IEEE Internet of Things Magazine。
2024/6/24
AI解析音樂與尼采如是說
我以AI物聯網分析音樂,並利用其結果來驅動樂器的演奏,稱之為MusicTalk。接下來就想訓練大型語言模型(LLM),將文字與音樂互換,再將音樂用來詮釋影像。最大的應用是電影配樂。要將音樂智慧化以配合影像,科技人必須對音樂的內涵有深入的認識。例如電影的配樂最讓人印象深刻的是1968年電影《2001太空漫遊》(2001: A Space Odyssey)中用史特勞斯(Richard Strauss, 1864~1949)演繹《查拉圖斯特拉如是說》(Thus Spake Zarathustra)這首樂曲的開場。《查拉圖斯特拉如是說》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同於一般哲學作品,而是以散文詩完成。尼采曾表示這本書實際上是一部「交響曲」,以一種偽聖經風格撰寫,它包含許多含糊不清且充滿詩意的神秘箴言。我沒讀通這本書,膚淺了解其主要思想是,人類應該擁抱生活、自然、身體和物質存在,包括其中的樂趣和痛苦,而非尋求超越或來世的精神世界。生活即使伴隨著所有的苦難,還是值得為了它的存在而生活。許多藝術家和作曲家受到《查拉圖斯特拉如是說》的影響,但很少有人像史特勞斯那樣深切融入尼采的哲學觀點。1896年時32歲的史特勞斯開始創作 《查拉圖斯特拉如是說》樂章。當時尼采因三期梅毒的感染,已精神失常。史特勞斯將自己作品的各個部分以尼采書中不同章節命名。他嘗試將尼采抽象的文字清晰地翻譯成同樣抽象的器樂音樂。該作品在完成後幾個月內進行首演,其華麗的編曲、複雜的音樂紋理、大膽的和諧和具爭議性的主題,引發激烈的批評和喝采。《2001太空漫遊》使用這首樂曲開場為外太空的日出配樂,符合史特勞斯描繪尼采書中開場的山頂日出情境。開場中的小號旋律呈現「自然」或「世界之謎」動機;它在整個樂曲中反覆出現,象徵著大自然的冷漠和神秘性: 在強烈的開場之後,號角的回應是一個宗教式的旋律,由分散的弦樂器精彩演奏。開場時音樂從柔和到逐漸增強,象徵著人類對一個完美、天堂般、精神上的自然替代的渴望。有了《2001太空漫遊》的例子,我嘗試以MusicTalk反推史特勞斯的音樂,想找出他想表現的意涵,卻遭遇極大困難。史特勞斯曾經開玩笑地說,他可以在音樂中訴說一切,即使人們無法理解,我就是那位無法理解的人,妄想以物聯網駕馭史特勞斯的音樂。《查拉圖斯特拉如是說》太過深奧,AI處理不來。我決定放棄好高騖遠的做法,由小朋友聽得懂的《彼得與狼》訓練MusicTalk,總算有初步成果。這是一個基於物聯網的創新音樂樂器檢測系統。MusicTalk 引入了一種名為亮度特徵基礎Patchout的新穎機制,以提高樂器檢測的準確性,並超越現有解決方案。MusicTalk首次系統性地將單個樂器檢測器作為物聯網設備進行整合,為與其他物聯網設備的交互管理提供有效的方法。我們在MusicTalk中引入一個通用音頻整形器,融合各種音樂公開數據集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。我們利用Grand-CAM分析Mel-Spectrograms來優化 MusicTalk中ViT Patchout和CNN的組合,以實現前所未有的準確率。例如,小提琴檢測的精確率和召回率分別達到96.17%和95.77%,這是所有方法中最高的。此外,MusicTalk 的另一個優勢在於其基於物聯網的視覺化能力。通過將樂器檢測器作為物聯網設備整合,MusicTalk能夠使用動畫Avatar來無縫地視覺化歌曲。透過《彼得與狼》為例的案例研究,我們證明,改進的樂器檢測準確性增強音樂的視覺敘事效果。與先前的方法相比,MusicTalk在這首歌曲上的F1分數提高12%。然而,我念念不忘的是,我們訓練AI模型,何時能如同史特勞斯,了解尼采的想法。MusicTalk仍有很大的改進空間。 
2024/5/27
論AI的自由與約束
在人工智慧(AI)迅速發展的環境中,有關倫理問題以及可能限制其發展的辯論變得日益突出。透過密爾(John Stuart Mill, 1806~1873)的作品《論自由》(On Liberty),我們可以探索合理限制AI發展的觀點,強調在合理的範圍內,個體自由、進步和追求知識的重要性。密爾的《論自由》被嚴復翻譯為「群己權界論」,奠定理解社會控制和個人自由平衡的基礎。我試圖將密爾的哲學應用於當前AI發展的時代背景,以了解如何界定群己權。密爾主張自由開放的思想交流(Self-Development),或「思想市場」 (marketplace of ideas),是社會進步的重要因素。在AI發展的領域中,不受限制的資訊和創新概念流動促進多元觀點環境,有助於知識的成長。密爾強調個體自治(Individual Autonomy)。正如個體應該自由追求自己的興趣和自我發展,AI系統作為人類創造力的延伸,應賦予演進和適應的自主權,以改善人類生活並應對複雜社會挑戰。AI的發展改善人類生活,並增強應對複雜社會挑戰的能力。在此過程中,必須尊重使用者的個體權益,並促進社會和諧。密爾的傷害原則主張(The Harm Principle),限制個體自由的唯一理由是防止對他人造成傷害。密爾的哲學也告訴我們須負責任地謹慎開發AI系統,遵從道德準則並優先考慮人類福祉,讓其發展不會產生本質性的傷害。在AI算法的訓練中,如果基於不公正的資料集或缺乏多樣性而導致歧視性結果,則應限制這類不公平和歧視性的AI應用,確保考慮到社會的多樣性。然而,我們很難限制AI算法,避免其誤入歧途。 可行的方法是在AI晶片的設計中,直接加入艾西莫夫(Isaac Asimov, 1920~1992)的機器人三定律(Three Laws of Robotics),並在晶片製成過程中,將其直接寫入硬體。密爾警告多數的專制(The Tyranny of the Majority),強調壓制少數意見的危險。例如社交媒體平台的AI算法過度強調某一特定觀點,可能形成資訊泡泡(filter bubble),多數用戶僅看到和接觸到相似的意見和觀點。這樣的專制可能使得不同意見的少數群體的聲音被忽視,並進一步加劇社會的分裂和不理解。密爾倡導緊密連結社會進步與知識和創新 (Societal Progress and Innovation) 的追求。AI是人類巧思的體現,從醫療到教育等各個領域實現變革性的進步。然而,AI發展也必須有序權界,社會才會健康的前進。密爾的《論自由》為深入探討AI發展提供重要的倫理框架,強調擁抱個體自由、思想市場和知識追求的原則,是推動人類進步的核心價值。然而,在引導AI發展時,必須謹慎遵循負責任的道德原則。我們可以探索合理限制AI發展的觀點,引導未來AI的方向,確保其符合人類整體利益,並實現可持續、負責任且對人類有益的發展。
2024/5/14
等待AI果陀
2024年的台灣國際科展邀請我進行大師講座,分享AI「做中學」。生成式AI(generative AI)的出現,對人文及科學會造成不小影響,很多高中老師避免思考生成式AI對他們專業的影響。生成式AI開始侵襲某專業時,專業人士難免有抗拒之反應。過去對「專業」無條件的接受,似乎是台灣學校教育的普世價值,今日,這種執著很危險。當生成式AI輾壓人類的專業時,或許正是我們進行反思的最好時刻。專業知識的灌輸並不足以培育完整的個體。通過專業教育,雖然可以訓練一個人成為實用的工具,但不能保證他能成為一個和諧發展的人。培養學生對價值觀的理解和情感上的投入更為重要。他們需要具備對美和道德的敏銳辨識力,以建立更全面的個人發展。否則,即便擁有豐富的專業知識,可能只是像一隻經過良好訓練的狗。生成式AI最擅長學習專業,更容易勝過人類,被訓練成為比人類更厲害的機器狗。全盤接受「專業」不對,完全臣服於「生成式AI」也不妥。要避免被AI取代,必須超越專業訓練的思維,思考自己本業能更進一步創造的價值。這個價值是甚麼,會隨領域而不同,只能各自嘗試體會。貝克特(Samuel Beckett, 1906~1989)說: 「嘗試過、曾經失敗過, 沒關係。 再試一次、 再次失敗,我們會失敗得更好。」這是我們面對AI時代的狀況。必須「我無法繼續下去,但我會繼續。」貝克特是上世紀五十年代「荒謬劇場」的主要作家之一。「荒謬劇場」主要成員是歐洲劇作家,以荒謬小說戲劇而聞名,探討當人類失去存在目的時會發生什麼,展示從邏輯溝通到非理性和不合邏輯,最終導致沉默的過程。貝克特於1969年獲頒諾貝爾文學獎,表彰他以小說和戲劇的形式,在現代人的貧困中獲得卓越(in the destitution of modern man acquires its elevation)。貝克特的許多作品都聚焦於人類在生活中無法克服的荒謬情境,包括《墨菲》(Murphy;1938年)、《等待果陀》(Waiting for Godot;1953年)、《克拉普的最後錄音》(Krapp’s Last Tape ;1958年)和《幸福時光》(Happy Days ;1961年)。 這幾本書很值得年輕學子閱讀,從中尋找AI造成人類貧困時代(destitution)的生存之道(elevation)。年輕人可能迷惘於等待何種AI果陀,但千萬不要氣餒躺平。馬克吐溫如是說: 「 二十年後,你將會感到更多的失望。你會對於未做的事情感到遺憾,而不是對於你已經做過的事情。這意味著,要避免這種結果,你必須擺脫阻礙你的限制。遠離安全的港灣,投身於狂風肆虐之地。探索、夢想並勇往直前。」 在AI時代,必須如此。《等待果陀》的果陀是何物,貝克特沒揭曉答案,因此眾說紛紜。等待果陀,時光易逝。布朗寧(Robert Browning)說: 「和我一起變老!最好的尚未來到,……青年不過展現人生一半:相信上帝,看見所有,也不要懼怕!!」在AI時代讀此句子,更有感觸。我希望,年輕的學子終能找到他們的AI果陀。 
2024/4/29
Jony Ive的設計思維
我曾經以iPhone為載具,發明一種具有位置感測功能的萬用無線遙控器。當你在房間中指向任何家電(如冷氣機)時,iPhone會自動成為該家電的遙控器。這一類的創意是基於智慧型手機的發展而來。智慧型手機已成為一個重要的硬體平台,可以發揮創意,特別是在拍照攝影功能方面,可以開發出許多創意應用,甚至改變人們的行為方式,被《生活》(Life)雜誌譽為Cameraphone Revolution(攝影手機革命)。而iPhone的成功,其中的一位功臣是艾夫(Jonathan Ive,習稱Jony Ive)。他是當時蘋果的首席設計師,在推動行動創意方面有關鍵性的影響力。艾夫的創新作品包括iPod、iMac、MacBook Air、iPhone和iPad。他對細節的狂熱關注超越表面的外觀。這些作品的關鍵特點在於使用的便利性和簡潔性。作為一個藝術設計師,艾夫與科技專家Steve Jobs密切合作,共同創造出具有藝術品味的科技產品。艾夫的標誌性設計象徵著當時處於低谷的蘋果(Apple)的復興和重返巔峰。在科技領域中,很少有設計具有如此大的影響力。艾夫的透明且豐富多彩、同時極簡潔的美學成為蘋果成功的關鍵所在。他為蘋果設計光滑且符合人體工學的產品,徹底改變科技設計,並為個人通訊設備建立新的美學標準。艾夫的設計方法受到Dieter Rams的影響。從美學和哲學的角度來看,Rams的設計原則貫穿艾夫的作品。艾夫於1992年加入蘋果,那時正是公司遭遇困難、幾乎面臨破產的時期。他對公司只專注於電腦科技感到擔憂,他說:「我曾擔心周旋於以電腦科技本位的事業部門,並涉足各種產品的廣泛領域會很困難。然而,出乎我的意料,這並未成為問題,因為我們設計的是包含許多不同組件的系統,包括耳機、遙控器、滑鼠、揚聲器和電腦。我喜歡在這些相對較新的產品類別中工作,專注於基礎的創新設計。即使只是參與一個產品的開發,也能立即改變整個產品類型和相關系統的歷史。」艾夫和蘋果的成功因素在於其設計工作室的運作方式,類似於一家外部設計公司,但只為蘋果這個單一客戶服務,並位於公司的核心位置。這個工作室的規模非常小而可控。儘管蘋果擁有數萬名員工,但艾夫的設計工作室只有約20名設計師和同樣數量的支援人員。最重要的是,艾夫的團隊有權將他們的設計實現為最終產品。艾夫的團隊主動參與產品的開發,而非僅僅被動設計。iMac和其他數十種產品並不是由蘋果的工程團隊主導,而是在艾夫的設計工作室中構思出來的。蘋果以前曾以工程為主導,但Jobs和艾夫改變這種思維,讓當時的蘋果非常重視設計。艾夫告訴《時代》(Times)雜誌:「物品和它們的製造是不可分割的。如果你了解一個產品是如何製造的,你就能在思考產品的外觀之前,了解它們的用途、工作原理以及應該使用什麼材料製造。這種工藝的概念正在復興。」艾夫與Jobs對此有著相同的看法,艾夫表示:「我清楚記得Jobs宣布,我們的目標不僅僅是賺錢,而是創造出偉大的產品。這種理念所做的決策與過去蘋果的決策截然不同。」Jobs和艾夫建立了一個強大的工作關係,這成為蘋果成功的核心,Jobs甚至稱艾夫為他在蘋果的「精神伴侶」。2012年,艾夫被英國皇室封爵。儘管獲得榮耀,艾夫強調:「我不喜歡獨自受到關注。設計、工程和製造這些產品需要大型團隊的努力。」台灣資通訊的學生往往搞不懂問題前就開始做專題。結果是浪費時間。我們應該牢記艾夫的話,在最初的設計下功夫: 「在設計過程的開始,一個小小的改變就能在最終產品中定義出完全不同的產品(A small change at the beginning of the design process defines an entirely different product at the end.)。」 
2024/4/17
智慧城鄉應用永續經營三關鍵
新竹縣政府主辦一場「智慧城鄉論壇」,我受邀擔任下半場綜合討論的與談人。題目為「以公私合作推動智慧城鄉發展」,由行政處長周秋堯及都市發展與環境教育基金會榮譽會長林建元共同擔任主持人,分享智慧城市發展前景與趨勢,及新竹縣面臨的機會與挑戰。會場聽眾詢問,新竹縣發展智慧城鄉的策略為何? 對於智慧城鄉應用的永續經營,我認為應該考慮3個問題:首先,要清楚區分必要與非必要(Must-have or Nice-to-have)。將智慧城市應用區分為「必備」或「可有可無」反映它們對日常生活產生影響的不同程度。在某些情況下,這些應用的存在或缺乏可能不會顯著改變城市居民的日常體驗。然而,必須承認這些應用的成功或失敗取決於它們的功能性以及它們是否能夠融入城市結構。以智慧家庭應用而言,電動窗簾大家都感新奇。但要花大錢建置,可能就無人問津。因此這是一個「可有可無」的應用,而非「必備」的應用。第二,需分析維運成本(CAPEX vs OPEX)。很多應用勉強建置,無力維護。智慧城市應用的失敗案例包括未能滿足期望或缺乏必要基礎設施的情況。此類缺陷可能包括使用者界面不足、數據處理效率低下或連接性不足。這些挫折強調在部署智慧城市解決方案之前,進行健全規劃和充分測試的重要性。台灣的失敗案例不勝枚舉,一個成功案例是YouBike,很務實地在許多台灣的城鎮提供服務。在中國大陸,很多類似YouBike的服務太過花俏,OPEX太高而失敗。第三,要能夠選擇有用數據(To data or not to data)。不知如何使用數據,就不會有智慧城鄉。我提出智慧農業的成功案例,是我們幫蘭花工廠進行非影像蘭花黑頭偵測的應用。城市最應該運用的數據是交通數據。而智慧路燈是最好的載具,應在現有的路燈掛上智慧平台,而非取代現有路燈系統。在台灣,許多智慧城市應用的存在與否並未對居民的日常生活產生顯著影響,他們的生活維持著往常的方式。而很多「必備」的智慧城市應用都是因為政府法規要求。在衛福部一個顯著而成功的案例是在醫療應用中推廣快速醫療互通資源(FHIR)。FHIR已成為醫療保健領域的一股變革力量,促進電子健康記錄的安全交流,並在各種醫療系統之間促進互操作性。其成功是對設計良好且有效實施的智慧城市應用在關鍵領域(尤其是醫療保健)中可能產生積極影響的明證。智慧城市應用失敗的主要原因是將簡單的問題複雜化,同時缺乏解決問題的實際行動力。很務實的解決上述3個問題,智慧城市有永續經營的機會。我給的答案,應該都適用於所有城市。
2024/4/2
羅夏克測試與大型語言模型
我一直嘗試將不同的工具和大型語言模型(LLM)結合,這是將傳統軟體工具進行數位轉型最快的方式。例如曾將魚骨圖管理加上ChatGPT,效果甚佳。接下來我想嘗試將LLM和羅夏克墨漬圖結合,進行心理投射測試時。然而,我嘗試將ChatGPT和羅夏克墨漬圖」(Rorschach Inkblot Test)結合,進行心理投射測試時,ChatGPT的表現就有點荒腔走板,言不由衷。羅夏克測試使用10個墨漬圖案,每個墨漬圖案幾乎具有完美的對稱性。其中5個墨漬是黑墨,2個是黑墨和紅墨,另外3個是彩色的。這些墨漬圖並非隨機或偶然的設計,羅夏克(Hermann Rorschach, 1884~1922)精心設計每一個墨漬圖,使其儘可能具有模棱兩可和「矛盾」的特點。羅夏克將墨漬圖開發為診斷精神分裂症的工具。後繼者則擴大使用於一般的個性測試。無論是在心理學還是文化上,這個測試本身有著驚人的生命力。羅夏克測試不僅僅關於你看到什麼,更重要的是你如何看待它。大多數的墨水渲染看起來像無意義的形狀,但羅夏克墨漬圖確實可以看出不同的東西,給個人的創造力留下空間,但這些墨水渲染也有一種真實的結構,可以客觀地檢查你所看到的東西是否符合標準或超出範疇。羅夏克是一位瑞士精神科醫生,曾師從榮格(Carl Gustav Jung)。相較於羅夏克,弗洛伊德是一位文字型的人,他的心理學完全關乎言語療法,因此早期如ChatGPT的LLM較容易插入(plug in)弗洛伊德的測試。羅夏克認為,看見比說話更深刻,我們如何看待事物更能展示出我們是誰。最近,多模式學習模型(Multimodal LLM)就更能適應羅夏克的測試。羅夏克在發明測試後不久就去世了,此測試在他無法控制的情況下朝著各種不同的方向發展。在美國,神祕的內在風格、個人魅力,是什麼讓你在人群中脫穎而出等特性,皆以不同羅夏克測試的變形版進行測驗。第二次世界大戰爆發,羅夏克測試被大量運用於臨床心理學領域。它被用於紐倫堡的納粹審判,也被用於越戰期間叢林中的農民。專家對於不同被測者的反應會有奇妙的解讀。例如,您如果在10張卡片中有4個以上的性(Sexual)回應,可能暗示存在精神分裂症;如果被測試者的性回應過少,可能暗示性挫折。羅夏克在墨點卡片濕潤的狀態下將它們沿中心軸對摺,使它們都具有對稱性,被測者很容易將它們旋轉90度,解讀它們像是水中的倒影。若被測者是罪犯,則鏡像回應被用來區分精神病患者和非精神病患者。對圖形細節的關注可以解釋為衝動或警覺性,亦即能夠看到他人忽視的事物。然而,如果過於關注細節,則可能表示對平凡事物的著迷,僵化的強迫性思維,有時還可能涉及偏執狂。之後有大量論文發表對各種對象的測試,有些光怪陸離,有些還頗為搞笑。羅夏克測試引發許多爭議,一些嚴謹的學者開始展開研究。一項於2013年進行的重要研究,回顧所有與該測試所聲稱測量的方面相關的研究,剔除不夠嚴謹的部分後,證實當前的羅夏克測試的可行性。這些墨水測試具有客觀的視覺特性,測試本身有著具體的歷史和用途,只要按照特定的方式運作,其結果就有意義。羅夏克測試顯然不是容易駕馭的工具,若能巧妙地以微調模型或檢索增強生成(RAG)融入LLM,其威力必然大增。
2024/3/20
香儂的智慧
香儂(Claude Shannon, 1916~2001)被譽為資訊理論之父。圖靈(Alan Turing, 1912~1954)則被稱為計算機科學之父。1943年,香儂和圖靈相遇於紐約市的貝爾實驗室。儘管他們的研究題目不同,他們討論彼此的工作,其中包括有關圖靈的「通用機器」。圖靈相當驚訝,香儂在一片程式碼和計算機的海洋中,將藝術和文化視為數字革命不可或缺的部分,將之稱為「數字DNA」。香儂在1943年告知圖靈夢幻般的想法,如今已經成為現實,因為所有媒體都以數位化呈現,涵蓋數百萬的「文化事物」和龐大的音樂收藏。香儂在藝術、訊息和計算之間建立的早期聯繫,直觀地描繪我們今天正在經歷的未來。圖靈在1950年發表論文〈計算機與智慧〉(Computing machine and Intelligence),首次談到人工智慧(AI),並提出「圖靈測試」,為資訊研究領域創建智慧設計的標竿。圖靈測試說,如果一台計算機能夠欺騙人類相信它是人類,那麼它就應該被稱為智慧計算機。香儂則直接訂出機器學習的目標: 「創造出擊敗世界冠軍的象棋程式;撰寫出能夠被知名文學期刊選用的優美詩歌;編寫能夠證明或反駁黎曼猜想(Riemann hypothesis)的數學程式;設計一款收益超過50%的股票選擇軟體。」今日,香儂的第一個目標已在2017年由AlphaGo達成。機器學習常見的做法,是將隨機事件相關聯的預期資訊量(expected amount of information)加以量化,並衡量概率分布之間的相似度。今日則被用作衡量概率分布訊息內容的指標,則是香儂提出的資訊熵(Shannon entropy)。香儂熵背後的基本概念是所謂事件的自資訊(self-information),有時也稱為驚奇性(surprisal)。自資訊的直覺是這樣的。當觀察到一個不太可能發生的隨機事件時,我們將其與大量訊息相關聯(這代表當不太可能發生的事件發生時,我們獲得極大的資訊量)。相反,當觀察到一個很有可能的結果時,我們將其與較小的資訊量相關聯。將自資訊視為「事件發生會造成我們多大的驚奇」非常有幫助。例如,考慮一個始終會落在正面的硬幣。任何硬幣投擲的結果都是完全可預測的,我們永遠不會對結果感到驚訝,這意味著我們從這樣的實驗中獲得的資訊為零。換句話說,其自資訊為零。如果硬幣的落地面的隨機性增加,則每次投擲硬幣時都會有一些驚奇,儘管超過50%的時間我們仍然會看到正面。因此,自資訊大於零。最大的驚奇量是在硬幣是公平不偏的情況下獲得的,即落在正面或反面的機會都是50%,因為這是硬幣投擲結果最不可預測的情況。基於上述非正式的需求,我們可以找到一個合適的函數來描述自資訊。對於一個具有可能值 x1, . . . , xn 和概率質量函數 P(X) 的離散隨機變量 X,任何介於0和1之間的正單調遞減函數都可以用作衡量資訊的指標。還有一個額外且重要的性質,那就是獨立事件的可加性;兩次相繼的硬幣投擲的自資訊應該是單次硬幣投擲的兩倍。對於獨立變量來說,這是有意義的,因為在這種情況下,驚奇或不可預測性的數量變為兩倍。藉由上述特性,香儂熵被應用於測量與一組概率相關的不確定性或資訊內容。香儂熵通常用於決策樹(decision tree)和其他AI模型,以量化數據集的不純度或混亂度。例如在決策樹算法中,香儂熵用作在每個節點上對數據進行分割的依據。目標是最小化熵,熵較低的節點被認為更「純粹」或更具資訊。為每種可能的分割計算熵,選擇導致熵最大程度減小的分割。這個過程在決策樹不斷增長的情況下進行遞歸性地重複,得到我們想要的答案。香儂在1948年提出資訊熵的概念,影響到80年後的今日機器學習的發展,真奇人也。 
2024/3/5