簡易檢索 / 詳目顯示

研究生: 葉宗帆
Yeh, Zong-Fan
論文名稱: DreamLite:整合延展實境與人工智慧的即時風格化設計渲染
DreamLite: Real-Time Stylized Design Rendering Integrating Extended Reality and Artificial Intelligence
指導教授: 鄭泰昇
Jeng, Tay-Sheng
學位類別: 碩士
Master
系所名稱: 規劃與設計學院 - 建築學系
Department of Architecture
論文出版年: 2024
畢業學年度: 112
語文別: 中文
論文頁數: 128
中文關鍵詞: 延展實境生成式人工智慧人機互動風格化設計建築設計
外文關鍵詞: Extended Reality (XR), Generative AI, Human–Computer Interaction (HCI), Stylized Design, Architectural Design
相關次數: 點閱:186下載:55
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 2022年的後疫情時代,ChatGPT的發布引起了全球對於生成式人工智慧(AI)的關注。生成式AI大幅降低了AI的入門門檻,並擴展了使用範疇,各產業紛紛嘗試將其應用於專業領域,建築產業也面臨人工智慧驅動數位轉型的挑戰。
    本論文開發了一套結合擴增實境(AR)與生成式AI的「即時風格化設計渲染」系統,命名為DreamLite,基於智慧型行動裝置,提供便攜、直觀、快速設計產出的工具,旨在探討XR與AI技術整合應用在移動式建築設計流程中的潛力。
    DreamLite乃是透過AR放置家具模型或虛擬積木,截圖後傳送至運算主機端的生成式AI進行圖像生成,並回傳至行動裝置與雲端儲存。在極短的時間內產出基於現實卻又風格多樣的提案渲染圖,協助即時設計討論與檢討。即時風格化設計渲染系統可以應用在三種使用情境:1. 基地現場的設計討論(實際尺寸模擬)、2. 會議或設計課中的討論(縮尺模型模擬)及3. 參與式設計的意見整合。
    本研究進一步進行使用需求分析,邀請了4位潛在使用者試用,分別來自建築背景與非建築背景。另外也發放了問卷並附上示範影片,共蒐集20份有效回饋。根據反饋優化系統設計,並針對相關議題進行反思。結果顯示,DreamLite系統有助於靈感發想與設計溝通。
    AI生成設計對建築師風格獨特性與事務所價值定位的影響值得深入研究。生成式AI將設計流程中的渲染呈現提早至初期提案階段,而AR協助將生成內容落實。若進一步整合混合實境(MR)、建築資訊模型(BIM)、多模態(Multimodal)格式等技術,有望發展為更全面的系統性服務。

    This thesis developed a "real-time stylized design rendering" system, named DreamLite, which combines augmented reality (AR) and generative AI. Operating on smart mobile devices, it provides a portable, intuitive, and rapid design tool that aims to explore the potential of integrating XR and AI technologies in mobile architectural design processes.

    This research conducts a user needs analysis by inviting four potential users from both architectural and non-architectural backgrounds to test the system. Additionally, questionnaires were distributed with a demonstration video, resulting in 20 valid responses. Based on the feedback, the system was optimized and related issues were reflected upon. The results indicate that the DreamLite system facilitates inspiration generation and design communication. Generative AI advances rendering to the early proposal stage, while AR helps realize the generated content. This study shows the potential of integrating different technologies into a design tool to improve the current architectural design process.

    摘要 i 謝誌 vi 目錄 vii 表目錄 xii 圖目錄 xiii 第一章 緒論 1 1.1 研究背景 1 1.1.1 AI對於建築設計流程的挑戰 1 1.1.2 延展實境技術進步與算力提升的影響 2 1.1.3 新技術整合的應用與發展 4 1.2 研究動機 5 1.2.1 技術整合如何改變建築設計流程? 5 1.2.2 如何增進設計師與業主之間設計概念溝通? 7 1.2.3 如何在現場直觀並快速地進行設計提案? 7 1.3 研究目標 8 1.3.1 XR加AI提供便攜的設計工具與直觀使用介面 9 1.3.2 XR加AI賦能建築師進行即時設計渲染 9 1.3.3 XR加AI增進客製化的快速設計提案與討論 10 1.3.4 XR加AI輔助參與式設計意見整合 11 1.4 研究方法 11 1.4.1 問題界定 12 1.4.2 系統規劃與使用需求分析 12 1.4.3 系統設計與開發 12 1.4.4 使用者測試與反饋 13 1.4.5 意見統整與系統優化 13 1.4.6 討論與反思 14 第二章 文獻回顧 16 2.1 建築設計工具 16 2.2 相關技術 20 2.2.1 延展實境 20 2.2.2 擴增實境 23 2.2.3 生成式人工智慧 26 2.2.4 圖像生成式人工智慧 29 2.2.5 無線網路傳輸 34 2.2.6 技術整合實例 36 第三章 系統規劃 38 3.1 使用情境 38 3.1.1 基地現場設計討論 39 3.1.2 會議中設計討論 41 3.1.3 參與式設計 42 3.2 使用需求分析 43 3.3 開發需求整理 43 第四章 系統實作 44 4.1 DreamLite系統架構 44 4.1.1 硬體架構 44 4.1.2 軟體架構 45 4.2 系統運作流程設計 46 4.2.1 前置階段 46 4.2.2 設計階段 48 4.2.3 圖像生成階段 49 4.2.4 雲端儲存階段 50 4.2.5 完整操作流程 51 4.3 系統技術說明 53 4.3.1 運算主機端主程式 53 4.3.2 行動裝置端應用程式 54 4.3.3 擴增實境設定 57 4.3.4 圖像生成式人工智慧設定 57 4.3.5 無線網路傳輸設定 60 4.3.6 雲端儲存空間 60 第五章 使用者回饋 61 5.1 建築系學生 62 5.1.1 設計發想 62 5.1.2 調整建議 63 5.1.3 延伸思考 63 5.2 建築師 64 5.2.1 有意識地操作AI 64 5.2.2 意義性的辯證 64 5.2.3 品牌形象與獨特性 65 5.2.4 變更設計的成本 65 5.2.5 事務所的價值定位 66 5.3 業主一:室內裝修 67 5.3.1 顧慮 67 5.3.2 建議 67 5.4 業主二:自地自建 68 5.4.1 顧慮 68 5.4.2 見解 69 5.5 問卷回饋 70 5.5.1 DreamLite系統評分 71 5.5.2 回饋與建議 72 5.6 綜合討論 73 5.7 系統修正 74 第六章 研究結論 75 6.1 DreamLite的研究成果 75 6.1.1 提供便攜的設計工具與直觀使用介面 75 6.1.2 賦能建築師進行即時設計渲染 76 6.1.3 增進客製化的快速設計提案與討論 76 6.1.4 輔助參與式設計意見整合 76 6.2 新技術的整合運用 77 6.3 開源資源與系統開發 78 6.4 技術瓶頸 79 6.4.1 無線網路傳輸選擇 79 6.4.2 APK導出API失敗 79 6.5 後續研究與未來發展 80 6.5.1 協同設計 80 6.5.2 雲端算力 80 6.5.3 MR混合實境 81 6.5.4 AI與建築資訊模型整合 81 6.5.5 多模態輸入與輸出 81 參考文獻 83 書面資料 83 網路資料 85 附錄一 技術解析 86 Stable Diffusion API程式碼 86 TCP發送端程式碼 89 TCP接收端程式碼 89 Google API相關程式碼 91 附錄二 受測者訪談紀錄 92 建築系學生 92 建築師 93 業主一:室內裝修 103 業主二:自地自建 106 附錄三 相關資源連結 113 示範影片 113 問卷 113

    書面資料
    Borji, A. (2022). Generated Faces in the Wild: Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2. ArXiv, abs/2210.00586.
    Broll, W., Lindt, I., Herbst, I., Ohlenburg, J., Braun, A.-K., & Wetzel, R. (2008). Toward Next-Gen Mobile AR Games. IEEE Computer Graphics and Applications, 28(4), 40-48. https://doi.org/10.1109/mcg.2008.85
    Caudell, T. P., & Mizell, D. W. (1992, 7-10 Jan. 1992). Augmented reality: an application of heads-up display technology to manual manufacturing processes. Proceedings of the Twenty-Fifth Hawaii International Conference on System Sciences,
    Gavrilov, E. (2019 ). Magnetizing Floor Plan Generator. https://toolbox.decodingspaces.net/magnetizing-floor-plan-generator/
    Hegazy, M., & Saleh, A. (2023). Evolution of AI role in architectural design: between parametric exploration and machine hallucination. MSA Engineering Journal, 2(2), 262-288. https://doi.org/10.21608/msaeng.2023.291873
    Kalay, Y. E. (2004). Architecture's New Media: Principles, Theories, and Methods of Computer-aided Design. MIT Press. https://books.google.com.tw/books?id=BDboJQJvUq8C
    Kolarevic, B. (2004). Architecture in the Digital Age: Design and Manufacturing. Taylor & Francis. https://books.google.com.tw/books?id=L-p4AgAAQBAJ
    Kumar, S., & Rai, S. (2012). Survey on Transport Layer Protocols: TCP & UDP. International Journal of Computer Applications, 46, 20-25.
    Lee, K. (2012). Augmented Reality in Education and Training. TechTrends, 56. https://doi.org/10.1007/s11528-012-0559-3
    Milgram, P., Takemura, H., Utsumi, A., & Kishino, F. (1994). Augmented reality: A class of displays on the reality-virtuality continuum. Telemanipulator and Telepresence Technologies, 2351. https://doi.org/10.1117/12.197321
    Park, S., Bokijonov, S., & Choi, Y. (2021). Review of Microsoft HoloLens Applications over the Past Five Years. Applied Sciences, 11, 7259. https://doi.org/10.3390/app11167259
    Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., & Clark, J. (2021). Learning transferable visual models from natural language supervision. International conference on machine learning,
    Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2), 3.
    Roumeliotis, K. I., & Tselikas, N. D. (2023). ChatGPT and Open-AI Models: A Preliminary Review. Future Internet, 15(6), 192. https://doi.org/10.3390/fi15060192
    Sawicki, J., Ganzha, M., & Paprzycki, M. (2023). The State of the Art of Natural Language Processing—A Systematic Automated Review of NLP Literature Using NLP Techniques. Data Intelligence, 5(3), 707-749. https://doi.org/10.1162/dint_a_00213
    Yang, L., Zhang, Z., Song, Y., Hong, S., Xu, R., Zhao, Y., Zhang, W., Cui, B., & Yang, M.-H. (2022). Diffusion Models: A Comprehensive Survey of Methods and Applications. ACM Computing Surveys, 56(4), 1-39. https://doi.org/10.1145/3626235
    Yeh, Z.-F., Lai, S.-Y., Liu, D.-E., Hsu, C.-C., Chang, F.-Y., Tsai, M.-Z., & Lin, R.-H. (2024, 2024). Footprints of Travel: AIoT and AR Enhanced Tourist Gaming Experience in Unmanned Cultural Sites.
    Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision,
    網路資料
    Bruner, J., & Deshpande, A. (2018). Generative Adversarial Networks for Beginners. https://github.com/jonbruner/generative-adversarial-networks/blob/master/gan-notebook.ipynb
    Campo, M. d. (2023). Artificial Intelligence and Architecture: Matias del Campo https://www.youtube.com/watch?v=pyBMASbjlyg&ab_channel=ComputationalDesignDetroit
    Google. (2009). Sky Map. https://play.google.com/store/apps/details?id=com.google.android.stardroid&pcampaignid=web_share
    Lewis, T. (2013). Medical app uses augmented reality to enhance patient education. https://www.imedicalapps.com/2013/07/medical-app-augmented-reality-patient-education/
    Niantic. (2024). Pokémon GO. https://pokemongolive.com/zh_hant/
    NVIDIA. (2023). Text2Materials Demo | NVIDIA Research at #SIGGRAPH2023. https://youtu.be/nmTEuPIriLY?si=2KHxu7uSsqhpsx0n
    NVIDIA. (2024). NVIDIA Omniverse. https://www.nvidia.com/zh-tw/omniverse/
    Stark, J. (2020). Autodesk Extends the Power of Generative Design to Architecture, Engineering and Construction Industries. https://adsknews.autodesk.com/en/news/generative-design-revit/

    下載圖示 校內:立即公開
    校外:立即公開
    QR CODE