專題成果

 
  • 【專題成果】大數據資料分析與商業平台佈建人才養成班第01期

    數據資料分析與商業平台佈建人才養成班第01期

    專題名稱:精準美股指數&ETF預測系統
    學員:黃威儒 陳彥榮 管延平 黃聖翔 陳德匯 林聖喜 盧羿彣 夏雅玲
    摘要:
    • 台股"投資對國人是比較熟悉及方便,但是台股的淺碟性質,容易受人為操控產生非理性的暴漲暴跌,所以本組選擇相對成熟穩健、比較不受人為操控的美股為研究目標,提供投資人穩定收益的投資參考。
          個股畢竟風險較高,所以本組選用美股指數與一籃子股票組合的ETF為投資目標,達成相對穩定的高收益。

          股市數據的特性,其實是極難做出能夠穩定預測的A.I. 模型,假若哪天A.I.連這關都克服了,代表A.I.在其他領域幾乎都已行得通。
    簡報檢視

     

    專題名稱:Intelligence E-commerce Analysis and Recommendation System
    學員: 楊泰騏 江沛霖 張曼君 陳惠文 彭雯翊
    摘要:
    • Nowadays, there are a lot of different kinds of e-commercial business, and we are interested in analyzing these business behaviors. We want to find some methods to help the e-commercial companies to understand what merchandise customers like or dislike, and make decisions to improve the revenue. In this special subject, we predict whether customers reorder products or not in order to do precision marketing, and use association rules to obtain recommendation system of products. In the future, we can add more methods to analyze more problems and help companies to satisfy customers’ requirements.

    簡報檢視

     

    專題名稱:線上外送平台交易分析與推薦系統
    學員: 林介友 楊昇達
    摘要:
    • 近年來外送APP崛起,逐漸地納入人們飲食的一種選擇,同時也為各路餐廳帶來創造商機的絕佳契機。然而,多元的餐飲選擇意味著顧客選擇到中意餐點的時間與難度將會增加。因此,本專題依據阿曼(Oman,西亞國家)常使用的Akeed美食外送APP的訂單資料,來探討影響外送生意的關鍵因素,同時依據找到的關鍵因素,除了能提供給外送餐廳做為應對、轉型的方針外,也嘗試設計出協助選擇餐點的推薦系統,期望讓顧客選到中意餐點的時間及難度減少。
      我們將就訂單消費金額以及餐廳評分兩個面向進行探討,採用的分析方法為決策樹、隨機森林以及關聯法則,分析的結果發現餐廳評分的關鍵因素為外送員評分,而消費金額的關鍵因素為訂購的星期與時段。

    簡報檢視

     

    專題名稱:智慧型房屋貸款風險評估系統
    學員:陳弘基 洪欣妤 吳鴻霖
    摘要:
    • 由於信用記錄不足或不存在,許多人難以獲得貸款。而且,這些人口經常被不可靠的放貸人利用。住房信貸通過提供積極和安全的借貸經驗,努力擴大無銀行賬戶人群的金融包容性。為了確保服務不足的人群擁有良好的貸款經驗,Home Credit利用各種替代數據(包括電信和交易訊息)來預測其客戶的還款能力。
      儘管Home Credit目前正在使用各種統計和機器學習方法做出這些預測,但他們正在挑戰Kaggler,以幫助他們挖掘數據的全部潛力。這樣做將確保不會拒絕有還款能力的客戶,並確保提供具有本金,到期日和還款時間表的貸款,以使他們的客戶獲得成功。

      本組在Kaggle上收集到的Home Credit Default Risk的資料,主要以Python的NumPy、Pandas模組等做資料清洗、篩選、分割,將其結果導入SQL Server資料庫系統作為資料的儲存及查詢。數據分析則是Python及Weka做機器學習與數據分析。最後以Python 串連資料庫到HTML將成果以網頁方式呈現,希望以AI技術,試圖大量的資料數據中,找出貸款者的行為脈絡,以期制定精準放貸策略為目標。
    簡報檢視

     


     

  • 【專題成果】109年大數據資料分析師養成班第02期

    109年大數據資料分析師養成班第02期

    專題名稱:智慧型區域治安安全警示
    學員:謝宗雋、陳玥玲、邱慧珍、吳健銘、李庭瑋、陳昭宏
    指導老師:蔡智勇、黃登揚
    摘要:
    • 台灣地區治安長期以來為全民所重視之議題,而與其密切相關的區域犯罪預防政策亦為眾多專家深耕研究的領域。究竟警察能不能預防犯罪?減少犯罪發生率與增加區域安全?美國著名警政學者Bayley即明白指出:警察不能預防犯罪,這是一個現代社會被保守得最好的秘密之一。
      傳統預防犯罪策略上,絕大多數依賴巡邏、臨檢、提高見警率等方式以預防犯罪發生,其欠缺科學性評估且無法確切顯示犯罪之空間與時間分佈,進而造成無法有效提升犯罪偵防之效益。而隨著科技進步、資訊系統普及,現今可以透過大數據分析各類犯罪資訊並參酌社會政治、經濟、地區特性等因素,擬定犯罪預防策略,以降低犯罪率、減少民眾之被害恐懼及傷害。

      本研究運用資料探勘技術,藉由時間、區域等屬性資訊來預測發生的刑案類別。首先透過資料視覺化的方法,呈現犯罪類別與屬性之關係,找出影響案件發生的重要屬性,再分別以分類、分群等演算法建立預測模型、預測發生的刑事案件類別,發展先發預警式系統,希望有效降低治安相關案類之發生數,使警察單位可超前部署警力,強化偵防及查緝能量。
    簡報檢視

     

    專題名稱:智慧型觀光文案效益預測系統
    學員: 廖為立、詹竣汶、吳安霓、王威凱、黃于庭、蕭以霏、林政倫、李昕宇、 張語真、章偉欣
    指導老師:蔡智勇、黃登揚
    摘要:
    • 為了使用更低成本的創新行銷來替代傳統的行銷手法,結合巨量資料及系統最佳化後的Growth Hacking為近來許多企業發展的方向。
      Covid-19疫情緩和後,國旅興盛,民眾在安排行程時,常參考過往其他人出遊的經驗去安排,而使得網路行銷對相關產業而言顯得更為重要,但因文章內容標示的關鍵字及標籤會影響到文章的點擊度進而使得投入的行銷成本無法獲得預期效益;為了改善此問題,我們從歷史文章資料使用文字向量進行關鍵字及標籤分析以推測新文案的點擊數。同時也依痞客邦及Google Analytics提供的使用者瀏覽、點擊及搜尋行為資料,進行使用者分析,預測最佳的投放裝置及投放時段,已期望能達到能精準的廣告投放效益。
      技術上使用Hadoop採用分散式處理達到效能最佳化,先以Jieba斷詞進行文本分析後並輔以Hive,Pig及關連式資料庫MariaDB,後進機器學習以預測新文案的點擊數,最後以跟視覺化工具Power BI呈現大數據處理後的圖表。 以期望能幫助旅遊平台或與部落客有合作的廠商能快速地確認作者文章內容,評斷文章在旅遊客群裡的人氣高低。

    簡報檢視

     

    專題名稱:P2P平台智慧型投資決策系統
    學員: 林盈均、周秀樺、黃品婷、許睿倩、張國屏、劉韋廷、楊孟儒、黃聖哲、康博鈞
    指導老師:蔡智勇、黃登揚
    摘要:
    • 網絡借貸 (peer to peer) 以網絡為管道,透過中介機構的媒合,讓出借人(投資客)與貸款人(借款人)實現直接借貸、資訊互動和資信評估等服務。其中又以美國的借貸俱樂部(Lending Club)為全世界最具規模性的網絡借貸中介機構之一。借貸俱樂部依照債務人的信用資訊計算出每期應償還之利息及本金,再將債務總額分割為小金額債券,供眾多投資人參酌選購。然而借貸俱樂部目前面臨到貸款人過高的呆帳率,以致於信用程度與投資者的投資比例降低。不僅如此,藉由借貸俱樂部進行投資的投資客也面臨到高風險的違約放款交易,導致他們容易投資到呆帳的客戶。本專題透過機器學習進行數據分析,協助借貸俱樂部控管借貸人品質、預測借貸人的呆帳特徵,並幫助投資者提升網絡借貸的投資獲利。

    簡報檢視

     

    專題名稱:電商精準行銷系統-以GStore為例
    學員:陳煜瑋、莊佳葳、楊庭赫、劉允歡、徐明義、林怡君
    指導老師:蔡智勇、黃登揚
    摘要:
    • 2020年初隨著COVID-19的疫情在全世界蔓延,多數產業都受到不同程度的衝擊甚至停滯,但電子商務的交易量卻受益於疫情影響,在恐慌性購買及保持社交距離的兩大助力下逆勢成長。依據財政部電子發票資料顯示,今年(2020)2月主要電商平台銷售金額推估約新台幣138.5億元,較去年同期成長約4成。
      消費者研究在行銷領域中扮演舉足輕重的角色,對消費者有充分的了解,才能針對痛點提出有效的行銷策略,進而去影響消費者的行為。傳統的零售業者可以透過實體的通路面對面與消費者互動,了解消費者的型態。但在虛擬銷售通路中,先天缺乏實體接觸機會。若行銷人員想要建立消費者輪廓就必須透過網站分析工具。目前業界廣泛採用的Google Analytics是可以提供最多面向的資訊,然而在收集到龐大的資料後,若想僅藉由Google提供的介面是遠不能真正了解消費者在網站上的行為特徵。

      本組在Kaggle上收集到的Google merchandise store的Google Analytics資料,主要以Python的NumPy、Pandas模組等做資料清洗、篩選、分割,將其結果導入SQL Server資料庫系統作為資料的儲存及查詢。數據分析則是Python及Weka做機器學習與統計分析。最後以Python 串連資料庫到HTML將成果以網頁方式呈現,希望以新時代AI技術,試圖大量的網站數據中,找出消費者的行為脈絡,以期制定精準行銷策略並提高網站轉換率的目標。
    簡報檢視

     


     

  • 【專題成果】109年大數據資料分析師養成班第01期

    109年大數據資料分析師養成班第01期

    專題名稱:智慧型飯店行銷管理預測系統
    簡報檢視

     

    專題名稱:信用卡營運智慧分析系統
    簡報檢視

     

    專題名稱:消費型產品智慧銷售分析預測系統
    簡報檢視

     

    專題名稱:智慧型房價系統
    簡報檢視

     


     

  • 【專題成果】108年資料科學與大數據分析師養成班第4期

    108年資料科學與大數據分析師養成班第4期

    專題名稱:智慧型信用貸款評估系統
    學員:黃楹逸、戴碧玉、宋宏達、林子鈞、左清安、李祖賢、劉沂貞
    指導老師:蔡智勇、黃登揚
    摘要:
    • 人們生活與發展都已離不開交易行為,而金融科技已是全球化不可逆之趨勢,其包含有物聯網、區塊鏈和人工智慧等先進技術,無論是數位化或是利用大數據資料分析結果,其可提供予公司作出最佳決策方針,以提升整體效能、良好風險控管與營運績效。

      根據亞洲開發銀行(Asian Development Bank, ADB)的估算,2017年全球貿易融資缺口約1.5兆美元,以及依據行政院官網所公佈普惠金融之指引內容中,說明全世界大約 25 億成年人無正式的銀行帳戶。由該數據顯示,其有許多中小企業仍苦於資金籌措以及還有許多的成年人無法取得金融服務。又於孟加拉有位銀行家、經濟學家,諾貝爾和平獎得主「穆罕默德•尤努斯」教授,開創發展了「微額貸款」的服務,專門提供給因貧窮而無法獲得傳統銀行貸款的創業者,而且還款率也相當的高。就依目前各種社會層面來作觀察,其亦說明了有錢人的信用也不一定就好? 而貧窮的人也不一定無法還款?

      就以傳統金融業而言,係由被服務的人尋找銀行貸款,銀行再依其作後續評估是否核貸? 而就現今的金融科技時代,我們想找出公司營運的「關鍵風險因子」,以提供予公司重要性的營運決策參考! 於是,我們本專題的研究內容,係於Kaggle競賽平台上下載「Home Credit」公司default risk 7張原始資料表,該過程運用了各項科技技術(Hadoop、MS SQL、Java、Python、Pandas、機器學習Weka、R、Jupyter、資料視覺化工具amCharts等等),以進行大數據資料分析。首先,我們是使用MS SQL系統將7張原始資料表進行合併後,再觀察其不平衡資料集,進行標準化、刪除異常的離群值與空值,並將清洗篩選後的資料分群為Training & Test,以不斷來回測試找出關鍵特徵之後,建立模型分析工具 (Weka、R、Python) 進行分析判斷,找出「關鍵風險因子」,冀望以用科技來瞭解客戶所需,並能服務「有金流需求」且「有還款能力」的人。

      綜合上述,我們運用了良好的科技「智慧型信用貸款評估系統」,該過程經歷資料蒐集、資料清洗、資料分析以及資料視覺化等技術找出「關鍵風險因子」,其分析結果提供予管理階層作出最佳決策方針,以協助篩選出「良好的個人或中小企業」客戶,並符合客戶所需求之貸款金融服務,且該客戶亦有償還的能力;若有客戶還款困難或違約情形時,也能協助客戶找出問題點,共同來解決問題,以達借貸雙方皆能雙贏的局面,再降低公司呆帳風險,並提升公司整體營業績效與淨利,且致力善盡社會責任之企業永續,促進社會經濟繁榮。
    簡報檢視

     

    專題名稱:智慧型租屋物件決策支援系統
    學員: 陳俊邦、任樹菁、許博喻、吳文中、蔡忠良、黃詰凱、林幸怡、蘇筱涵、張景翔      
    指導老師:蔡智勇、黃登揚
    摘要:
    • 根據台灣現今的租屋市場數據,目前台灣租屋族日益增多,已佔全台總人口數的八分之一,租屋市場供不應求,內政部估算全台約300萬人選擇租屋,本專題針對台灣最大租屋網站進行資料收集與爬蟲,收集2018年7月開始至2019年10月的租屋交易資料,利用資料科學與大數據分析方法,使用雲端運算技術與python處理資料,用Random tree、J48演算法進行機器學習,找出相關因子將台中市租屋物件進行分類,以利未來在屋主上架租屋物件的時候,能夠得到相關的資訊去輔助決策與撰寫合適的上架物件內容與租屋定價策略。最後並以網頁形式進行實體的展示,利用使用者提供的物件資訊去進行其上架租屋的物件出租天數的預測,並使用文字探勘的分析結果,對租屋物件的標題與內文進行適當的建議與分析,使屋主的文案能夠吸引瀏覽的用戶能夠提升點擊率,增加廣告的效果。在未來亦可以使用此專案邏輯來推伸到全台灣各個縣市來進行深入研究與探討。

    簡報檢視

     

    專題名稱:智慧型共享旅宿定價系統
    學員:陳國誠、許呈安、陳詠青、徐旭洋、范瑞紋、温子霈、李柏勳、謝昀叡、李君明
    指導老師:蔡智勇、黃登揚
    摘要:
    • Airbnb做為共享經濟的代表,其商業模式以房屋短期租賃為核心。據調查,加入共享旅宿平台的房東在建立房源資料時,大部份欄位都填寫得很順利,卻在定價欄位前會出現長時間躊躇不決的現象。可見定價是門不易拿捏的學問。
      影響房間出租價格的因素眾多,諸如所在位置、交通便利度、房型、設備、日期、特殊慶典、賽事或藝文活動的舉辦、是否供餐、房東的服務及評價等。過去房東必須依照自己的經驗慢慢嘗試調整房價,但囿於個人可搜尋到的資訊有限,導致實際定價可能與理想定價存在落差:房價過高乏人問津,過低則雖易租出去,但卻侵蝕了可能的獲利空間。
      傳統的定價策略大部分是為了大量相同的產品而定價,但在共享旅宿平台上卻沒有一個完全一模一樣的產品;因為平台上所提供的房源,每一間都擁有獨一無二的價值和體驗感受。正是這種獨特性超越了傳統定價策略的框架,驅使我們必須運用新的技術與思維來尋求最佳解決方案。

          在蒐集到大量資料、經過清洗、分析與機器學習等步驟,我們將建立一套可提供房東合理定價建議的系統;另外我們從文字雲的分析結果發現:一、房客關注房源的地點;為此,我們加入房源與大眾運輸系統的距離做為新的變數進行測試,結果對房價預測的準確率有明顯提升;二、高訂房率之高價房源與低價房源有所差別:可區分成兩組不同的客群屬性,以及兩組不同的關注條件。據此,我們的系統可依房東訂價的高低,為房東提供不同的經營建議。最後,我們期待未來能蒐集到更多有關房客的資訊或實際的訂房率,若握有充足的資訊將助使我們系統的準確率大幅提升。
    簡報檢視

     

    專題名稱:金融信用卡智慧型風險評估系統
    學員:周盈均、朱漢城、林宏彥、林芷羽、葉枝倫、王曉雯、楊順翔、黃文怡、魏君豪
    指導老師:蔡智勇、黃登揚
    摘要:
    • 大數據為當今金融業不可或缺的一部份,而信用卡則是台灣銀行產業業績的重中之重,在提高信用卡使用率與使用金額的同時,如何降低盜刷與違約欠款等風險狀況就顯得格為重要.
        本專題以玉山銀行公開競賽的信用卡資料為基礎,輔以網路上搜尋到的相關信用卡公開資料,使用Python、Weka、SQL、Pandas等工具進行機器學習的模型建立及調校測試,模擬分析出一套針對信用卡盜刷與違約欠款的風險評估系統.

        本系統之機器學習模型可直接應用於各金融銀行之信用卡領域,另分析出之資料也可再加深研究後成為其他金融風險的素材,對應當前金融科技的數位浪潮,相信定能為大數據化的世界盡一份心力.
    簡報檢視

     


     

  • 【專題成果】資料科學與大數據分析師養成班第02期
    【專題成果】資料科學與大數據分析師養成班第02期

    專題名稱:銷房價波動影響因子之探討-以桃園市為例
    學員:鄭國生、林立杰、陳冠舟、林耘世、林偉超、廖振榮
    內容簡介:
    • 房屋買賣係人生大事,不可不慎。本團隊欲透過資料科學與大數據分析方法,找出房價走勢之預測模型,以利潛在消費者能更系統性地理解房市交易現況。

      從〈內政部不動產交易實價查詢服務網〉取得桃園市近十年的所有交易紀錄,並針對居住目的進行篩選,得到21萬筆資料、28項物件相關欄位;而後經欄位整理並從文獻建議再增添所得稅、人口密度、教育程度、用電量等附屬資料,將變項增加至60多項,而後開始進行分析。

      Python、R及其圖形化工具Rattle、還有Weka及Excel皆為資料清洗與分析的主要工具。另一方面,透過MySQL建立資料庫,以利成員對資料的使用及存取。機器學習的操作面,採用隨機森林(Random Forest)、類神經網絡(Neural Network)、決策樹(Decision Tree)及時間序列(Time Series)等方法。

      整體觀之,桃園市住宅價格平均為4.7萬元(每平方公尺),近十年的價格上漲多於下跌;桃園區及中壢區為主要交易熱區,價格擺盪頻繁;在嘗試過多項預測模型後,模型錯誤率降至50%以下,勝過隨機猜選。影響因子部分,物件本身條件(如建物及土地的大小、屋齡、建材、樓層及所在區域等)勝過外在條件(如人口密度、貸款利率等)。本次成果亦建立初步互動式查詢系統以展示其實用性,有助於購屋者查詢實價登錄資訊及未來房價走勢。

     

    專題名稱:線上購物網站之產品推薦系統-以巴西電子商務為例
    學員:張雅筑、王富正、莊以珺、林明鎮、康馨尹、胡竹林、宋嘉仁、陳愫菁
    內容簡介:
    • 商品推薦系統為依據客戶特性和購買行為,向客戶提供可能有興趣的產品,進而提升訂單成交機會和單筆訂單金額。

      本研究以提高電商交易客單價為目的,提高電商平台進行行銷決策,以及提供購物車頁面推薦之建議。資料以巴西知名電商Olist歷史交易紀錄作為關聯性分析及尋找決策因子為主軸。使用關聯式資料庫MySQL為輔助,以Python、Pandas、Excel進行資料清洗及合併,並使用Weka、Excel、R分別以Rpart及Apriori方法進行決策樹以及關聯性規則探討,找出熱銷商品的決策購買因子,以及顧客購買商品品類類別的關聯性,作為特定顧客購物車品項的推薦規則。

      經分析後,使用HTML、CSS、JavaScript語法設計電商內部員工行銷分析系統,加入動態圖表 CanvasJS,登入後可以用web介面查看相關數據統計以及分析結果,並透過下拉式選單查詢關聯商品,作為行銷操作參考。

     

    專題名稱:台指期買賣時機決策分析系統
    學員:楊勛茗、劉又瑄、卓良傑、莊華竺、陳維菁、仰大祥、史展鴻、劉冠纓、鄭安廷
    內容簡介:
    • 本系統以準確預測台灣指數型期貨(台指期)短期漲跌趨勢為目的,提升台指期投資者進出場信心及獲利,故以大數據概念運用期交所公開資訊、政府公開資訊及其他經濟指標、投資市場技術指標作為因子,使用機器學習領域各式方法進行模型建立,並將該模型結合資料庫系統、網站伺服器系統,進行網站視覺化呈現,提供台指期投資者簡單易懂的決策指標。
      產品主要功能:
      1.依各項因子預測台指期隔日開盤漲跌
      2.依台指期價量成本概念判斷價格最佳滿足點,提供投資人進出參考
      使用技術:
      資料處理:excel、python
      資料清洗:pandas
      資料庫系統:mariaDB
      資料分析:R、Weka
      資料視覺化:d3js、python
      資料呈現:rwd響應式網站

     

    專題名稱:AI精準決策 x 推薦產品模型
    學員:侯昌儒、劉文榜、施泳呈、高長義、謝沛霖、林乙呈、李灝、蔡牧錚、鄭維德
    內容簡介:
    • 身處資訊迭代速度越來越快的時代,數據資料的使用已經成為各家公司必備之商業分析基礎。本組以KKBOX之會員行為資料為基礎,著眼於建立一套精準行銷模型。首先透過特徵工程,讓會員分群做出關聯分析。例如:本組以26歲做為區分之基準點,26歲以上跟以下區分為兩大族群,個別又劃分成高風險與高留存族群,並找出高度影響個別族群之特徵因子。再以顧客流失率預測模型,推薦適合個別族群之產品方案及方向。透過此專題研究,日後可針對B2C產業,建立其產品行銷、銷售、服務甚至展店策略之參考基礎,來達到早期規劃、風險評估、最適化資源配置之目的。B2B產業中,若是擁有B2C客戶者也可以藉由此分析快速了解客戶產業。
         以下為本組產品功能與大數據分析步驟精要,供各方先進參考:
      一、  個案分析步驟與系統建置概要:
      1) 大數據環境建置:MariaDB、MongoDB、Hadoop叢集系統建置(5台)
      2) 資料預處理-
      內容:資料清洗、遺失值填補、篩選整合、特徵工程等
      使用工具:Python、R、SQL、Excel
      3) 資料統計分析-
      內容:敘述、推論統計、資料視覺化評估
      使用工具:Hue、Spark、Python、R、Weka
      4) 各功能模組建置-
      內容:機器學習相關模型
      使用工具:Hue、Spark、Python、R、SQL、Weka
      5) 協作平台開發:Git版本控制;Visual Studio Code
      6) 系統建置(前、後端開發串聯)

     

    照片分享:

     

     


     

  • 【專題成果】資料科學與大數據分析師養成班第01期

    【專題成果】資料科學與大數據分析師養成班第01期

    專題名稱:銷售量預測暨分析系統-以蘇州為旅宿業例
    學員:楊詠竣、黃駿欽、余政家、郭晏誠、黃潤棠、劉哲寧、林怡秀、沈煜翔
    內容簡介:
    • 本組著眼於建立一套行銷導向之“銷售量預測暨分析系統",搭配案例分析於蘇州之旅宿相關產業。該系統之目標旨在提供飯店業者經由大數據分析處理後之資訊,以資訊之價值作為業者建立其產品行銷、銷售、服務甚至展店策略之參考基礎,來達到早期規劃、風險評估、最適化資源配置之目的。本組期於學習成果發表上能以該系統展現大數據分析之各類技術應用與符合時勢之資訊平台整合與開發能力,作為此次學習發表重點。
      以下為本組產品功能與大數據分析步驟精要,供各方先進參考:
      一、產品主要功能:
      1) 住房銷售量預測:供業者做人、物力資源前置規劃參考
      2) 住房價格敏感度分析:供業者建立其商品定價策略參考
      3) 飯店特徵分析:區別飯店特徵,供業者作業務擴張、展店投資之參考
      4) 網路評價分析:供業者持續改善其產品、服務等之參考
      5) 即時綜合統計報表:供業者迅速了解其經營概況與績效評估
      二、個案分析步驟與系統建置概要:
      1) 資料收集:相關大數據集網站資料、外部網站資料爬蟲
      2) 資料預處理-
      內容:資料清洗、遺失值填補、篩選整合、特徵工程等
      使用工具:Python、R、SQL、Excel
      3) 資料統計分析-
      內容:敘述、推論統計、資料視覺化評估
      使用工具:Python、R、SQL、SPSS、Power BI、Weka
      4) 各功能模組建置-
      內容:統計模型、ML、DL演算法評估、Tensorflow運算等
      使用工具:Python、R、SQL、SPSS、Power BI、Weka
      5) 協作平台開發:Git版本控制;Visual Studio Code
      6) 網頁平台建置:DjangoR、Python、AWS EC2、D3.JS
      7) 雲端服務建置:SQL Server、AWS RDS資料庫
      8) 系統建置(前、後端開發串聯)

    學習活動照片:

    IMG_20181026_102847

    IMG_20181026_102900

    LIE_0631

     

    專題名稱:消費金額預測與行為分析-以Brutal Age手機遊戲玩家為例
    學員:何旻虹、陳杰佑、李翔蘊、廖慧君、陳寬、劉丞邦、許如瑩
    內容簡介:
    • 我們主要系統分為三大部分:
      (1) 玩家課金額預測系統:在遊戲初期了解玩家的價值有助於提升後續廣告投放、玩家的禮包推薦,及營運活動的精確性以提高玩家遊戲體驗及廠商收益。因此利用玩家在遊戲內前7日的行為資料,預測他們每個人在45日內的付費金額。
      (2) 精準行銷系統:此系統由兩分枝系統組成:(一)分析玩家0-7天所消耗資源,判斷影響玩家課金的主要資源種類。(二)針對帶來主要收益的族群,分析此族群的重視資源。找到影響課金行為的主要資源,並對此資源進行精確行銷推廣。
      (3) 產品相關推薦系統:觀察全體玩家消耗資源的相關性,持續推薦具有相關性資源以玩家維持遊戲熱度。
      使用技術:
      (1) 資料預處理、資料清洗:Python、MS SQL
      (2) 尋找遊戲內關鍵資源:weka、Python(sklearn)
      (3) 敘述統計:Excel
      (4) 資料視覺化:Python、D3.js
      (5) 網頁前端建置:Html、CSS、Javascript

    學習活動照片:

    IMG_20181026_110910

     

     

    專題名稱:捲積神經網路進行AOI缺陷影像辨識-以電子業產品為例
    學員:郭建立、邱德良、李嘉偉、黃惠鈴、陳明發、吳玉鳳、陳星憲、顏金龍、張振興
    內容簡介:
    • 自動光學檢測(AOI)為高速度、高精確度的光學影像檢測系統,用來取代傳統人工檢驗判別,提高效率、準確率與一致性。近期類神經網路的再次崛起,在影像辨識競賽(ImageNet) 有著顯著的改善,引領著產學界大量使用捲積神經網路(CNN)作為新型態的影像辨識的模型。
      本專題以此為方向,藉由python的編譯使用不同套件作為輔助(資料前處理套件:numpy/pandas、模型套件: sklearn/tensorflow/keras /pyTorch、繪圖套件: matplotlib/ seaborn )。其中提供了原始資料中存在資料不平衡問題的解決方法,並對於不存在於已知類別中的缺陷提供非監督式學習方法作為異常點偵測,最後探討監督式學習下不同經典CNN模型結構letNet/VGG/Inception/ResNet…下的準確率。

    • 在數據分析後,需要有良好圖表的即時呈現,便於人們做出相關決策。因應此需求,使用 Django 作為網頁伺服器,HTML/CCS 為網頁基底,加入動態圖表 D3JS、gooogle chart、CanvasJS,結合後端資料庫(SQL)串接,整合出適合的決策統計管理儀表板。

    學習活動照片:

    IMG_20181026_113110

    IMG_20181026_112950

     

     

    專題名稱:載客熱點預測與分析-以台北市內湖區計程車為例
    學員:徐慶崴、何佩瑜、曾暉雅、陳尹翊、吳湘嵐、羅文彥
    內容簡介:
    • 本研究以發展與經營智慧城市為目的,提升交通服務品質、減少道路乘車空車率並且提供載客熱點建議,故以台灣大車隊所提供的台北市內湖區計程車乘客之歷史乘車時間與經緯度作為預測模型主軸。此外,對經緯度地理位置進行25區分區定義,以爬蟲抓取其他相關json地理資訊、設施商店資訊及天氣資訊,進而用python進行資料清洗、補值、分類來建立預測模型,其中以Keras的Sequential多層類神經網路進行載客需求車次預測,並同時使用WEKA來作雙重預測檢測。經預測處理後,將預測結果之資料存取至mongoDB,提供網頁給使用者輸入欲預測之時間與地區相關資訊後,回饋其特定地點乘車需求,並將結果以d3js及google map API顯示。

    學習活動照片:

    LIE_0638

    成果展_181029_0021

     

     

     


     

  • 【專題成果】大數據分析應用實務班第03期
    【專題成果】大數據分析應用實務班第03期
    專題名稱:萬點以後的未來-預測台股指數
    學員:邱淮宸、黃小珊江偉銓、詹勳賀簡煒罡、羅健益朱彥穎
    內容簡介:
    • 爬取資料-以爬蟲程式從網上抓取各項經濟數據,包含:
      • 總體經濟領先指標
      • 國際主要股市指數
      • 國際大宗商品價格
      • 其他主要財經指標
    • 資料整理-將資料清洗、正規化後存入資料庫
    • 資料視覺化呈現-將資料以各種統計圖表呈現
    • 選取變項-以機器學習分析各變項相關性進行篩選
    • 訓練-訓練機器學習模型對台股指數進行預測與驗證
    • 預測-挑選出驗證效果最佳的預測模型

     

    專題名稱:油壓系統狀態監測數據分析及故障檢測
    學員:宋孟儒、徐偉翔、彭宇壕、陳俊安、張峻瑋、陳映誠
    內容簡介:
    • 利用Python以及weka分析油壓系統狀態監測數據。並且依照各個設置於裝置上的Sensor數據去正確分析機器的狀態是否故障需要協助維護,或是停機維修。
      經過以上的處理可以防止機器在錯誤的狀況下繼續運作導致的損失,以及錯誤的報錯導致產線需要停止的狀況,減少因停機導致的時間成本的損失。
      並且將預測出來的數據用資料視覺化來呈現結果。

     

    專題名稱:Coupon精準行銷
    學員:黃昱維、邱邵崴、陳慶霖、詹惠雯張邵宇
    內容簡介:
    • 利用Kaggle平台所提供的日本優惠券販售數據和日本政府開放資料:
      -解釋歷年產品銷售狀況、消費者偏好、購買習慣
      -利用客戶瀏覽商品時的點擊紀錄預測可能購買商品
      步驟

      • 資料收集

      Kaggle : 優惠券資料
      網路開放資料 : 地區氣溫、收入水準…

      • 資料篩選

      SQL server : 空值篩選、欄位合併
      Pandas : 資料表合併、欄位篩選

      • 資料轉換

         Pandas : 創造欄位

      • 資料分析

      Weka :分群、決策樹、關聯

      • 結果呈現
      客戶在網站瀏覽商品時的點擊紀錄預測會購買何種商品

     

    專題名稱:個人健康小助理-糖尿病預測與預防
    學員:張俊鋐、何松原、范綱宸、翁元彬
    內容簡介:
    • 近年糖尿病排名仍維持在第5名,死亡的人數逹到9,845人。我們持續在糖尿病的預防提供解決方式。我們知道罹病人口的飲食、運動、生活方式、血糖控制及糖尿病併發症處理的改變都有很大的關聯性,這些改善也使得糖尿病人的死亡率逐年下降,因此藉此機會應用於我們的學習數據分析。

      我們利用幾個方法析數據,迴歸分析,找出特徵值以處理訓練資料並送入機器學習期望可以預測糖化血色素的值,另外則是直接以資料送入機器學習,得到預測糖化血色素的值,希望透過簡單且有依據的方式提醒用戶關心自己健康,或是尋找醫生。

     

    專題名稱:外國人來台旅遊行為分析暨旅遊推薦系統
    學員:鄒明君謝豐任黃文愷
    內容簡介:
    • 我們依據中研院所提供的104年來台旅客調查問卷資料, 透過機器學習的方式進行資料分析,並將結果寫入資料庫中. 外國旅客只要登入我們所建置的網站並輸入基本資料. 網站就會依據這些資料進行分析, 並將適合的台灣旅遊景點推薦給外國旅客.

     

    專題名稱:睡眠大數據分析
    學員:魏嘉瑩、黃智揚、朱家立、陳志信、程勇達
    內容簡介:
    • 人的一生中有三分之一時間是處於睡眠狀態,睡眠是不可或缺的生活作息。從腦波中可清楚看到,人從入睡至起床約會出現四至六個循環,每個循環又可分為淺睡與深睡,時間長度約為90分鐘。而因穿戴式裝置的普及,我們希望能透過高登智慧手環所擷取到的數據(運動與睡眠情形)與其他生理數值,找出各種與睡眠有關聯的因子及其關聯強度,希望進而協助現代人改善睡眠困擾。
      資料清過清洗之後,我們約篩出14萬筆數據。經過差異檢定與多種預測方法,得出以下發現:
      一、差異比較:

      • 日期因素:週間與週末的睡眠時間迥異,月圓與否則不影響睡眠。
      • 性別、年齡對於睡眠長度皆有顯著差異

      二、預測

      • 以線性迴歸與類神經網路學習進行預測,各項健檢指標對於睡眠時間長度的預測力薄弱
      • 運動習慣能以K-means方法有效將睡眠時間長度分群
      整體而言,性別、年齡與睡醒是否為週末對睡眠長度有顯著影響,而各項生理指標對於睡眠的預測較低,唯運動習慣能有效分類睡眠時間。

     

     


     

  • 【專題成果】大數據分析應用實務班第02期
    【專題成果】大數據分析應用實務班第02期
    專題名稱:旅遊商品消費型態分析
    指導教授: 蔡智勇 老師
    學員:黃錦富、江顯銘、彭柏翰、黃世嶧、柯義詮、尤信昌、張其元
    成果海報

     

    專題名稱:使用半導體製程數據分析來建立良率預測模型
    指導教授: 蔡智勇 老師
    學員:張添詔、翁瑞旭、張雀屏、謝龍志、周志榮
    成果海報

     

    專題名稱:根據新聞預測股價波動(探究文字與數字之奧妙)
    指導教授:黃登揚 老師
    學員:程瑜銘、蔡俊賢、李振明、陳慧怡、傅思源、林皓晨、胡介國、姜沛晴、陳銘智
    成果海報

     

    專題名稱:看見糖尿病在大數據裡的足跡--糖尿病潛勢分析
    指導教授: 黃登揚 老師
    學員:駱志忠、陳晴雯、李佩玲、鄭宇倫、葉孟雄、彭淳鈺、陳茹雯、黃亭婷
    成果海報

     

     


     

  • 【專題成果】大數據分析應用實務班第01期
    【專題成果】大數據分析應用實務班第01期

    專題名稱:應用機器學習於晶圓製造參數預測模型建立及驗證
    指導教授:吳佳諺 老師
    學員:劉碧恩、張廣仁、劉紹偉、李曉娟、曾國倫、羅雅雯、陳詣斌
    成果海報

     

    專題名稱:醫療大數據--精準健康平台 Precision Health
    指導教授:黃登揚 老師
    學員:沈學斌、翁偉倬、陳亭宇、張聿廷、蔡智仁、趙楠楠、陳思樺、劉冠嫄、鍾弦臻

     

    專題名稱:黃金資訊視覺化及趨勢驗證
    指導教授:吳佳諺 老師
    學員:林宥延、朱敏慧、林珍安、楊惠雯、王彥婷、吳金霖、蔡亞樵
    成果海報


    專題名稱:銀行客戶消費支援決策系統
    指導教授: 蔡智勇 老師
    學員:孫華鴻、楊佩珍、陳怡君、彭紀瑋、張鋒淇、張佑安
    成果海報