Coursera : 帶著大數據來教學

來源 / Coursera blog  – Joshua Horowitz – “Bringing Data To Teaching"

當一個老師選擇在Coursera上開課時,他們將直接的影響全世界數以萬計的學生,這種廣泛而直接的影響力,一直以來都是Coursera吸引老師們開設課程的原因。然而,我們並不引此滿足,在我們想像中,即時的、大量的學生回饋可以幫助老師看到一些意想之外的學習行為,並且幫助老師們改善並探索更多MOOC的可能性。

Coursera中的University Product團隊為了我們的合作夥伴們發展了一套全新的工具,這套工具將統合豐富而複雜的原始學生活動的即時數據,透過設計與分析,轉換成易讀的圖形化圖表,這些圖表可以幫助老師了解他的學生,並隨時對課程作出調整。

統合介面 (Dashboards)

今年春季,我們發展了 「Google資料分析(Google Analytics)」式的統合介面,提供老師一些課程學生的綜觀數據:「誰來上我的課呢?他們來自於哪裡?他們刻上得如何?哪裡遇到了問題,或是跟不上進度?」

超過半數的老師每周都會來確認這些數據,並依此調整課程進行的腳步。

這樣的綜觀數據能看到一些概況。為了能有更深入的分析,今年夏天,我們在舊有基礎上加入對於測驗(quizzes)和同儕互評(peer assessments)的分析。

這些數據的回饋能夠幫助老師們了解:「哪些內容對於學生而言,是容易的?哪些是困難的?哪些是常見的錯誤,可以在課程中提醒同學?」

舉例來說,上圖是Andrew Ng教授開設的Machine Learning課程的第一次測驗,這堂課已應是第8次開設了。

在最上方,我們顯示了三個重要的統計數據 : 「學生第一次完成作業的平均分數、繳交作業的總人數、學生平均重複繳交次數(學生若不滿意最初分數可以重複繳交)」,並以互動式圖表呈現這三項的分布情形。在下方,則列出了每個測驗題目的基本統計數值。

這些統計數據都非常直觀,但是卻非常有用。舉例來說,只要簡單用「第一次測驗平均得分(First attempt average score)」作為排序,就可以發現:「哪樣子的測驗題最困擾著你的學生」。

如上圖示例,藉由排序,我們可以清楚的分辨出哪些測驗題是學生最難掌握的。排序出來的結果讓人感到驚訝,因為這個問題只有兩個答案選項,答對比例卻只有54%,只比隨便亂猜的機率好上一點點。

這個結果提醒開課老師要注意:「這樣的成績符合老師們的預期嗎?還是在意料之外?是課堂內容不能正確地傳達?或是測驗題的敘述使得學生誤解?」

在這個例子中,Andrew教授檢查了這些測驗題,發現題意表達不清,所以,他改了這兩個測驗題的敘述,在下一次開課的測驗結果將檢驗這樣的改進是否成功。

同儕評分(Peer-graded assignments)

新的統合介面也呈現了同儕評分的分析。

以同儕評分而言,如果我們想要知道同儕評分的準確性,光靠上述自動評分使用的「學生平均分數」和「學生繳交次數」這樣簡單的指標是不夠的。

在同儕評分中,我們結合不同評分者(evaluators)的成績給予最終成績。如果所有的評分者傾向給予一致的成績,則同儕評分的可信度很高,反之,當評分者的意見不一致時,就會增加同儕評分的不確定性。

為了進行同儕評分的分析,我們在綜合介面中引入了自助抽樣演算法(Bootstrap Method)進行評分過程的模擬。在這個過程中,我們假設一個理想的分布,計算平均的抽樣誤差,並分析所得到的抽樣集合,距離理想的分佈有有多麼遠。以上圖為例,左圖中的評分變異量較少(6%),而右圖的變異量較大(17%)。

如果老師發現評分變異量過高,可能就要修改評分的標準,或是增加同儕互評的數量要求(讓多一點人來評一份作業),來增進同儕互評的品質。

我們希望這樣的系統能夠幫助老師們維持同儕互評系統的有效性。

資料流(Data pipeline)

任何一個從事即時大數據分析的工程師都知道,除了漂亮的綜合介面,背後還有一個複雜的資料處理系統。

我們在此將簡述將原始資料一路轉換成綜合介面圖表的資料流程。

 

(1) 一開始,產生的資料儲存在MySQLCassandra的資料庫,這些資料分散儲存於多個系統,並無法直接用來分析。

(2) 為了統一、清理並處理這些資料,我們將資料萃取、轉換並載入(ETLed)到Amazon Redshift資料庫中,這裡我們使用開源的Dataduct資料庫系統。

(3) 此時,所有的課程資料都已經整合進資料庫,然而對於資料表的運算(join或是aggregation)仍太耗費時間,所以我們將資料轉成以課程為單位的資料表。

(4) 簡單的課程資料表產生後,可以容易地被查詢。我們將資料存入Amazon S3中,並以JSON的格式查詢。

(5) 瀏覽器以REST API的方式查詢Amazon S3中的報告,並且以圖表的方式呈現。

 

經過這樣的資料流程,老師就可以立刻收集到每日的課程統計數據,包括前述的測驗結果與同儕互評結果。

結論(Conclusion)

我們很高興能夠提供這些功能,並誠摯地希望能夠對於老師們的教學帶來幫助。

事實上,這只是一個開始,我們希望能夠從這些數據中萃取出更多有用的資訊,提供給老師們做為課程設計的考量。我們也正在設計回饋的介面,使得老師們能夠容易的透過分析結果改進課程的內容。

想像一下:「透過數據的分析,找到課程的盲點,修改,然後在幾天之內就可以看到對學生們正面的影響」。這樣的構想,正是我們透過平台所希望提供給老師的功能:「迅速增進MOOC教學的效率」,我們希望這樣的即時回饋功能能夠推動MOOC的教學發展。

原文 : https://tech.coursera.org/blog/2014/11/19/bringing-data-to-teaching/

翻譯 / 柯俊先 (本文並未授權翻譯,有侵權問題立刻撤除貼文)

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *

*